要貼去:因素分析

因素分析嘅想像圖;家陣研究者想靠量度 ... ,剖析 (例如智能)呢個睇唔到嘅「因素」。如果做嘅係 EFA,研究者唔知 嘅數量有幾多個,要。

因素分析粵拼jan1 sou3 fan1 sik1英文Factor analysis)係一系列統計方法,用嚟將大量變數轉化成少量因素嘅,當中「因素」通常係一啲數值冇得直接量度嘅變數,所以就要由量度得到嗰啲變數嚟「反映」佢。例如智商測驗係想量度智能,但係智能(因素)呢家嘢冇得直接量度,佢嘅數值只可以靠住由測驗題目攞到嘅分數(量度得到嘅變數)嚟反映[1]

以下嘅內容如果有基本概念唔明,可以去睇吓迴歸分析

基礎諗頭 編輯

因素分析最重要嘅目標係[2]:p 1

將數量龐大嘅變數,轉化做數量少啲嘅因素

做科研嗰陣,研究者往往要面對好多唔同嘅變數,但係好多時一大拃變數查實都係反映緊某啲「潛在因素」(潛在變數),而因素分析就係想計一連串嘅數,搵出呢啲「潛在因素」。舉個具體例子,想像研究者畀受試者做咗個 IQ 測試

  • 個測試有   咁多條題目,   ...   表示受試者喺每條題目上嘅得分,當中每條題目都有個誤差值  ;呢   個變數就係睇咗隨機變數
  •   表示智能,每個   都掕咗個   值,  反映嗰條題目嘅分同   有幾強相關,簡化講可以大致當係
     
  •   係個冇被觀察到(數值冇直接被紀錄)嘅隨機變數;複雜啲嘅因素模型可以一個模型有多過一個噉嘅「潛在因素」;
  • 行因素分析前,  嘅數值係未知,而因素分析做嘅,就係要搵出啲參數(啲  )嘅數值;

要圖像化嘅話,啲人通常會將因素分析畫做好似文頭嗰幅圖噉嘅模型。搵到啲參數嘅數值,研究者仲可以做好多唔同嘅分析,包括係「啲變數係咪真係反映緊同一個潛在因素」或者係「個潛在因素嘅結構係點,會唔會有得再細分做兩個子因素」... 等等[3]。事實上呢種噉嘅分析,係 IQ 呢個概念嘅數學基礎。

因素分析可以分兩大類型:探索型(EFA)同確定型(CFA)。如果一位研究者行嘅係 EFA,即係話佢冇事先指定要有幾多個因素,佢會叫部電腦按照某啲條件「睇吓呢啲數據望落似係分到做幾多個因素」,目標係要由數據嗰度產生理論模型;而如果一位研究者行嘅係 CFA,即係話佢會事先指定有幾多個因素,以及係每個因素包括邊啲可觀察變數,然後佢就會叫部電腦計吓,佢心目中嗰個模型同數據所顯示嘅「有幾吻合」—用統計學行話講,意思係話 CFA 會包含測試手上嘅假說[4]

EFA 步驟 編輯

以下講嘅步驟,以 EFA 做中心。

咩時候用 編輯

數據科學上,探索性質嘅因素分析可以好有用[5]:p 2:呢種分析能夠減少要考慮嘅變數嘅數量—用   嘅 1 個數值總結晒嗰一大拃分數,達致用數量更少嘅概念解釋現象;探索型嘅因素分析又可以用嚟探討變數之間有咩關係,以及係好似 IQ 噉嘅理論概念嘅「內部結構」(例如係會唔會某啲變數零舍反映得到 IQ 呢?)。除此之外,呢種分析仲可以用嚟處理做統計分析不時會遇到嘅多重共線性問題。

郁手行因素分析之前,分析者要睇睇以下呢啲嘢先:

  • 樣本大細:因素分析係一種幾複雜嘅統計分析,樣本一般要起碼有 100 個個體至算得上係「探測真實結果嘅能力」夠高[6],而有再嚴格啲嘅基準會要求樣本最少有 300 個個體咁多[7]
  • 樣本大細可觀察變數個比例:樣本個體數量( )同可觀察變數嘅數量之間嗰個比例亦都好重要;一般嚟講   同變數數量之間要去到 10:1 就比較穩陣,亦有啲統計學專家主張呢個比例要去到 20:1 先至算係可以接受[註 1]
  • 統計相關:實際做因素分析之前,研究者通常都會睇吓啲可觀察變數之間嘅統計相關先;有統計學專家主張,啲變數之間嘅相關值最少要係 .30,先至有可能表示佢哋反映緊某啲潛在變數,而相關值去到 .50 或以上就可以算係「理想」[8]

等等。

因素抽取 編輯

睇埋:平行分析

如果係做 EFA,部電腦就要自行決定「個模型要有幾多個因素」。呢個決定一啲都唔容易做。

想像而家部電腦計咗幾個因素模型出嚟,根據模型 A,嗰拃變數背後有三個潛在變數,模型 B 就話嗰拃變數背後得兩個潛在變數,而模型 C 就話嗰拃變數背後有四個潛在變數。噉亦即係話,分析者要搵某啲條件,作出「手上搵到嘅因素模型當中,邊一個係最可以接受,或者最似係真確嘅」噉嘅決定。而且決定因素數量本質上就係兩難:根據科學上嘅奧坎剃刀原則,科學追求嘅係用最少嘅概念解釋最多嘅現象,所以因素應該係愈少就愈理想;但係另一方面事實又表明,因素數量上升,個模型「解釋到嘅變數變異」實會跟住升—縱使個升幅可能好微細,例如加多一個因素,解釋咗嘅變異淨係升嗰 1% 咁多。

睇特徵值 編輯

内文:特徵值

特徵值(以符號   代表)係統計學成日提到嘅一個概念。簡化噉講,特徵值係反映緊添加一個因素能夠令「解釋到嘅變數變異」升幾多[9]。而要選擇因素嘅數量,一個簡單嘅方法就係一邊加新嘅因素落去個模型度,一邊睇住特徵值點樣變化—噉一旦「加咗第   個因素,解釋到嘅變異嘅升幅」數值(由特徵值反映)跌到低過預先設好嘅門檻(例如特徵值跌到細過 1),部電腦就會停手唔再加新嘅因素,最後得出一個   咁多個因素嘅模型。根據慣常用嘅標準,自然科學嘅因素模型要解釋最少 95% 嘅變異,而社會科學嘅因素模型就要解釋最少 50 到 60% 嘅變異[6]

好似係以下呢個例子噉[5]:p 7已解變異係指解釋到幾多變異,以 % 嚟計):

特徵值 添加因素已解變異會升... 累計已解變異總共幾多?
因素 1 19.095 40.627 40.627
因素 2 2.644 5.625 46.252
因素 3 1.733 3.688 49.940
因素 4 1.354 2.882 52.822
因素 5 1.156 2.459 55.281
因素 6 1.144 2.433 57.714
因素 7 1.014 2.158 59.873

—去到添加第 8 個因素嗰陣,特徵值跌到細過 1,就形成一個 7 個因素嘅模型,解釋得到約莫 60% 嘅變異。

岩屑堆圖 編輯

内文:岩屑堆圖

「一邊添加新因素,一邊睇住特徵值點變」噉嘅思考方法,可以用岩屑堆圖嘅方式圖像化。一幅岩屑堆圖有打橫打戙兩條軸,打橫嗰條表示因素嘅數量,而打戙嗰條表示特徵值。事實表明,隨住因素數量上升,特徵值會變到愈嚟愈細,即係話岩屑堆圖出嗰條線會偏向下跌,跌嘅速度就愈嚟愈慢,形狀望落似岩屑堆,好似下圖[10]

 
Scree plot:岩屑堆圖 | Eigenvalue:特徵值 | Component number:因素嘅數量

而條虛線就表示特徵值係 1 嗰個位—特徵值一跌到落 1 以下,部電腦就停手唔再加新嘅因素。上述呢幅圖噉嘅情況,部電腦最後會出嗰個模型將會有 3 個因素。

旋轉方法 編輯

淨係出咗個模型係唔夠嘅。事實表明,因素分析出嘅模型好多時都「唔夠靚」:出咗個模型之後,是但攞一個變數嚟睇,個變數都會有條式

 

當中

  •   係第   個個體喺第   個變數上嘅數值;
  •   係第   個變數嘅平均值;
  •   係第   個變數喺第   個因素上嘅因素負荷量(下面詳細講);
  •   係第   個個體喺第   個因素上嘅數值;
  •    嗰個估計唔到嘅誤差數值,平均係 0,變異數有限;

矩陣式嘅寫法,就可以寫做望落簡潔啲嘅

 

—是但攞一對「變數-因素」組合,佢哋之間嘅因素負荷量都可以唔同,例如如果佢哋之間個   近乎等如 0,就表示兩者之間咩關係都冇,而如果佢哋之間個   數值好大,就表示兩者之間有好強嘅關係。因素旋轉做嘅嘢,就係想令到個模型入便多啲數值高嘅負荷量,同時少啲數值低嘅負荷量[5]:p 9,用日常用語講可以大致想像成「執吓啲   佢,等個模型睇落靚啲」。

旋轉類型 編輯

因素分析上用嘅旋轉方法,可以有好多種[11]

  • Varimax:追求盡量減少「喺每個因素上都有高負荷量」嘅變數嘅數量,被指可以有效簡化對因素嘅詮釋。
  • Quartimax:盡量減少「每個變數需要」嘅因素嘅數量,令到每個變數都可以由一至兩個因素「解釋晒」。
  • Equamax:結合咗 varimax(簡化啲因素)同 quartimax(簡化啲變數),追求減少「一個因素有高負荷量掕住嘅變數數量」同埋減少「一個變數有高負荷量掕住嘅因素數量」。
  • Promax:容許因素之間有一定嘅統計相關。呢種做法計起上嚟快啲,因而被指比較能夠處理量大嘅數據

喺廿一世紀初嘅統計學界,因素旋轉呢樣嘢受到一定嘅批評:事實表明,數據入便嘅細微變動,可以令到因素旋轉出嘅結果出現大變;例如而家手上有 300 個個體,用呢 300 個個體做 EFA 用 varimax 旋轉,然後再由 300 個個體入便是但剷走 10 個個體嘅數據,重做用 varimax 旋轉嘅 EFA,出嘅因素模型可以唔同晒(因素嘅數量唔同,而且「邊個變數負荷落去邊個因素」又唔同咗);噉嘅問題亦表示,因素旋轉令到研究者難以比較唔同研究出嘅結果。事實係有社科研究曾經試過發生噉嘅事—班研究者喺度研究文化,個個都有用因素分析,用嘅旋轉方法唔同,打後嘅研究者發現,呢幾份研究冇旋轉得出嘅因素模型好相似,但係做咗旋轉之後嘅因素模型唔同晒,唔同研究者手上都有個唔同嘅因素模型,個個諗住自己發現咗新嘢,仲創造新概念嚟解釋呢啲「新發現」[12]

結果詮釋 編輯

睇埋:語義

搞掂晒呢啲步驟,分析者就要詮釋個結果:就算做完旋轉,個模型都只係一大拃數值,分析者要對呢拃數值賦予意義;舉個簡化例子,想像而家研究智商,研究者手上個智商測試有 30 條問題;佢行 EFA 搵到一個因素模型,個模型得一個因素,當中頭嗰 10 條問題嘅因素負荷量(標準化咗)做晒旋轉都仲係好低(連 0.4 都唔夠),同時尾嗰 20 條問題就條條都因素負荷量都超過 0.7(標準化咗);噉佢就有理由相信

  • 然後佢根據手上嘅理論,有理由相信呢啲題目都係反映緊智能嘅,所以佢就將個因素命名做智能
  • 手上個智商測試,啲題目全部都係大致反映緊同一樣嘢(智能)嘅;
  • 頭嗰 10 條問題唔係咁反映得到個因素,可以考慮攞走以後都唔用佢哋;

有研究者指出,因素分析得出嘅因素「幾有意義」講到埋尾都係由研究者定義[13]—有關要點樣同啲因素命名,廿一世紀初嘅學界並冇乜嘢精確嘅基準,好多時都係研究者睇吓喺呢個因素上負荷量高嘅變數,再認為佢哋「似係大致反映緊 XXX 呢個理論概念」,就當咗佢哋係反映緊呢個概念。

重要概念 編輯

睇埋:常態分佈
  • Normality: factor "there has to be univariate and multivariate normality within the data"
  • "thhere is no univariate and multivariate outliers"
  • there is a linear relationship between factor and variable (A factor with 2 variables is reliable only when the variables are highly correlated (r > .70) but uncorrelated with other variables.
  • a factor should have at least 3 variables
  • Recommended sample size: 300 individuals
  • The ratio of respondents:variables should be at least 10:1 and
  • the correlation r must be .30 or more
  • 特徵值

類似分析 編輯

主要應用 編輯

睇埋:智能智商

睇埋 編輯

註釋 編輯

  1. 喺廿一世紀初,統計學界對於「因素分析用嘅樣本最少要有幾大」呢條問題查實有相當嘅爭議。

文獻 編輯

參考 編輯

用咗嘅重要概念或者專有名詞嘅外語(主要係英文)名:

引用咗嘅學術文獻或者網頁

  1. Child, Dennis (2006), The Essentials of Factor Analysis (3rd ed.), Continuum International.
  2. Yong, A. G., & Pearce, S. (2013). A beginner's guide to factor analysis: Focusing on exploratory factor analysis. Tutorials in quantitative methods for psychology, 9(2), 79-94.
  3. Bandalos, D. L. (2017). Measurement Theory and Applications for the Social Sciences. The Guilford Press.
  4. Pett MA, Lackey NR, Sullivan JJ. Making Sense of Factor Analysis: The use of factor analysis for instrument development in health care research. California: Sage Publications Inc; 2003.
  5. 5.0 5.1 5.2 Williams, B., Onsman, A., & Brown, T. (2010). Exploratory factor analysis: A five-step guide for novices. Australasian journal of paramedicine, 8, 1-13,佢 Table 2 嗰度講到幾種「郁手行因素分析之前要做」嘅測試。
    佢噉嚟描述旋轉:"Rotation maximises high item loadings and minimises low item loadings, therefore producing a more interpretable and simplified solution."
  6. 6.0 6.1 Hair J, Anderson RE, Tatham RL, Black WC. Multivariate data analysis. 4th ed. New Jersey: Prentice-Hall Inc; 1995.
  7. Tabachnick BG, Fidell LS. Using Multivariate Statistics. Boston: Pearson Education Inc; 2007.
  8. Hair J, Anderson RE, Tatham RL, Black WC. Multivariate data analysis. 4th ed. New Jersey: Prentice-Hall Inc; 1995. Hair et al. (1995) categorised these loadings using another rule of thumb as ±0.30=minimal, ±0.40=important, and ±.50=practically significant.
  9. Factor Analysis - Rachael Smyth and Andrew Johnson,佢哋噉講:"Eigenvalues are a measure of the amount of variance accounted for by a factor, and so they can be useful in determining the number of factors that we need to extract."
  10. George Thomas Lewith; Wayne B. Jonas; Harald Walach (23 November 2010). Clinical Research in Complementary Therapies: Principles, Problems and Solutions. Elsevier Health Sciences. p. 354.
  11. Factor Analysis Rotation. IBM SPSS.
  12. Fog, A (2022). "Two-Dimensional Models of Cultural Differences: Statistical and Theoretical Analysis" (PDF). Cross-Cultural Research. 57 (2–3): 115–165.
  13. Henson RK, Roberts JK (2006). Use of exploratory factor analysis in published research: Common errors and some comment on improved practice. Educational and Psychological measurement, 66(3), 393-416,佢講咗:"The meaningfulness of latent factors is ultimately dependent on researcher definition."