提示:呢篇文講嘅唔係混合模型

統計學上,混合物模型粵拼wan6 hap6 mat6 mou4 jing4英文mixture model)係指一類嘅統計模型,最重要嘅特徵係設成[1][2]

  • 個群體入面有若干個子群體,當中
    • 每個子群體之間都有顯著嘅差異;
    • 每個子群體內部差異細;
  • 建立個統計模型嗰陣,唔使拃數據事先指定咗「每個個案屬邊個子群體」呢樣資訊[3]
嚟自歐亞大陸多個唔同地區嘅人;佢哋可唔可以按某啲特性(好似膚色或者嘅形狀呀噉)分做幾「類」呢?

混合物模型個基本諗頭同聚類分析(cluster analysis)好似:混合物模型同聚類分析分別在於,混合物模型唔係建基於對相似度嘅考慮,而且同多數聚類分析做法唔同嘅係,混合物模型係基於模型嘅,會建立統計模型描述啲子群體,再衡量吓個模型有幾能夠解釋手上啲數據[4];除此之外,混合物模型分析結果係會「呢個呢個個案,屬呢組嘅機率係咁多咁多」-唔似得聚類分析噉,會同每個個案有個明確嘅「佢屬邊個聚類」宣稱[註 1][5]

混合物模型仲有得分幾種,最常見嘅係可以按啲可觀察變數嘅特性(詳情睇下面)分做兩類-潛在類別潛在輪廓模型。呢啲噉嘅模型响社會科學人機互動以至人工智能研究上都會用到,而有返咁上下專業知識嘅研究者,都會識得按自己嘅需要揀啱用嘅模型[6]:p. 2

篇文以下嘅內容,假設讀者已經識嗮基本嘅概率論統計學

基本諗頭

編輯

用日常用語講,混合物模型做嘅係[5]:p. 2

混合物模型係種統計分析,用嚟靠一個指標(indicator)搵出一個總體入面唔能夠直接觀察子群體

一場 LCA 會做到以下嘅嘢[7]

  • Input:攞一拃個案,每個個案都係拃睇得到嘅變數上有值;
  • Output:將拃個案分做若干個子群體,當中「屬邊個子群體」係個潛在(數值唔能夠直接睇到)嘅離散變數,每個子群體內部差異細。

舉例說明,想像家陣研究者要設計個網站嚟講解昆蟲相關嘅資訊,佢哋諗緊好唔好將個網站設計成「吓吓都會彈一個昆蟲物種拉丁文學名出嚟」,但佢哋諗諗吓又覺得噉做未必好-專研究昆蟲嘅人(昆蟲學家或者昆蟲學愛好者)可能會鍾意噉嘅做法,但第啲人就會覺得煩;於是班研究者就設定返個人工智能程式,個程式識得按每位用家嘅特性-例如「有冇喺搜尋器度打啲昆蟲嘅學名」(指標;研究者觀察得到嘅嘢)-將每位用家分類做[6]:p. 2

  • 專研究昆蟲嘅人
  • 唔係專研究昆蟲嘅人

-呢個類別就係「建立個混合物模型」呢個過程想搵出嘅潛在變數(潛在-研究者冇得直接觀察,淨係有得靠睇指標嚟判斷)。响混合物模型入面,潛在嗰個類別實係個離散變數,不過啲指標可以係離散又可以係連續

  • 如果啲指標係離散變數,噉個模型就屬潛在類別(latent class)模型;
  • 如果啲指標係連續變數,噉個模型就屬潛在輪廓(latent profile)模型。

數學定義

編輯

數學性啲噉諗,混合物模型個諗頭可以噉形容:想像家陣[5]:Q1 - Q2 [8]:Ch. 6

  •   個個案,每個個案有   咁多個特性  (指標)[註 2][9]
  • 啲個案背後有個離散變數   表示佢「屬於邊個子群體」(類別   個個案嘅   值),  係睇唔到嘅(潛在變數)並且有   咁多個可能值;  可以係研究者响建立模型前唔指定(探索性質分析),但研究者又可以係指定一個   值,再睇吓呢個   值之下建立嘅模型有幾「良好」(睇埋適合度[10]:Table 1
  • 混合物模型個模型最基本有兩個重要參數
    • 每個潛在子群體嘅大細(用   表示),由「隨機揀個個案,個個案屬嗰個群體嘅機率」反映,即係是但攞個個案嚟睇,  嘅數值;
    • 子群體之間互斥,即係一個個案唔准同時屬多過一個子群體, (啲   冚唪唥加埋嗮數值會係 1)。
  • 假設咗局部獨立(local independence;嗰啲指標之間係條件獨立嘅)[註 3]

噉想像以下嘅聯合概率分佈[5]:p. 6

 

  表示個模型啲參數,反映咗   同啲   之間嘅關係。攞住數據,研究者可以由數據度用最大似然估計(MLE)[5]:Q7[11] 等嘅方法估計   嘅參數值,將   數值慢慢調較到令   有咁大得咁大。而如果個模型有咁上下理想(啲適合度值靚),佢哋就可以攞住個模型預測第時攞到嘅數據[12]

模型評估

編輯

一個混合物模型嘅適合度可以用以下呢啲指標衡量:

... 呀噉。

分析軟件

編輯

以下呢啲軟件喺 2020 年代都成日畀人攞嚟做混合物模型相關嘅分析[5]:Q6

... 呀噉。

應用例子

編輯

混合物模型响多門嘅社會科學-包括社會學心理學市場學管理學呀噉-上都有受到採用。呢啲領域嘅分析通常會攞人類做個體,並且透過佢哋嘅行為(一樣可以直接觀察嘅嘢)推斷佢哋可以點樣按心理變數分類(通常都冇得直接觀察嘅嘢)。

例:2021 年開餐行為研究

研究者係班社會學家,想理解啲人嘅開餐行為-因為「一日有冇定時食三餐」等嘅行為會對健康造成明顯影響。佢哋[13]

  • 網上社會調查,問咗 506 位家長,量度每個屋企嘅糧食安全(指屋企嘅成員係咪個個都能夠有足夠嘅嘢食保持住健康)同埋「每個禮拜有幾多次成家人一齊食飯」等嘅多個變數-啲變數描述佢哋飲食方面嘅行為。
  • 用呢啲有關飲食行為相關嘅變數,對攞到嘅數據行潛在輪廓模型,由 1 開始慢慢噉增加潛在類別嘅數量,增加到搵到「最靚」嗰個模型為止,途中用咗 BIC 等嘅多個指標衡量每個模型「有幾靚」,最後搵到嗰個模型係將啲屋企分做 3 大類嘅;
  • 跟住研究者仲用比較平均值嘅統計方法,睇吓嗰三組之間响人口統計特徵上有冇分別。

-於是班社會學家就搵到有用嘅資訊,解答「邊啲人群零舍容易食得唔健康」等嘅問題。

睇埋

編輯

註釋

編輯
  1. 呢點畀唔少人覺得係混合物模型同聚類分析比嘅主要缺點之一。亦有研究者指出,好多研究就噉當每位受試者嘅類別等同「佢最大機率屬嘅類別」,而噉做可能會扭曲分析結果。
  2. 啲指標可以係同一個變數响唔同時間點嘅值。可以睇吓縱向研究嘅概念。
  3. 技術性啲講,即係話「屬邊個子群體」解釋嗮啲指標之間嘅共同變異

文獻

編輯
  • Brown, S. L., Wanamaker, K. A., Greiner, L., Scott, T., & Skilling, T. A. (2021). Complex trauma and criminogenic needs in a youth justice sample: A gender-informed latent profile analysis. Criminal justice and behavior, 48(2), 175-194,呢篇文用潛在輪廓模型,話啲有犯罪行為青少年可以分類。
  • Campbell, K. W., Voss, A. T., Acuff, S. F., Pebley, K., Berlin, K. S., Martens, M. P., ... & Murphy, J. G. (2021). Statistically derived patterns of behavioral economic risk among heavy-drinking college students: A latent profile analysis (PD). Experimental and clinical psychopharmacology, 29(2), 191,呢篇文用潛在輪廓模型,話啲有飲酒問題嘅人大致可以分做三類。
  • Clark, S. L., & Muthén, B. (2009). Relating latent class analysis results to variables not included in the analysis (PDF),呢篇文用咗電腦模擬剖析「應該要點分析潛在類別之間响第啲變數上嘅差異」。
  • Clogg, C. C. (1995). Latent Class Models. In G. Arminger, C. C. Clogg, & M. E. Sobel (Eds.), Handbook of statistical modeling for the social and behavioral sciences. New York: Plenum,一篇早期嘅 LCA 入門文。
  • Finch, W. H., & Bronk, K. C. (2011). Conducting confirmatory latent class analysis using M plus. Structural Equation Modeling, 18(1), 132-151,呢篇文最後一節有講到「做 LCA 樣本要有幾」嘅問題。
  • Lanza, S. T., Flaherty, B. P., & Collins, L. M. (2003). Latent class and latent transition analysis. Handbook of Psychology, 663-685.
  • Lazarfeld, P., & Henry, N. (1968). Latent Structure Analysis. New York: Houghton Mifflin.
  • Oberski, D. (2016). Mixture models: Latent profile and latent class analysis (PDF). In Modern statistical methods for HCI (pp. 275-287). Springer, Cham.
  • Quaiser-Pohl, C., Geiser, C., & Lehmann, W. (2006). The relationship between computer-game preference, gender, and mental-rotation ability. Personality and Individual differences, 40(3), 609-619,呢篇文用潛在輪廓模型剖析男仔同女仔對電子遊戲嘅偏好,將鍾意打機嘅細路分類。
  • Wardenaar, K. (2021). Latent Profile Analysis in R: A tutorial and comparison to Mplus. University Medical Center Groningen (UMCG).
  • Wurpts, I. C., & Geiser, C. (2014). Is adding more indicators to a latent class analysis beneficial or detrimental? Results of a Monte-Carlo study. Frontiers in psychology, 5, 920,呢篇文用電腦模擬,指出大啲嘅樣本、數量多啲嘅指標同埋質素高啲嘅指標都能夠提高混合物模型嘅再現性
  • Williams, G. A., & Kibowski, F. (2016). Latent class analysis and latent profile analysis (PDF). Handbook of methodological approaches to community-based research: Qualitative, quantitative, and mixed methods, 143-151.

引述

編輯
  1. Weller, B. E., Bowen, N. K., & Faubert, S. J. (2020). Latent class analysis: a guide to best practice (PDF). Journal of Black Psychology, 46(4), 287-311.
  2. Williams, G. A., & Kibowski, F. (2016). Latent class analysis and latent profile analysis (PDF). Handbook of methodological approaches to community-based research: Qualitative, quantitative, and mixed methods, 143-151.
  3. Everitt, B.S.; Hand, D.J. (1981). Finite mixture distributions. Chapman & Hall.
  4. Masyn, K. E. (2017). Measurement invariance and differential item functioning in latent class analysis with stepwise multiple indicator multiple cause modeling. Structural Equation Modeling, 24(2), 180-197.
  5. 5.0 5.1 5.2 5.3 5.4 5.5 Nylund-Gibson, K., & Choi, A. Y. (2018). Ten frequently asked questions about latent class analysis (PDF). Translational Issues in Psychological Science, 4(4), 440.
  6. 6.0 6.1 Oberski, D. (2016). Mixture models: Latent profile and latent class analysis (PDF). In Modern statistical methods for HCI (pp. 275-287). Springer, Cham.
  7. Nylund, K. L., Bellmore, A., Nishina, A., & Graham, S. (2007). Subtypes, severity, and structural stability of peer victimization: What does latent class analysis say? Child Development, 78(6), 1706-1722.
  8. Clogg, C. C. (1995). Latent Class Models. In G. Arminger, C. C. Clogg, & M. E. Sobel (Eds.), Handbook of statistical modeling for the social and behavioral sciences. New York: Plenum.
  9. Mplus user guide Ver_7 (PDF). Chapter 7-8.
  10. 10.0 10.1 Finch, W. H., & Bronk, K. C. (2011). Conducting confirmatory latent class analysis using M plus (PDF). Structural Equation Modeling, 18(1), 132-151.
  11. Muthén, B. O. (2001). Latent variable mixture modeling. In G. A. Marcoulides & R. E. Schumacker (Eds.), New developments and techniques in structural equation modeling (pp. 1-34). Mahwah, NJ: Lawrence Erlbaum Associates.
  12. Lazarsfeld, P.F. and Henry, N.W. (1968) Latent structure analysis. Boston: Houghton Mifflin.
  13. Barton, A. W., Koester, B. D., Fujimoto, E. M., & Fiese, B. H. (2021). The complexities of family mealtimes in the 21st century: A latent profile analysis. Appetite, 157, 105009.
  14. Clark, S. L., & Muthén, B. (2009). Relating latent class analysis results to variables not included in the analysis (PDF).
  15. Yang, M.-H. and Ahuja, N. (2001). Face detection and gesture recognition for human-computer interaction. Springer Science & Business Media.
  • PyMix - Python Mixture Package, algorithms and data structures for a broad variety of mixture model based data mining applications in Python.
  • sklearn.mixture - A Python package for learning Gaussian Mixture Models (and sampling from them).