高氏 kappa粵音:gou1 si6 kaap1 paa4;英文Cohen's kappa / Cohen's κ)係一個統計指標,通常係用嚟衡量兩位評核者之間嘅同意程度(所謂嘅評分者間信度)嘅。高氏 kappa 喺精神醫學心理學以及相關嘅醫療領域上幾常用,簡單講就係可以用嚟評估手上嘅診斷方法係咪信得過[1][2]

簡單例子

編輯

舉個例說明。想像而家要製作一套工具,畀心理學家等嘅人員評估一個細路係咪有亞氏保加症:研究者有必要檢驗吓呢套工具係咪靠得住[註 1],於是佢就搵咗一班細路同埋兩位心理學家返嚟,叫兩位心理學家各自[註 2]攞住套工具評估每一個細路亞氏保加症[3];評估完一輪之後,研究者手上嘅數據望落會好似以下噉——

細路 心理學家 A 評估 心理學家 B 評估
1
2
3
4
5

高氏 kappa 做嘅,就係由噉嘅數據當中計一個數值出嚟,個數值會話畀研究者知兩位評核者嘅判斷「有幾相似」或者「佢哋之間嘅同意度有幾高」——如果做完一輪測試之後,發現無論邊個心理學家攞住套工具去評,診斷結果都係一樣(高氏 kappa 數值高),研究者就更有信心可以話套工具係靠得住嘅。

攞住上便個例子,就算將兒童換做大人,又或者係將亞氏保加症換做(例如)精神分裂或者抑鬱症,上述嘅思路都一樣會成立。

技術基礎

編輯
睇埋:統計信度

抽象少少噉講,高氏 kappa 適用於任何「會將啲受試者分做唔同類別」嘅量度架生——當中類別會係一個離散變數,而且唔同類別要係互斥[4],例如有亞氏保加症抑或係冇亞氏保加症噉,呢套分類法清楚將受試者分做一個(離散)而唔係畀個分數佢,而且一位受試者唔可以同時屬多過一個類別(互斥),例如一個細路唔會同時係有亞氏保加症又係冇亞氏保加症[5][6]

數學化噉講,高氏 kappa 條式如下[7]

 

當中   係指有幾多 % 嘅個案係兩位評分者同意(作出同樣嘅判斷)嘅,而   就係指如果啲評分者隨機噉嚟評,有幾多 % 嘅個案會係兩位評分者同意嘅。當中   呢個數值幾重要:研究者大可以單純噉計「喺幾多個 % 嘅個案當中,兩位評核者嘅判斷一樣」[8],但係呢種做法畀人批評,話佢冇考慮「評核者可能會靠撞,咁啱兩人都撞同一個答案」嘅情況,而加入   呢個數值變成高氏 kappa,就可以算係考慮埋呢一點[9]

高氏 kappa 嘅數值愈高,就表示兩位評分者嘅同意程度愈高(評分者間信度),而一般嚟講高氏 kappa 通常係數值愈高就愈「掂」嘅。根據廿世紀尾嘅慣例,高氏 kappa 嘅數值會按以下嘅標準嚟詮釋[10]

數值 表示... [註 3]
< 0.00 同意度好惡劣
0.00 - 0.20 些微嘅同意度
0.21- 0.40 合理嘅同意度
0.41- 0.60 中等嘅同意度
0.61- 0.80 頗高嘅同意度
0.81- 1.00 完美同意咁滯

除咗評分者間信度之外,高氏 kappa 仲可以用嚟衡量一件工具嘅評分者內信度,即係例如一位評核者攞住同一件工具評一次,過咗一個禮拜後佢再攞住件工具評一次,原則上如果位評核者同件工具都係靠得住嘅,兩次評核之間應該有高嘅同意度[11]

睇埋

編輯

註釋

編輯
  1. 可以睇睇信度嘅概念,尤其是係評分者間信度
  2. 各自:即係唔准佢哋彼此交流意見。
  3. 唔少研究者都認為呢套詮釋法夾硬嚟,例如「40% 嘅個案被分錯咗類」喺醫療上好難接受,但喺呢種情況下件工具依然會得到中等同意度嘅 κ。
    夾硬嚟:對應緊英文 arbitrary

引述

編輯
  1. Figueroa, A., Ghosh, S., & Aragon, C. (2023, July). Generalized Cohen's kappa: a novel inter-rater reliability metric for non-mutually exclusive categories. In International Conference on Human-Computer Interaction (pp. 19-34). Cham: Springer Nature Switzerland.
  2. Friese, S. (2020). Measuring inter-coder agreement — Why Cohen's Kappa is not a good choice. ATLAS. ti Qualitative Data Analysis,有講到啲人點樣批評高氏 kappa。
  3. Allison, C., Williams, J. O., Scott, F., Stott, C., Bolton, P., Baron-Cohen, S., & Brayne, C. (2007). The Childhood Asperger Syndrome Test (CAST) Test-retest reliability in a high scoring sample. Autism, 11(2), 173-185.
  4. Epstein, M.H., Harniss, M.K., Pearson, N., Ryser, G.: The behavioral and emotional rating scale: test-retest and inter-rater reliability. J. Child Fam. Stud. 8(3), 319-327 (1999)
  5. Warrens, M. J. (2015). Five ways to look at Cohen's kappa. Journal of Psychology & Psychotherapy, 5.
  6. Cohen's Kappa. Towards Data Science.
  7. McHugh, Mary L. (2012). "Interrater reliability: The kappa statistic". Biochemia Medica. 22 (3): 276-282,評分者間信度:interrater reliability;亦可以睇睇佢個 Table 3 以及係點解有啲人會計高氏 kappa 嘅平方
  8. 即係所謂嘅同意百分比(% agreement)。
  9. Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas. 1960;20:37-46.
  10. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977 Mar;33(1):159-74. PMID: 843571.
  11. Bonnyman A, Webber C, Stratford P, MacIntire N. Intrarater reliability of dual-energy X-Ray absorptiometry–based measures of vertebral height in postmenopausal women. J Clin Densitom. 2012,評分者內信度:intrarater reliability