高氏 kappa

高氏 kappa（粵音：gou1 si6 kaap1 paa4；英文：Cohen's kappa / Cohen's κ）係一個統計指標，通常係用嚟衡量兩位評核者之間嘅同意程度（所謂嘅評分者間信度）嘅。高氏 kappa 喺精神醫學、心理學以及相關嘅醫療領域上幾常用，簡單講就係可以用嚟評估手上嘅診斷方法係咪信得過^[1]^[2]。

簡單例子

舉個例說明。想像而家要製作一套工具，畀心理學家等嘅人員評估一個細路係咪有亞氏保加症：研究者有必要檢驗吓呢套工具係咪靠得住^{[註 1]}，於是佢就搵咗一班細路同埋兩位心理學家返嚟，叫兩位心理學家各自^{[註 2]}攞住套工具評估每一個細路有定冇亞氏保加症^[3]；評估完一輪之後，研究者手上嘅數據望落會好似以下噉——

細路	心理學家 A 評估	心理學家 B 評估
1	有	有
2	冇	冇
3	冇	冇
4	冇	有
5	有	有

高氏 kappa 做嘅，就係由噉嘅數據當中計一個數值出嚟，個數值會話畀研究者知兩位評核者嘅判斷「有幾相似」或者「佢哋之間嘅同意度有幾高」——如果做完一輪測試之後，發現無論邊個心理學家攞住套工具去評，診斷結果都係一樣（高氏 kappa 數值高），研究者就更有信心可以話套工具係靠得住嘅。

攞住上便個例子，就算將兒童換做大人，又或者係將亞氏保加症換做（例如）精神分裂或者抑鬱症，上述嘅思路都一樣會成立。

技術基礎

抽象少少噉講，高氏 kappa 適用於任何「會將啲受試者分做唔同類別」嘅量度架生——當中類別會係一個離散變數，而且唔同類別要係互斥嘅^[4]，例如有亞氏保加症抑或係冇亞氏保加症噉，呢套分類法清楚將受試者分做一個類（離散）而唔係畀個分數佢，而且一位受試者唔可以同時屬多過一個類別（互斥），例如一個細路唔會同時係有亞氏保加症又係冇亞氏保加症^[5]^[6]。

數學化噉講，高氏 kappa 條式如下^[7]：

\kappa \equiv {\frac {p_{o}-p_{e}}{1-p_{e}}}=1-{\frac {1-p_{o}}{1-p_{e}}}

當中 $p_{o}$ 係指有幾多 % 嘅個案係兩位評分者同意（作出同樣嘅判斷）嘅，而 $p_{e}$ 就係指如果啲評分者隨機噉嚟評，有幾多 % 嘅個案會係兩位評分者同意嘅。當中 $p_{e}$ 呢個數值幾重要：研究者大可以單純噉計「喺幾多個 % 嘅個案當中，兩位評核者嘅判斷一樣」^[8]，但係呢種做法畀人批評，話佢冇考慮「評核者可能會靠撞，咁啱兩人都撞同一個答案」嘅情況，而加入 $p_{e}$ 呢個數值變成高氏 kappa，就可以算係考慮埋呢一點^[9]。

高氏 kappa 嘅數值愈高，就表示兩位評分者嘅同意程度愈高（評分者間信度），而一般嚟講高氏 kappa 通常係數值愈高就愈「掂」嘅。根據廿世紀尾嘅慣例，高氏 kappa 嘅數值會按以下嘅標準嚟詮釋^[10]：

數值	表示... ^{[註 3]}
< 0.00	同意度好惡劣
0.00 - 0.20	些微嘅同意度
0.21- 0.40	合理嘅同意度
0.41- 0.60	中等嘅同意度
0.61- 0.80	頗高嘅同意度
0.81- 1.00	完美同意咁滯

除咗評分者間信度之外，高氏 kappa 仲可以用嚟衡量一件工具嘅評分者內信度，即係例如一位評核者攞住同一件工具評一次，過咗一個禮拜後佢再攞住件工具評一次，原則上如果位評核者同件工具都係靠得住嘅，兩次評核之間應該有高嘅同意度^[11]。

睇埋

菲里氏 kappa：可以話係高氏 kappa 嘅進階版，可以用嚟處理有超過兩位評核者嘅情況。
組內相關
統計分類
聚類分析

註釋

↑ 可以睇睇信度嘅概念，尤其是係評分者間信度。
↑ 各自：即係唔准佢哋彼此交流意見。
↑ 唔少研究者都認為呢套詮釋法夾硬嚟，例如「40% 嘅個案被分錯咗類」喺醫療上好難接受，但喺呢種情況下件工具依然會得到中等同意度嘅 κ。
夾硬嚟：對應緊英文 arbitrary。

引述

↑ Figueroa, A., Ghosh, S., & Aragon, C. (2023, July). Generalized Cohen's kappa: a novel inter-rater reliability metric for non-mutually exclusive categories. In International Conference on Human-Computer Interaction (pp. 19-34). Cham: Springer Nature Switzerland.
↑ Friese, S. (2020). Measuring inter-coder agreement — Why Cohen's Kappa is not a good choice. ATLAS. ti Qualitative Data Analysis，有講到啲人點樣批評高氏 kappa。
↑ Allison, C., Williams, J. O., Scott, F., Stott, C., Bolton, P., Baron-Cohen, S., & Brayne, C. (2007). The Childhood Asperger Syndrome Test (CAST) Test-retest reliability in a high scoring sample. Autism, 11(2), 173-185.
↑ Epstein, M.H., Harniss, M.K., Pearson, N., Ryser, G.: The behavioral and emotional rating scale: test-retest and inter-rater reliability. J. Child Fam. Stud. 8(3), 319-327 (1999)
↑ Warrens, M. J. (2015). Five ways to look at Cohen's kappa. Journal of Psychology & Psychotherapy, 5.
↑ Cohen's Kappa. Towards Data Science.
↑ McHugh, Mary L. (2012). "Interrater reliability: The kappa statistic". Biochemia Medica. 22 (3): 276-282，評分者間信度：interrater reliability；亦可以睇睇佢個 Table 3 以及係點解有啲人會計高氏 kappa 嘅平方。
↑ 即係所謂嘅同意百分比（% agreement）。
↑ Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas. 1960;20:37-46.
↑ Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977 Mar;33(1):159-74. PMID: 843571.
↑ Bonnyman A, Webber C, Stratford P, MacIntire N. Intrarater reliability of dual-energy X-Ray absorptiometry–based measures of vertebral height in postmenopausal women. J Clin Densitom. 2012，評分者內信度：intrarater reliability

拎

（英文）廣義化嘅高氏 kappa，佢哋呢道提出咗所謂嘅擴張版高氏 kappa，用嚟處理「啲類別唔係互斥」嘅情況。
（英文）教人用 SPSS 撳高氏 kappa

[3] 可以睇睇信度嘅概念，尤其是係評分者間信度。

[4] 各自：即係唔准佢哋彼此交流意見。

[13] 唔少研究者都認為呢套詮釋法夾硬嚟，例如「40% 嘅個案被分錯咗類」喺醫療上好難接受，但喺呢種情況下件工具依然會得到中等同意度嘅 κ。
夾硬嚟：對應緊英文 arbitrary。

[1] Figueroa, A., Ghosh, S., & Aragon, C. (2023, July). Generalized Cohen's kappa: a novel inter-rater reliability metric for non-mutually exclusive categories. In International Conference on Human-Computer Interaction (pp. 19-34). Cham: Springer Nature Switzerland.

[2] Friese, S. (2020). Measuring inter-coder agreement — Why Cohen's Kappa is not a good choice. ATLAS. ti Qualitative Data Analysis，有講到啲人點樣批評高氏 kappa。

[5] Allison, C., Williams, J. O., Scott, F., Stott, C., Bolton, P., Baron-Cohen, S., & Brayne, C. (2007). The Childhood Asperger Syndrome Test (CAST) Test-retest reliability in a high scoring sample. Autism, 11(2), 173-185.

[6] Epstein, M.H., Harniss, M.K., Pearson, N., Ryser, G.: The behavioral and emotional rating scale: test-retest and inter-rater reliability. J. Child Fam. Stud. 8(3), 319-327 (1999)

[7] Warrens, M. J. (2015). Five ways to look at Cohen's kappa. Journal of Psychology & Psychotherapy, 5.

[8] Cohen's Kappa. Towards Data Science.

[9] McHugh, Mary L. (2012). "Interrater reliability: The kappa statistic". Biochemia Medica. 22 (3): 276-282，評分者間信度：interrater reliability；亦可以睇睇佢個 Table 3 以及係點解有啲人會計高氏 kappa 嘅平方。

[10] 即係所謂嘅同意百分比（% agreement）。

[11] Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas. 1960;20:37-46.

[12] Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977 Mar;33(1):159-74. PMID: 843571.

[14] Bonnyman A, Webber C, Stratford P, MacIntire N. Intrarater reliability of dual-energy X-Ray absorptiometry–based measures of vertebral height in postmenopausal women. J Clin Densitom. 2012，評分者內信度：intrarater reliability

[1]

[2]

[註 1]

[註 2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[註 3]

[11]