高氏 kappa
高氏 kappa(粵音:gou1 si6 kaap1 paa4;英文:Cohen's kappa / Cohen's κ)係一個統計指標,通常係用嚟衡量兩位評核者之間嘅同意程度(所謂嘅評分者間信度)嘅。高氏 kappa 喺精神醫學、心理學以及相關嘅醫療領域上幾常用,簡單講就係可以用嚟評估手上嘅診斷方法係咪信得過[1][2]。
簡單例子
編輯舉個例說明。想像而家要製作一套工具,畀心理學家等嘅人員評估一個細路係咪有亞氏保加症:研究者有必要檢驗吓呢套工具係咪靠得住[註 1],於是佢就搵咗一班細路同埋兩位心理學家返嚟,叫兩位心理學家各自[註 2]攞住套工具評估每一個細路有定冇亞氏保加症[3];評估完一輪之後,研究者手上嘅數據望落會好似以下噉——
細路 | 心理學家 A 評估 | 心理學家 B 評估 |
---|---|---|
1 | 有 | 有 |
2 | 冇 | 冇 |
3 | 冇 | 冇 |
4 | 冇 | 有 |
5 | 有 | 有 |
高氏 kappa 做嘅,就係由噉嘅數據當中計一個數值出嚟,個數值會話畀研究者知兩位評核者嘅判斷「有幾相似」或者「佢哋之間嘅同意度有幾高」——如果做完一輪測試之後,發現無論邊個心理學家攞住套工具去評,診斷結果都係一樣(高氏 kappa 數值高),研究者就更有信心可以話套工具係靠得住嘅。
技術基礎
編輯抽象少少噉講,高氏 kappa 適用於任何「會將啲受試者分做唔同類別」嘅量度架生——當中類別會係一個離散變數,而且唔同類別要係互斥嘅[4],例如有亞氏保加症抑或係冇亞氏保加症噉,呢套分類法清楚將受試者分做一個類(離散)而唔係畀個分數佢,而且一位受試者唔可以同時屬多過一個類別(互斥),例如一個細路唔會同時係有亞氏保加症又係冇亞氏保加症[5][6]。
當中 係指有幾多 % 嘅個案係兩位評分者同意(作出同樣嘅判斷)嘅,而 就係指如果啲評分者隨機噉嚟評,有幾多 % 嘅個案會係兩位評分者同意嘅。當中 呢個數值幾重要:研究者大可以單純噉計「喺幾多個 % 嘅個案當中,兩位評核者嘅判斷一樣」[8],但係呢種做法畀人批評,話佢冇考慮「評核者可能會靠撞,咁啱兩人都撞同一個答案」嘅情況,而加入 呢個數值變成高氏 kappa,就可以算係考慮埋呢一點[9]。
高氏 kappa 嘅數值愈高,就表示兩位評分者嘅同意程度愈高(評分者間信度),而一般嚟講高氏 kappa 通常係數值愈高就愈「掂」嘅。根據廿世紀尾嘅慣例,高氏 kappa 嘅數值會按以下嘅標準嚟詮釋[10]:
數值 | 表示... [註 3] |
---|---|
< 0.00 | 同意度好惡劣 |
0.00 - 0.20 | 些微嘅同意度 |
0.21- 0.40 | 合理嘅同意度 |
0.41- 0.60 | 中等嘅同意度 |
0.61- 0.80 | 頗高嘅同意度 |
0.81- 1.00 | 完美同意咁滯 |
除咗評分者間信度之外,高氏 kappa 仲可以用嚟衡量一件工具嘅評分者內信度,即係例如一位評核者攞住同一件工具評一次,過咗一個禮拜後佢再攞住件工具評一次,原則上如果位評核者同件工具都係靠得住嘅,兩次評核之間應該有高嘅同意度[11]。
睇埋
編輯註釋
編輯引述
編輯- ↑ Figueroa, A., Ghosh, S., & Aragon, C. (2023, July). Generalized Cohen's kappa: a novel inter-rater reliability metric for non-mutually exclusive categories. In International Conference on Human-Computer Interaction (pp. 19-34). Cham: Springer Nature Switzerland.
- ↑ Friese, S. (2020). Measuring inter-coder agreement — Why Cohen's Kappa is not a good choice. ATLAS. ti Qualitative Data Analysis,有講到啲人點樣批評高氏 kappa。
- ↑ Allison, C., Williams, J. O., Scott, F., Stott, C., Bolton, P., Baron-Cohen, S., & Brayne, C. (2007). The Childhood Asperger Syndrome Test (CAST) Test-retest reliability in a high scoring sample. Autism, 11(2), 173-185.
- ↑ Epstein, M.H., Harniss, M.K., Pearson, N., Ryser, G.: The behavioral and emotional rating scale: test-retest and inter-rater reliability. J. Child Fam. Stud. 8(3), 319-327 (1999)
- ↑ Warrens, M. J. (2015). Five ways to look at Cohen's kappa. Journal of Psychology & Psychotherapy, 5.
- ↑ Cohen's Kappa. Towards Data Science.
- ↑ McHugh, Mary L. (2012). "Interrater reliability: The kappa statistic". Biochemia Medica. 22 (3): 276-282,評分者間信度:interrater reliability;亦可以睇睇佢個 Table 3 以及係點解有啲人會計高氏 kappa 嘅平方。
- ↑ 即係所謂嘅同意百分比(% agreement)。
- ↑ Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas. 1960;20:37-46.
- ↑ Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977 Mar;33(1):159-74. PMID: 843571.
- ↑ Bonnyman A, Webber C, Stratford P, MacIntire N. Intrarater reliability of dual-energy X-Ray absorptiometry–based measures of vertebral height in postmenopausal women. J Clin Densitom. 2012,評分者內信度:intrarater reliability
拎
編輯- (英文) 廣義化嘅高氏 kappa,佢哋呢道提出咗所謂嘅擴張版高氏 kappa,用嚟處理「啲類別唔係互斥」嘅情況。
- (英文) 教人用 SPSS 撳高氏 kappa