P-hack
P-hack(用粵語讀可作粵拼 pi1 hek1 噉嘅音)係科研上嘅現象,講緊研究者操控數據分析嘅方法或者選擇性噉報導結果,目的係想得出統計上顯著(p < .05)嘅結果。就噉睇,p-hack 會令研究結果望落更可信,但係 p-hack 其實會提升得到假陽性結果嘅風險,唔單只會導致科研嘅可靠度下降,仲可能誤導後續研究同埋政策上嘅決策,造成長遠嘅負面影響[1]。
P-hack 做法有好多,例如係漁翁撒網噉將啲自變數逐個逐個睇晒佢,睇吓有邊個得到統計顯著嘅結果,然後寫報告嗰陣淨係報導顯著嘅結果。P-hack 又可以係將同一場分析做幾次,每次都加入或者剔除其中一啲變數,然後淨係報告「有價值」嗰啲結果。由統計學嘅角度睇,呢啲做法都會令到結果有誤導性,佢實際上冇效果研究者都可以拗話佢有,屬於統計學誤用。
背景概念
編輯統計顯著[2]係廿一世紀初統計學上嘅重要概念,屬於假說檢定[3]嘅一環,用嚟判斷一個結果係咪起於偶然。
科研人員檢驗統計顯著度,個諗頭係噉嘅:假設研究緊嘅應變數總體跟從常態分佈,設平均值係 0 而標準差係 1 咁多,研究者郁手由呢個分佈嗰度做隨機抽樣,假設個樣本同總體冇咩系統性嘅分別,理應有 95% 機率個樣本嘅平均值喺 -1.96 至 +1.96 之間,而假如研究者得到個樣本,平均值係喺呢段間距外嘅,佢就有理由假定個差異並非源自隨機變化。而所謂嘅 p 值就係講緊統計顯著度,定義係「如果真係冇效果,手上個結果出現嘅機率」,即係[4]
- 睇到個噉嘅結果 實際上並冇效果 [註 1]
喺實際應用上,啲人通常會用 0.05 嚟做 p 嘅門檻值。舉個例,假想有一位研究者,佢想測試某隻新藥係咪有效醫到某隻病,佢個總體係所有患咗嗰隻病嘅成年人,而佢個樣本係搵咗班人返嚟試隻新藥,佢計出個 p 值係 0.03 ——即係樣本嘅症狀同總體嘅症狀爭好遠,如果隻藥冇效,得 3% 機率會睇到手上嗰個結果—— p < 0.05,所以喺統計顯著概念下,研究者就有理由相信隻藥真係有效嘅。
有研究者指出,科學界成個系統喺制度上有問題。做研究嘅人一定要定時喺期刊嗰度出文,而啲期刊(尤其係聲望高嗰啲)好多時都淨係肯刊登統計上顯著嘅結果。噉就搞到做研究嘅人有誘因,想無論如何都「
主要做法
編輯做研究嘅人,有好多方法可以「剒個顯著結果」出嚟。
研究人員可以係噉選擇性噉報告佢哋做嘅分析:佢哋攞到數據之後,可以漁翁撒網噉試一連串統計分析,用幾種唔同嘅分析方法;最後好可能會撞啱其中一種分析方法出到顯著結果,等到要寫報告或者論文嗰陣,佢哋就淨係匯報出到顯著結果嗰一場分析;就算研究人員由此至終都只用同一種分析方法,佢哋都有可能試幾次,每試一次嗰時都添加或者剔除其中一啲變數,亦好可能會撞啱其中一場分析攞到顯著結果,最後佢哋就淨係匯報得到顯著結果嘅分析[1]。
要避免 p-hack,研究人員可以用以下呢啲做法:
- 事前就決定好要用咩分析方法,而且跟足計劃做分析,唔好諗住想搵顯著結果就走去試其他分析[7]。
- 將做過咩分析同埋啲結果全部如實報晒出嚟[8]。
- 唔好無啦啦分拆樣本,用啲子樣本做分析。
- 一旦有一場分析得到顯著結果,就唔好再做探索性質嘅分析[9]。
等等。
睇埋
編輯註釋
編輯引咗
編輯- ↑ 1.0 1.1 Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (2015) The Extent and Consequences of P-Hacking in Science. PLoS Biol 13(3): e1002106. https://doi.org/10.1371/journal.pbio.1002106 ,呢篇文嘅作者睇啲期刊文章 p 值嘅分佈,靠呢種做法嚟檢驗 p-hack 嘅情況有幾普遍——簡化講,如果啲研究者 p-hack,理應會令到接近 0.05 嘅 p 值出現得異常咁密。
- ↑ 統計顯著:statistical significance
- ↑ 假說檢定:hypothesis testing
- ↑ Piazza E. (2007). Probabilità e Statistica. Esculapio.
- ↑ Laurance WF, Useche DC, Laurance SG, Bradshaw CJA (2013) Predicting publication success for biologists. Bioscience 63: 817-823.
- ↑ Stern JM, Simes RJ (1997) Publication bias: Evidence of delayed publication in a cohort study of clinical research projects. Br Med J 315: 640–645. pmid:9310565
- ↑ John LK, Loewenstein G, Prelec D (2012) Measuring the prevalence of questionable research practices with incentives for truth telling. Psychol Sci 23: 524-532. pmid:22508865
- ↑ Hutton JL, Williamson PR (2000) Bias in meta-analysis due to outcome variable selection within studies. J R Stat Soc Ser C Appl Stat 49: 359-370.
- ↑ Nosek BA, Spies JR, Motyl M (2012) Scientific utopia: II. Restructuring incentives and practices to promote truth over publishability. Perspect Psychol Sci 7: 615-631.
外拎
編輯- (英文) 我哋個個都喺度 p-hack,WIRED