P-hack

P-hack（用粵語讀可作粵拼 pi1 hek1 噉嘅音）係科研上嘅現象，講緊研究者操控數據分析嘅方法或者選擇性噉報導結果，目的係想得出統計上顯著（p < .05）嘅結果。就噉睇，p-hack 會令研究結果望落更可信，但係 p-hack 其實會提升得到假陽性結果嘅風險，唔單只會導致科研嘅可靠度下降，仲可能誤導後續研究同埋政策上嘅決策，造成長遠嘅負面影響^[1]。

P-hack 做法有好多，例如係漁翁撒網噉將啲自變數逐個逐個睇晒佢，睇吓有邊個得到統計顯著嘅結果，然後寫報告嗰陣淨係報導顯著嘅結果。P-hack 又可以係將同一場分析做幾次，每次都加入或者剔除其中一啲變數，然後淨係報告「有價值」嗰啲結果。由統計學嘅角度睇，呢啲做法都會令到結果有誤導性，佢實際上冇效果研究者都可以拗話佢有，屬於統計學誤用。

學者指，p-hack 嘅行為喺廿一世紀初嘅社會科學領域好普遍，引起唔少人憂慮呢啲領域嘅研究結果係咪信得過。

背景概念

平均值係 0 標準差係 1 嘅常態分佈

統計顯著^[2]係廿一世紀初統計學上嘅重要概念，屬於假說檢定^[3]嘅一環，用嚟判斷一個結果係咪起於偶然。

科研人員檢驗統計顯著度，個諗頭係噉嘅：假設研究緊嘅應變數總體跟從常態分佈，設平均值係 0 而標準差係 1 咁多，研究者郁手由呢個分佈嗰度做隨機抽樣，假設個樣本同總體冇咩系統性嘅分別，理應有 95% 機率個樣本嘅平均值喺 -1.96 至 +1.96 之間，而假如研究者得到個樣本，平均值係喺呢段間距外嘅，佢就有理由假定個差異並非源自隨機變化。而所謂嘅 p 值就係講緊統計顯著度，定義係「如果真係冇效果，手上個結果出現嘅機率」，即係^[4]

p=P{\big (}

睇到個噉嘅結果

\mid

實際上並冇效果

{\big )}

^{[註 1]}

喺實際應用上，啲人通常會用 0.05 嚟做 p 嘅門檻值。舉個例，假想有一位研究者，佢想測試某隻新藥係咪有效醫到某隻病，佢個總體係所有患咗嗰隻病嘅成年人，而佢個樣本係搵咗班人返嚟試隻新藥，佢計出個 p 值係 0.03 ——即係樣本嘅症狀同總體嘅症狀爭好遠，如果隻藥冇效，得 3% 機率會睇到手上嗰個結果—— p < 0.05，所以喺統計顯著概念下，研究者就有理由相信隻藥真係有效嘅。

有研究者指出，科學界成個系統喺制度上有問題。做研究嘅人一定要定時喺期刊嗰度出文，而啲期刊（尤其係聲望高嗰啲）好多時都淨係肯刊登統計上顯著嘅結果。噉就搞到做研究嘅人有誘因，想無論如何都「剒cok3」到一個顯著嘅結果出嚟（p-hack）無視佢研究緊嗰種現象係咪真係有顯著結果^[5]。而噉就表示科研嘅結果會受到扭曲，尤其係會產生好多假陽性結果^[6]^{[註 2]}。

主要做法

做研究嘅人，有好多方法可以「剒個顯著結果」出嚟。

研究人員可以係噉選擇性噉報告佢哋做嘅分析：佢哋攞到數據之後，可以漁翁撒網噉試一連串統計分析，用幾種唔同嘅分析方法；最後好可能會撞啱其中一種分析方法出到顯著結果，等到要寫報告或者論文嗰陣，佢哋就淨係匯報出到顯著結果嗰一場分析；就算研究人員由此至終都只用同一種分析方法，佢哋都有可能試幾次，每試一次嗰時都添加或者剔除其中一啲變數，亦好可能會撞啱其中一場分析攞到顯著結果，最後佢哋就淨係匯報得到顯著結果嘅分析^[1]。

要避免 p-hack，研究人員可以用以下呢啲做法：

事前就決定好要用咩分析方法，而且跟足計劃做分析，唔好諗住想搵顯著結果就走去試其他分析^[7]。
將做過咩分析同埋啲結果全部如實報晒出嚟^[8]。
唔好無啦啦分拆樣本，用啲子樣本做分析。
一旦有一場分析得到顯著結果，就唔好再做探索性質嘅分析^[9]。

等等。

睇埋

註釋

↑ 喺概率論， $P(A\mid B)$ 係指「假如 $B$ 係真確， $A$ 係真確嘅機會率」。詳情可以睇吓條件概率。
↑ 噉亦表示，p-hack 嘅行徑可能會影響統合分析嘅準確度。

引咗

↑ ^1.0 ^1.1 Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (2015) The Extent and Consequences of P-Hacking in Science. PLoS Biol 13(3): e1002106. https://doi.org/10.1371/journal.pbio.1002106 ，呢篇文嘅作者睇啲期刊文章 p 值嘅分佈，靠呢種做法嚟檢驗 p-hack 嘅情況有幾普遍——簡化講，如果啲研究者 p-hack，理應會令到接近 0.05 嘅 p 值出現得異常咁密。
↑ 統計顯著：statistical significance
↑ 假說檢定：hypothesis testing
↑ Piazza E. (2007). Probabilità e Statistica. Esculapio.
↑ Laurance WF, Useche DC, Laurance SG, Bradshaw CJA (2013) Predicting publication success for biologists. Bioscience 63: 817-823.
↑ Stern JM, Simes RJ (1997) Publication bias: Evidence of delayed publication in a cohort study of clinical research projects. Br Med J 315: 640–645. pmid:9310565
↑ John LK, Loewenstein G, Prelec D (2012) Measuring the prevalence of questionable research practices with incentives for truth telling. Psychol Sci 23: 524-532. pmid:22508865
↑ Hutton JL, Williamson PR (2000) Bias in meta-analysis due to outcome variable selection within studies. J R Stat Soc Ser C Appl Stat 49: 359-370.
↑ Nosek BA, Spies JR, Motyl M (2012) Scientific utopia: II. Restructuring incentives and practices to promote truth over publishability. Perspect Psychol Sci 7: 615-631.

外拎

（英文）我哋個個都喺度 p-hack，WIRED

[5] 喺概率論， $P(A\mid B)$ 係指「假如 $B$ 係真確， $A$ 係真確嘅機會率」。詳情可以睇吓條件概率。

[8] 噉亦表示，p-hack 嘅行徑可能會影響統合分析嘅準確度。

[head15-1] 1.0 ^1.1 Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (2015) The Extent and Consequences of P-Hacking in Science. PLoS Biol 13(3): e1002106. https://doi.org/10.1371/journal.pbio.1002106 ，呢篇文嘅作者睇啲期刊文章 p 值嘅分佈，靠呢種做法嚟檢驗 p-hack 嘅情況有幾普遍——簡化講，如果啲研究者 p-hack，理應會令到接近 0.05 嘅 p 值出現得異常咁密。

[2] 統計顯著：statistical significance

[3] 假說檢定：hypothesis testing

[4] Piazza E. (2007). Probabilità e Statistica. Esculapio.

[6] Laurance WF, Useche DC, Laurance SG, Bradshaw CJA (2013) Predicting publication success for biologists. Bioscience 63: 817-823.

[7] Stern JM, Simes RJ (1997) Publication bias: Evidence of delayed publication in a cohort study of clinical research projects. Br Med J 315: 640–645. pmid:9310565

[9] John LK, Loewenstein G, Prelec D (2012) Measuring the prevalence of questionable research practices with incentives for truth telling. Psychol Sci 23: 524-532. pmid:22508865

[10] Hutton JL, Williamson PR (2000) Bias in meta-analysis due to outcome variable selection within studies. J R Stat Soc Ser C Appl Stat 49: 359-370.

[11] Nosek BA, Spies JR, Motyl M (2012) Scientific utopia: II. Restructuring incentives and practices to promote truth over publishability. Perspect Psychol Sci 7: 615-631.

[1]

[2]

[3]

[4]

[註 1]

[5]

[6]

[註 2]

[7]

[8]

[9]