統計學

應用學科,屬數學嘅子領域

統計學粵拼tung2 gai3 hok6英文statistics)係數學嘅一個子領域[1],專門研究點樣喺各個科學領域當中搜集、分析、演繹同埋呈現數據[2]。喺用統計方法嚟研究啲乜嗰陣,個科學家會跟以下嘅步驟(睇埋科學方法):先講明佢研究緊乜嘢變數(variable;指一個形容緊某啲嘢嘅數字);跟手就搵一個特定嘅總體(population;指一柞有某啲共通點所以俾人擺埋一齊研究嘅個體)嚟研究;由呢個總體嗰度抽個樣本(sample)出嚟[3];喺個樣本度收集數據,睇吓個樣本入面每一個個體喺啲變數嗰度嘅數值係幾多[4][5];用某啲統計分析(statistical analysis)方法嚟去搵出柞變數之間有乜嘢關係[6][7]

統計成日用嘅常態分佈;幅圖 X 軸表示變數 嘅數值,而 Y 軸表示嗰個 數值喺樣本入面出現嘅機會率
藍色點代表數據庫當中嘅個體,每個個體都喺 上有個值,條紅色線係一個迴歸模型,用條線同已知嘅 值嚟預測 嘅值會俾到大致上啱,但唔完全準嘅預測。

例如有個生物學家想研究吓獵食行為同佢哋身處地方嘅氣候之間有冇拏褦。喺呢份研究入面,佢研究緊嘅變數包含咗喺「啲狼嘅獵食行為」(應變數)同「啲狼身處嘅地方嘅氣候」(自變數);佢會將成個世界嘅狼擺埋一齊研究(「全世界嘅狼」就係佢個研究嘅總體);但世上咁多隻狼,要攞嗮佢哋嚟觀察嘥時間得滯,所以佢就用隨機抽樣(random sampling)-隨機噉由全世界嘅狼嗰度抽(例如)100 隻出嚟研究;跟住佢就要向個樣本收集數據,用各種嘅方法去量度樣本入面每一隻狼(一隻狼為止一個個體)嘅獵食行為(好似係隻狼每日用幾多個鐘頭獵食、食咗幾多公斤嘅肉呀噉)同埋佢身處地方嘅氣候(好似係嗰個地區落雨落得有幾密同平均氣溫等等);攞完數據之後,研究者就要用各種統計分析嚟計吓柞變數之間有乜拏褦。

同樣嘅做法喺物理科學社會科學嗰度都會用到[1]。因為統計學廣泛嘅應用價值,統計學知識經已成為咗現代科學研究上走唔甩嘅一個部份,大學科學學科嘅本科課程基本上冚唪唥都會教統計學嘅嘢[8][9]

基礎

 
黑天鵝成日俾人攞嚟做科學方法思路嘅例子-「就算之前見過嘅天鵝都係白色,都唔表示跟住見到嘅天鵝都 100% 會係白色」。
睇埋:科學同埋數學

科學方法

內文:科學方法

科學哲學(philosophy of science)係科學嘅基礎,簡單講就係指科學家對於「科學係乜同埋應該點搞」嘅睇法。科學哲學嘅基礎係科學方法(scientific method),意思即係話科學研究涉及用以下嘅步驟嚟理解宇宙當中可以觀察嘅事物,嘗試預測未來嘅現象[10][11]

  1. 根據手上已知係真嘅事實,諗一啲理論出嚟(「基於我哋經已觀察到嘅呢啲現象,我推測啲現象背後嘅物理法則係噉噉噉,令物質能量有呢啲行為」),呢啲理論最理想係用數學模型嘅方式表達嘅;
  2. 跟手就靠邏輯性嘅思考,去諗吓呢柞理論會做點樣嘅預測(「如果我提倡嘅呢個理論係真確嘅,理應會...」);
  3. 然後就做實驗觀察嚟攞數據,驗證吓個理論嘅預測係咪真確(「如果我呢個理論係真確,呢個實驗理應會得出某個某個結果,而個實際嘅實驗結果係...」);
  4. 如果數據顯示,個理論係做唔到準確嘅預測嘅話,就要一係根據攞到嘅數據睇吓個理論要點改先可以令佢做到準確啲嘅預測,一係就要諗新理論取代舊理論[12]

上述嘅過程會係噉不斷重複,直至手上嘅理論做得到完全準確嘅預測為止-於是乎科學就有持續嘅發展,做到愈嚟愈準確嘅預測。到咗現代,科學上經已有龐大嘅理論體系,按所研究嘅現象分做物理學(用科學方法研究宇宙基本定律)、生物學(用科學方法研究生命)、心理學(用科學方法研究人嘅行為)同社會科學(用科學方法研究社會)等多個領域,每個領域都有諗出用嚟描述同預測自己所研究嘅現象嘅理論,而一啲重要嘅理論(例如係進化論)往往俾科學家用實驗同觀察驗證過上百次-非常經得起考驗,所以學界一般認為呢啲理論係有返咁上下正確嘅模型(approximately accurate models)-能夠充分噉描述現實。除此之外,科學家仲會不斷噉去搵新嘅現象研究,睇吓呢啲理論能唔能夠解釋新現象,又或者使唔使諗新嘅理論,令科學知識得以不斷發展[13][14]

推論問題

睇埋:歸納不確定性同埋概率論

歸納(inductive reasoning)係科學家嘅基本諗嘢方法,指由啲個別嘅事例嗰度去推斷出一啲普遍原理。响歸納性質嘅論證入面,前提嘅真確性冇辦法保證到結論嘅真確性,只係可以靠住大量嘅事例嚟提升個論證嘅強度,好似係以下呢個論證噉[15]

前提:我之前見過嘅天鵝都係白色嘅:
結論:呢個世界上所有天鵝都係白色嘅。

呢個係一個典型嘅歸納論證:就算個前提係真,都保證唔到個結論係真-前提入面嗰個「我」並冇見過嗮世界上所有嘅天鵝,而事實係世界上有黑天鵝,個觀察者會噉諗只不過係因為佢咁啱未見過黑天鵝;如果個觀察者想佢個論證強啲嘅話,佢就一啲要去見多啲天鵝:如果佢睇勻嗮全歐洲嘅天鵝,呢個論證嘅說服力會比較強;相反,如果佢淨係見過英國嘅天鵝,噉呢個論證嘅說服力會渣好多。科學家都係跟住呢種諗嘢方式搞科學:喺驗證「萬有引力係真嘅」呢句說話嗰陣,牛頓觀察到一個蘋果由樹上面跌落嚟,佢亦都觀察到好多嘢都係跟呢條規則,但佢始終冇辦法去真係「證明」呢個宇宙入面真係所有嘢都有萬有引力-因為可能喺宇宙嘅某啲黑暗角落度會有啲冇引力嘅嘢,只係人類仲未搵到。科學家靠嘅係實驗同觀察,佢哋冇辦法好似數學家噉真係證明佢哋講嘅嘢,只可以靠住重複做實驗同觀察嚟加強自己嘅論證,但始終係冇方法排除一個可能性:呢個宇宙入面可能真係有啲嘢係唔跟佢哋諗出嚟嗰啲定律嘅,只係佢哋未搵到呢啲嘢[16]

就係因為噉,喺正式嘅科學論文入面,科學家好少可會話自己「證明」咗乜嘢乜嘢理論,只係會話「觀察同實驗嘅證據結果撐嗰個理論」,而且佢哋仲會好積極噉去搵新數據,睇吓呢啲佢哋之前未見過嘅數據會唔會推翻舊嘅理論。如果會嘅話,佢哋就會開始諗新理論,或者睇吓點樣將舊嗰個理論改吓等個理論可以同新數據夾得埋[17]

 
想像   表示宇宙入面一切嘅現象,  表示人類觀察得到嘅現象,而   表示宇宙當中人類觀察唔到嘅現象。原則上,  永遠會細過   一大截,所以難保   裏面唔會有啲「唔跟從人類嘅科學定律,但人類唔知佢哋存在」嘅事物。

定位

統計學就係為咗思考「點樣由手上數據(data)推導出普遍知識」而生嘅數學子領域:無論係邊個科學領域,科學家做嘅都係「由手上睇到嘅現象(樣本嘅數據)嗰度嘗試推導出能夠廣泛噉描述同類現嘅理論」,呢種做法本質上就有不確定性(uncertainty)-難以保證個樣本實係代表到個總體,例如研究者想研究體重,因為人力物力嘅限制,佢冇可能研究嗮古往今來所有嘅狼,所以佢就去搵 100 隻狼(樣本)返嚟做研究,佢量度到呢個樣本嘅狼平均體重係 40 公斤(數據),就最嚴格嘅邏輯基準嚟講,呢個數可能

  • 真係代表到全世界嘅狼;但又有可能
  • 全世界嘅狼嘅平均體重查實係 60 公斤,個研究者之所以搵到 40 公斤呢個數只係佢咁啱得咁橋唔好彩,抽到個代表唔到個總體嘅樣本;

喺呢個思考過程當中,就經已必然涉及「手上嘅樣本有幾大機會代表到全世界嘅狼」嘅問題,會用到機會率(probability)同埋相關嘅數學概念(可以睇埋概率論)。好似機會率等科研工作上用嚟分析數據嘅數學概念就形成咗統計學呢門學問[18]

兩大範疇

 
喺統計軟件 SPSS 入面嘅數據;喺呢度佢哋只係俾咗柞變數嘅平均值等嘅資料-即係用咗敘述統計學。如果佢哋做埋分析嚟睇吓啲變數之間嘅關係,噉就係推斷統計學。

統計學專係研究點樣收集、分析、解讀、同解釋數據(尤其係有不確定性嘅數據),集中喺應用性同實證性嘅層面上[19]。喺科學上,數據係好重要嘅一環,噉係因為科學嘅基礎係實證。科學家嘅職責係諗啲理論出嚟解釋自然現象,而佢哋發表親啲乜嘢理論都一定要揾啲證據嚟驗證吓個理論係咪真。要驗證一個理論就要去現實世界嗰度收集數據-所以搞科研實會有一大柞數據要處理。統計學發展咗好多唔同嘅工具去處理數據,例如唔同嘅統計模型。統計師嘅專業知識亦包括實驗應該點樣設計同埋抽樣要點抽。統計學仲會喺商業範疇度用到:統計師會喺一啲公司嗰度幫手解答一啲研發上遇到嘅問題[20]

嚴格嚟講,統計學算係數學嘅一個子領域[21][22][23],但係因為佢零舍重要,所以啲科學家好多時都當正佢係一個獨立嘅學科噉嚟睇。讀統計嘅大學課程對啲學生嘅純粹數學水平嘅要求會低少少,反而集中喺教點樣收集數據、編碼、同埋整報告上面。

敘述同推斷

統計學大致上分做兩範,負責總括同埋形容啲數據嘅叫敘述統計學(Descriptive statistics),而用一啲分析方法嚟去估計同研究變數同變數之間嘅關係嘅就叫做推斷統計學(Inferential Statistics)[24]。前者會俾出一啲好似啲變數嘅平均值等嘅資訊,而後者會將數據入面嘅資訊變做數學模型,仲可以做出一啲預測,例如分析幾個變數之間嘅關係有幾勁。

攞返上面個狼研究嘅例子,假設做完推斷統計之後發覺一隻狼每日食嘅嘢嘅總量(以公斤嚟計)同佢身處嘅地區嘅平均氣温(以攝氏嚟計)成反比(即係一隻狼身處嘅地方愈凍,佢就愈食得多嘢),而佢哋之間嘅關係可以大致上用一條式表達:

 ,設   做「隻狼食咗幾多公斤嘢食」而   做「佢身處嗰度嘅平均攝氏氣温」,  實數(Real number)。

收集咗一輪數據之後,就有得用啲數據嚟估計    嘅數值,打後下次再揾到隻狼嗰陣就可以用呢個模型嚟按佢身處嗰度嘅平均氣温嚟估計佢每日會食幾多嘢。一般嚟講,收集到嘅數據愈多(喺呢個例子入面即係研究過愈多嘅狼),可以做到嘅預測就會愈準。

收集數據

內文:收集數據

變數

內文:變數 (科研)

變數(Variable),又叫做「未知數」,係做統計學一定會處理嘅嘢。佢指喺宇宙入面一啲有可能變、兼且係形容緊某啲事物嘅特性[25]。例如身高體重、同宗教信仰呢啲特性都可以用嚟形容人,而且呢幾樣嘢個個人唔同,所以呢三個都係屬於「用嚟形容人」嘅變數。大細同質量呢啲可以攞嚟形容人或者物件都得,而且呢兩樣嘢個個人件件物件都可以唔同,所以都係屬於「形容人同物件」嘅變數。

變數大致上有得分做兩種:連續變數(Continuous variable)係變數嘅一種,指啲有得用數字嚟量度、兼且去到小數點後幾多位都得嘅變數,呢啲數值攞得嚟比較大細同埋做數學嘅運算。例如人有幾高有幾重都可以講係連續變數-「身高」同「體重」有得用數字嚟度(兼且可以用有小數點嘅數字)。人有得用呢柞數值嚟比較唔同人嘅身高同體重,仲可以用佢哋嚟計數;相反,「宗教信仰」係一個唔連續變數(Discrete variable)-佢唔可以用數字嚟度,而佢嘅值一般都唔可以攞嚟計數:「183 厘米」同「80 公斤」呢啲數值有得加減乘除,而「信佛」同「信耶穌」呢啲值雖然都係形容緊啲嘢,但係唔可攞計數機去撳加減乘除。連續變數喺統計學入面比較常見-因為前者先至可以攞嚟計數,而後者唔得。

以下呢條科學方程式歐姆定律(Ohm's law)就係講緊一啲變數:

 

呢條係電磁學(研究電同磁嘅物理學子領域)上嘅一條常見嘅方程式,意思係話通過一個導體(Conductor)嘅電流(Electric current;I)同嗰舊導體兩頭嘅電壓(Voltage;V)成正比,又同舊導體嘅電阻(Resistance;R)成反比。條式總共有三個變數:電流、電壓、同電阻,而且三個都係連續變數。

變數係科學嘅關鍵,因為無論係邊個學科,科學嘅重點基本上就係想揾出變數同變數之間有啲乜嘢關係,而「知道嗮成個宇宙入面所有嘅變數同埋佢哋之間嘅相互關係」可以話係科學嘅終極目標。

抽樣

 
一個抽樣嘅過程係由一大柞研究對象嗰度抽一部份出嚟研究-因為要睇嗮所有嘅研究對象通常都會太嘥時間或者太嘥錢所以唔可行。
內文:抽樣

抽樣(Sampling)係做科研嘅一個程序,指由個總體嗰度攞一部份嘅個體嚟研究[26]。所有研究都係研究緊某啲總體(Statistical population),例如喺上面個狼例子個總體就係「世界上嘅狼」,而心理學(Psychology)所研究嘅總體就係「世界上所有嘅智人(Homo sapien)」。但係研究嘅總體通常都太大,搞到研究佢哋嘅科學家好難由個總體入面嘅所有個體收集數據,例如世界上有數以億計嘅人,要逐個逐個噉嚟研究太嘥時間,根本冇可能行得通,於是乎科學家喺做研究嗰陣往往要做抽樣-由研究緊個總體嗰度抽一小部份出嚟(而呢個部份就係所謂嘅樣本),希望透過研究呢一小部份嚟去了解嗮總體入面所有嘅個體。例如係想研究黑洞嘅話,物理學家可以去揾十個特定嘅黑洞嚟研究,希望透過研究呢十個黑洞(呢十個黑洞只係宇宙成千上萬個黑洞之中嘅一小部份)嚟了解埋其餘嘅黑洞。

抽樣呢個程序係做科研好緊要嘅一環,因為做嗰個科學家一定要確保到佢抽出嚟個樣本真係代表得到成個總體,噉先至可以說服到啲人話佢個研究得出嘅結果可以普遍化(Generalize)到去個總體嗰度。例如係頭先個狼研究噉,個生物學家有至少兩個抽樣方法可以揀:(一)喺華南嗰度隨機噉攞二百隻狼嚟研究;(二)喺全世界各個洲嗰度隨機噉抽二百隻狼嚟研究。後者更加代表到嗮個總體-「全世界嘅狼」-而前者就比較有以偏概全之嫌。好多時啲科學家詏話一份研究冇辦法將佢得出嘅結果普遍化,都係指控緊佢個樣本唔夠代表性,好似係好多心理學家做心理學研究嗰陣都貪方便喺大學度攞啲大學生嚟做研究嘅樣本,搞到科學界成日都話嗰啲所謂嘅心理學只不過係「大學生嘅心理學」,根本代表唔到大學生以外嘅群體嘅心理[27]

相關性同實驗性研究

用統計搞研究嘅目標係要分析變數之間嘅關係。研究有得大致上分做兩種:相關性研究(Correlational research)同實驗性研究(Experimental research)[28]

相關性研究

相關性研究嘅目的係要揾出變數之間嘅相關(Correlation)有幾勁。「兩個變數    之間嘅相關」喺統計學上係噉樣定義嘅:

 

呢條式會得出一個相關值(Correlation value),呢個數值會喺 -1 同 1 之間,負數表示兩個變數成反比,而正數就表示兩個變數成正比,個相關值愈接近零表示兩個變數之間嘅關係愈弱,而如果個相關值等於零就表示兩個變數根本唔啦更。喺做相關性研究嗰陣科學家會先收集一啲數據,再用好似上面呢條式等嘅方法計出變數之間嘅相關值,揾出研究緊嘅變數之間有乜嘢啦掕,而呢個過程俾出嚟嘅資訊喺將來有得攞嚟預測某啲現象。

實驗性研究

實驗性研究做得再犀利啲,仲可以幫手發現到變數之間嘅因果關係,因為佢哋多咗一個步驟-喺做實驗性研究嗰時,科學家會操控(Manipulate)佢哋研究緊嘅變數。一個實驗嘅基本步驟係噉嘅:

  • 響做實驗之前,要用過往嘅文獻同理論嚟諗吓研究緊嘅變數之間會有啲乜嘢因果關係;
  • 將研究嘅對象擺喺一個受控制嘅環境(Controlled environment;指一個受人工控制,唔會俾啲外來因素干擾嘅環境,例如係一間實驗室)入面;
  • 將研究嘅對象分做至少兩組-實驗組(Experimental group)同對照組(Control group);
  • 喺實驗組嗰度人工噉操控「因」嘅變數嘅數值,而對照組就唔郁;
  • 比較吓兩個組別喺「果」個數值係點;
  • 如果實驗組喺「果」個變數上同對照組唔同,噉就可以話發現咗一個因果關係-「因」嘅變數變會令到「果」個變數跟住變。

例子

西方電器公司(Western Electric)喺伊利諾伊州嘅霍桑工廠(Hawthorne Works)嗰度做嘅霍桑效應(Hawthorne Effect)實驗就係一個相當出名嘅實驗。喺呢個實驗度,啲科研人員想研究「俾人睇住」會點樣影響工人嘅生產率(佢哋研究嘅總體係「世界上所有嘅工人」,但係佢哋冇可能一次研究嗮噉多工人,所以只係攞咗一小部份嚟研究-霍桑工廠嘅工人)。佢哋嘗試增強間廠入面嘅燈光,而燈光影響啲工人會唔會俾人睇到,睇吓佢點樣影響流水線工人嘅生產率(「燈光」同「生產率」就係研究緊嘅變數)。科研人員首先檢測咗間廠嘅生產率,打後改變車間嘅燈光強度(人工噉操控「因」嘅變數),再睇吓有乜嘢結果。結果係生產率喺實驗環境之下提升咗-表示「燈光」同「生產率」兩個變數之間有關係,而且前者係因,後者係果。呢個實驗好出名,雖然有唔少科學家嫌佢嘅設計有啲唔掂,例如係冇對照組同雙盲等嘅重要程序[29]

量度層次

內文:量度層次

要做統計,就實要首先將啲現實世界入面嘅變數變做數據入面嘅數字,而呢個過程就係量度。所謂嘅量度層次(Level of measurement)就係指對變數嘅量度有幾好用,一共有四層[30][31]

  • 名目量度(Nominal measurements)可以話係最弱嘅量度層次;呢啲量度就算度咗個數值出嚟,個數值都冇得比較大細,例如係「屬邊個宗教」呢個變數噉,「信佛」同「信耶穌」呢啲值就算度咗出嚟都冇得比較數值上嘅大細。
  • 順序量度(Ordinal measurements)高一個層次,指一啲至少有得比較大細嘅量度,例如係用問卷問吓啲人「由一到十分,你有幾開心」-呢條問題有得比較數值上嘅大細,一個答 10 分嘅人應該開心過一個答 9 分嘅人,如此類推。
  • 等距量度(Interval measurements)再高一層,指一啲唔止有得比較大細,而且數值之間嘅距離有意義,例如係攝氏呢個温度量度噉,佢有得比較大細(100 度嘅嘢一定熱過 99 度嘅嘢,如此類推),而且數值同數值間嘅距離係有意義嘅-100 度同 99 度之間嘅距離等同於 99 度同 98 度之間嘅距離,亦即係話攝氏呢個温度量度出嚟嘅數值可以做加減乘除,50 度同 70 度加埋可以話等如 120 度-相反,喺上面嗰開心程度問卷入面,因為數值同數值之間嘅距離冇意義(6 分噉開心加 2 分噉開心唔一定等如 8 分噉噉開心,問卷上嘅分數唔一定真係反映「開心程度」呢個變數),所以將個問卷得出嘅數值做加減都冇意思。
  • 等比量度(Ratio measurements)係最高層次,除咗啲數值有得比較大細同數值間嘅距離有意義之外,佢仲有一個特定嘅零值,頭先嘅攝氏温度就算個數值係零都唔等如「冇温度」,相反「蘋果嘅數量」(假設我哋對「蘋果」呢個詞有明確定義)就係一個等比量度,因為「零個蘋果」真係表示「冇蘋果」噉解;等比量度叫得做「等比」,係「比例相等」噉嘅意思-等比量度嘅數值仲有得計比例:喺攝氏温度入面,絕對零度(Absolute zero)係零下 273.15 度左右,而喺嗰個温度先至真係冇熱能嘅,攝氏 100 度唔係真係攝氏 50 度嘅兩倍噉熱-前者同絕對零度嘅差距並唔等如後者同絕對零度嘅差距嘅兩倍;而「兩斤蘋果」嘅重量真係等如「一斤蘋果」嘅兩倍,所以係「等比」。

一般嚟講,科學家都想自己嘅研究嘅量度層次盡可能噉高,雖然現實世界度嘅技術等嘅限制唔一定俾到佢哋噉做。

統計分析

內文:統計分析

概率分佈

 
一個概率分佈圖;幅圖打橫個條 X 軸係「個變數嘅可能數值」,而打直嗰條 Y 軸係「每個數值出現嘅機會率」。呢幅係一幅常態分佈。
內文:概率分佈

一個概率分佈(Probability distribution)係一個數學函數(Mathematical function)[32],而呢個函數表達咗每個數值喺某個總體或者樣本入面出現嘅概率(又叫做「機會率」;Probability)。例如假設而家掟一個銀仔,用   代表掟個銀仔嘅結果,掟十次(個總體係「全世界嘅擲銀仔結果」,而呢十次就係一個樣本)。  係「公」(Head)嘅機會率係 0.5(即係 50%),而   係「字」(Tail)嘅機會率都係 0.5(假設個銀仔冇做過手腳),相應嘅概率分佈如下:

 
 

響現實嘅科研入面,啲變數好少可會一係公一係字噉二元,但係個原理一樣。例如常態分佈(Normal distribution)就係科學入面最常用嘅概率分佈,如果由一個常態分佈嘅總體嗰度抽樣,個變數嘅平均值會係出現得最多嘅數值,低過平均嘅數值同高過平均嘅數值出現嘅機會率一樣,而離平均值愈遠嘅數值抽到出嚟嘅機會率就愈低,如果按住個樣本畫一個概率分佈圖(打橫個條 X 軸係「個變數嘅可能數值」,而打直嗰條 Y 軸係「每個數值出現嘅機會率」),一個常態分佈會俾出一條好似鐘噉嘅形狀嘅線(即係所謂嘅「Bell curve」)。譬如話以下呢個情況噉:有生物學家想研究成年中華白海豚嘅身長,但係佢冇可能捉嗮世界上噉多隻白海豚遂隻遂隻嚟度佢哋幾長,於是乎就抽個樣本出嚟,用個樣本嚟估計全世界嘅白海豚嘅身長;呢個樣本入面有二十隻白海豚,佢哋嘅平均身長係 2.2 米,唔係隻隻都啱啱好 2.2 米長-有隻係 1.8 米長,有隻係 2.6 米長呀噉-但係一隻白海豚身長高過呢個值嘅機會率大致上等如佢身長低過呢個值嘅機會率,而且離 2.2 米愈遠嘅數值出現嘅機會率愈低。如果畫幅概率分佈圖,「隻白海豚嘅身長」做 X 軸,而「每個身長數值出現嘅機會率」做 Y 軸,幅圖會出一條鐘形嘅線。

一般嚟講,做統計嗰陣都會假設抽樣個過程係獨立同分佈(Independent and identically distributed,簡稱「IID」)嘅-指樣本入面每個個體嘅數值喺由個總體嗰度抽出嚟嗰陣嘅概率分佈都係一樣,而且相互之間獨立(Independent;一個抽到嘅數值唔會影響到下一個抽到嘅數值)。呢個假設慳咗好多時間同精神-如果吓吓做統計都要諗第二個抽出嚟嘅數值同第一個抽出嚟嘅數值嘅概率分佈會唔會唔同咗嘅話,計起統計上嚟就會撈絞得好交關。

估計量

內文:估計量

嚴格嚟講,個總體嘅參數(Parameter;指形容緊某個系統嘅特性)係不可知嘅-只係有得透過個樣本嚟估吓呢啲參數嘅數值。喺上面個中華白海豚研究嘅例子噉,要知道嗮所有中華白海豚嘅身長係冇可能嘅,亦都冇方法知道「全世界嘅白海豚嘅平均身長」嘅真正數值-唔單止啲科學家唔夠人力物力度嗮世上所有白海豚,而且過去嘅白海豚同埋仲未出世嘅白海豚嘅身長都係冇辦法度嘅,所以成個研究啲科學家都係喺度假設個樣本代表到全世界嘅白海豚,並且用個樣本入面嘅白海豚嘅平均身長嚟估計全世界嘅白海豚嘅平均身長。除咗平均值,個樣本嘅變異數(Variance)等嘅敘述性統計資料都會俾科學家攞嚟估計個總體嘅參數,呢啲俾人用嚟估計總體參數嘅就係所謂嘅估計量(Estimator)。

信心區間

內文:信心區間

做科研嗰陣啲研究人員可以睇到嘅就淨係得個樣本嘅數值,而個總體嗰柞真實嘅數值係不可知嘅,所以任何由個樣本嗰度估計出嚟嘅數值最多有得話係個總體嘅近似值。信心區間(Confidence interval)係指「有信心總體個真實數值係喺入面嘅區間」,喺做統計嗰陣俾人攞嚟表述個樣本嘅數值同個總體嘅真實數值之間估計差幾遠。最常用嘅係 95% 信心區間,用返上面白海豚嘅例子,啲科研人員會用個樣本入面嘅海豚嘅身長平均值嚟估計嗰個不可知嘅「世上所有白海豚嘅身長嘅平均值」,而佢哋可以用一啲統計方法計個「白海豚身長平均值嘅 95% 信心區間」出嚟-呢個值係指「有信心 95% 機會世上所有白海豚嘅身長嘅平均值嘅真實數值係喺呢個區間入面」[33]

虛無假說同備擇假說

虛無假說(Null hypothesis;符號係「H0」)同備擇假說(Alternative hypothesis;符號係「H1」)係推論統計嘅術語[34]。做親啲乜嘢統計大致上都有兩個可能嘅結果:一係就兩個變數唔啦更,一係就佢哋之間有關係,前者就係所謂嘅虛無假說,而後者就係備擇假說。喺用統計嚟分析啲數據嗰陣,啲研究人員基本就係想喺呢兩個假說入面揀一個嚟相信係真,而一般嚟講,多數嘅科研都係想要揾到啲證據嚟撐個備擇假說-想揾到研究緊嘅變數之間係有關係嘅。喺上面提咗嘅霍桑效應實驗嘅例子入面,「俾人睇住唔會影響工人嘅生產率」呢句嘢就係佢哋個虛無假說(H0),而「俾人睇住會影響工人嘅生產率」呢句嘢就係佢哋個備擇假說(H1),佢哋成功噉揾到證據話後者係真。

呢兩個術語查實好簡單。佢哋令到寫科研報告嗰陣慳好多位-啲科學家唔使吓吓都講嗮成句假說出嚟。

錯誤

內文:第一型同第二型錯誤

響做統計分析嗰陣,一般可能會出現嘅錯誤分兩種[35]

  • 第一型錯誤(Type I Error)指錯誤噉否定咗虛無假說,得出咗個「假陽性」結果-兩個變數查實唔啦更但係揾到咗一個陽性結果出嚟。
  • 第二型錯誤(Type II Error)指虛無假說其實係錯,但係就冇俾人成功噉否定到,得出咗個「假陰性」-兩個變數實際上有關但係就揾到個陰性結果。

呢啲錯誤會發生有好多原因,包括係科研入面嘅某啲隨機性-例如有份研究想睇吓兩個地區嘅狼嘅平均身長係咪有分別,佢哋隨機噉喺兩個地區度抽樣,再度吓啲狼嘅身長,可能兩個地區啲狼嘅平均身長係冇分別嘅(虛無假說係真),但係喺隨機抽樣嗰陣,噉啱得噉橋喺地區甲抽咗啲嗰頭最大隻嘅狼出嚟,而喺地區乙又噉橋抽咗啲嗰頭最細隻嘅狼出嚟,搞到最後揾到出嚟個結果話兩個地區啲狼嘅身長有分別,即係錯誤噉排除咗虛無假說-第一型錯誤。喺呢個個案入面,啲科研人員之所以揾到兩個變數(「地區」同埋「啲狼嘅身長」)有關唔係因為佢哋真係有關,而係抽樣嗰陣唔好彩。呢啲事喺科學界間唔鐘會發生[36]

顯著性

內文:統計顯著性

統計顯著性(Statistical significance;符號係「 」),簡稱「顯著性」,係指一個俾統計者接受咗嘅假說有幾大機會係啱。

事實上,統計學答問題嗰陣好少可會話俾到「啱」同「唔啱」噉二元嘅答案。統計方法本質上係帶咗些少隨機性喺度,頭先提咗嘅第一型錯誤嘅例子就顯示到,無論份研究點精密,都梗會有少少機會會出錯,而呢啲錯誤好多時係人為控制唔到嘅:啲科學家一方面冇可能度得嗮古往今來所有嘅狼嘅身長,但係另一方面,佢哋一做抽樣,就會有機會攞到個代表唔到個總體嘅樣本-即係話無論點,用統計方法硬係會或多或少帶有啲不確定性(Uncertainty)。

於是乎統計學家就決定咗:用統計學做親啲乜嘢研究嗰陣都唔會俾二元性嘅答案,而係會俾出好似信心區間呢類「某句嘢有幾大機會係啱」呢類帶咗啲機會率嘅答案,而   就係用嚟做呢樣嘢嘅概念,佢係指「句備擇假說係啱嘅機會率」。一般嚟講,如果柞統計分析顯示   嘅數值係大過某個特定嘅數值(通常係 95%)嘅話,噉做分析嗰個人就會當句備擇假說係啱嘅。科研論文做統計嘅話幾乎實會報告自己做咗統計分析得出嘅   值,並且用「  值好高」呢一點嚟說服人,話自己嗰句備擇假說係啱嘅[37]

例子:獨立樣本 t 測試

 
實驗組同對照組分別有各自嘅數據同埋喺個變數上有個平均值( )。但係就算兩個組嘅平均值有分別,都唔知係咪因為個實驗操作真係影響到個變數嘅數值定係只係隨機性嘅誤差,所以就要揾啲統計分析方法計個顯著性出嚟-如果個顯著性大過某個特定數值,噉就當個備擇假說係啱。

學生 t 測試(Student's t-test),簡稱「t 測試」,係成日用嘅統計分析方法之一[38],佢可以用嚟分析兩個組(通常係實驗組同對照組)之間喺某個指定變數嘅數值上係咪有顯著嘅差異。獨立樣本 t 測試(Independent samples t-test)係 t 測試嘅一種,專係響當嗰兩個組係獨立(指兩個組入面啲個體係分別噉抽樣入組嘅)嗰陣用嘅。除咗呢個獨立假設,呢個分析方法仲假設咗:

  • 個總體喺個變數上嘅概率分佈係一個常態分佈;
  • 兩個組喺個變數上嘅變異數相等。

喺呢個研究入面,啲研究人員會首先做隨機抽樣-隨機噉由個總體度揀啲研究對象出嚟-並且將佢哋分好做兩組。用返同上面類似嘅例子,班研究人員可能想做個實驗,睇吓提高氣温會唔會改變狼嘅食量,佢哋可以隨機噉由全世界嘅狼嗰度抽一柞(例如係二百隻)出嚟,將佢哋分做兩組-實驗組同對照組,兩組各有一百隻狼,將前者擺喺一個有暖氣嘅環境度養,而後者擺喺一棟模仿自然環境(氣温正常)嘅地方度養。跟手啲研究人員就要量度吓個變數(食量)-一個可能嘅方法係用攝影機監察住啲狼嘅一舉一動,佢哋一食嘢就記錄低,並且用影片影到嘅影像估計樣本入面嘅每一隻狼大約每日食咗幾多公斤嘅嘢食。呢個步驟會得出一大柞數據,表述每一個個體喺個變數上嘅數值(即係每隻狼嘅日常食量),而由呢啲數據亦都會順理成章噉計到兩個組喺個變數上各自嘅平均值(得到「實驗組啲狼嘅平均日常食量」同「對照組啲狼嘅平均日常食量」)。下一步就要睇吓呢兩個組喺「平均日常食量」呢個變數上係咪有顯著嘅分別-如果有,研究人員就有得否定個虛無假說,並且話今次攞到嘅實驗數據撐佢哋個備擇假說(即係「提高氣温會影響狼嘅食量」呢句嘢)。因為佢哋兩個組嘅個體係分別噉抽樣嘅,而且得兩個變數(「氣温」同「狼嘅食量」,前者喺呢個研究嗰度係唔連續嘅),所以佢哋可以用獨立樣本 t 測試。

用統計分析可以提高一份研究嘅說服力:如果啲研究人員淨係靠直接比較兩個組喺個變數上各自嘅平均值唔會有乜嘢說服力,個變數係大致上呈常態分佈嘅-一隻狼嘅日常食量通常會接近所有狼嘅日常食量嘅平均值,離平均值愈遠嘅數值就會出現得愈少。如果齋靠比較兩個組嘅平均值,就等於冇考慮到抽樣等過程入面嘅隨機性-可能只係抽樣嗰陣唔好彩,大食嘅狼噉啱分嗮去實驗組,而食嘢少嘅狼噉啱分嗮去對照組。於是啲研究人員為咗要提高佢哋份研究嘅說服力,就要攞啲數據嚟計吓。

 
平均值(Mu)同標準差(Sigma)嘅數值對常態分佈嘅影響;數值大嘅標準差表示啲個體普遍同個樣本嘅平均值差好遠。

要計顯著性,首先要計個標準差(Standard deviation;符號係「 」或者「 」)出嚟:

 

 樣本大細(Sample size;即係個樣本入面嘅個體數量),  係個體   喺個變數上嘅數值,而   就係成個樣本喺個變數上嘅平均值。標準差呢個數值反映咗個樣本入面每一個個體喺個變數上面嘅數值平均嚟講同成個樣本嘅平均值差幾遠,亦即係反映咗一個組嘅內部差異,而呢啲內部差異係隨機性嘅個體差異。個標準差大嘅話就表示個體同個體之間嘅差異好大,而個標準差細嘅話就表示啲個體普遍同成個樣本嘅平均唔係差好遠。得到兩個組嘅標準差嘅數值,用另外一啲統計方法顯示到兩個組嘅標準差冇明顯差異,就可以做下一步。

 

  係成個樣本嘅大細,而    就係兩個組分別喺個變數上嘅平均值,  係兩個組嘅標準差(假設咗兩個組嘅標準差相等),最後計到一個   值出嚟,呢個數值同「兩個組嘅平均值嘅差距」成正比,同「兩個組嘅標準差」成反比。如果   值好大,噉就表示咗「兩個組之間嘅差異」大過「組嘅內部差異」好多,噉就表示「個實驗嘅操作造成嘅差異」大過「隨機性嘅個體差異」-  值愈大愈表示個實驗嘅操作嘅效果明顯過個體差異,愈係表示兩個組之間嘅差異係因為實驗嘅操作造成嘅。計到個   值之後,仲有啲方法可以跟手計埋個顯著性嘅值出嚟。

其他常用嘅統計分析方法

  • 配對樣本 t 測試(Paired samples t-test);獨立樣本 t 測試嘅變種,喺兩個組唔獨立嗰陣用嘅,例如係研究一班人食某隻藥前同後嘅分別。
  • 變異數分析(Analysis of variance,簡稱「ANOVA」),喺有三個或者以上嘅組嗰陣用嘅。
  • 雙向變異數分析(Two-way analysis of variance,Two-way ANOVA),喺研究三個變數嗰陣用嘅。
  • 迴歸分析(Regression analysis),喺兩個變數都係連續變數嗰陣用嘅。
  • Fisher 最小顯著差異測試(Fisher's Least Significant Difference test)
  • Mann-Whitney U測試(Mann-Whitney U test)

...等等。

子領域

濫用

 
同一樣嘅數據有得用唔同嘅方法呈現,唔同呈現方法可以用嚟誤導人。上面兩幅圖嘅數據一樣,表達緊一間公司喺 2010 同 2011 年嘅銷售量,但係兩幅圖嘅原點唔同-左圖嘅 Y 軸係以 36 做起點,右圖嘅以 0 做起點,令到前者望落好似賺多咗好多錢噉。
內文:統計學嘅濫用

統計學嘅數據同分析好多時俾人濫用[1]。有人就曾經噉講:「世上有三種大話:大話,抵死嘅大話,同埋統計數字。」統計數據可以用唔同嘅方法呈現,而對分析嘅結果又有得用唔同嘅解讀,搞到好多人會特登用對自己有利嘅呈現同解讀方法嚟誤導人[39]美國作家 Darrell Huff 本《How to lie with statistics》(個名直譯係「點樣用統計學講大話」)就揭露咗好多生意人政治家等嘅人物用類似嘅詭計嚟呃人嘅例子。

要預防統計學嘅濫用有好多方法,包括要用啱嘅圖表等等[40]。而且喺將用統計得出嘅結論普遍化嗰陣,要留意佢會唔會超出咗個樣本代表到嘅範圍,只有個當樣本可以代表到個總體嗰陣,統計方法得出嘅結果先至算係可信、精確嘅,例如係一份用白人做樣本嘅醫學研究得出嘅結論未必啱唐人[41]

簡史

內文:統計學史

統計學最少有得追溯到公元前 5 世紀。最早嘅統計學著作嚟自公元 9 世紀嘅《密碼破譯》(Manuscript on Deciphering Cryptographic Messages)呢本書,由阿拉伯人 Al-Kindi 編寫嘅。喺呢本書入面,Al-Kindi 佢詳細噉記錄咗點樣用統計數據同頻率分析破解啲密碼。根據沙特阿拉伯工程師 Ibrahim Al-Kadi 嘅講法,統計學同密碼學分析就係噉一齊誕生咗[42][43]

14 世紀佛羅倫斯銀行家兼執政官 Giovanni Villani 編訂咗《Nuova Cronica》呢本歷史書,包括咗好似係人口、法令、商貿、教育、宗教場所呢啲嘢在內嘅統計數據,俾人話係歷史上第一本嘅統計學入門書。有啲學者就將 1663 年 John Graunt 根據死亡率統計表編訂出版嘅《Natural and Political Observations》(個名直譯係「自然與政治觀察」)呢本書定格做統計學嘅誕生[44]

統計學個英文名「Statistics」係源自於拉丁文嘅詞「statisticum collegium」(意思係「國會」)同埋意大利文入面嘅「statista」(「國民」或者「政治家」)。德文入面「Statistik」呢個字最早係由 Gottfried Achenwall(1749)用嘅,代表對國家嘅數據做分析嘅一門學問,亦即係「研究國家嘅科學」。喺 19 世紀開始,統計學喺廣泛嘅數據之中探究數據所表達嘅嘢,跟手由 John Sinclair 引進到去英文圈嗰度。

清朝末期,學者將西學引入中原,作咗「統計」呢個詞語嚟代表呢門研究數據嘅學術,沿用到而家[45][46]

睇埋

參考文獻

  • Cohen, J. (1990). Things I have learned (so far). American Psychologist, 45, 1304-1312.
  • Barbara Illowsky; Susan Dean (2014). Introductory Statistics. OpenStax CNX.
  • Stephen Jones, 2010. Statistics in Psychology: Explanations without Equations. Palgrave Macmillan. ISBN 9781137282392.

  1. 1.0 1.1 1.2 Hays, William Lee, (1973) Statistics for the Social Sciences, Holt, Rinehart and Winston, p.xii, ISBN 978-0-03-077945-9
  2. Moses, Lincoln E. (1986) Think and Explain with Statistics, Addison-Wesley, ISBN 978-0-201-15619-5 . pp. 1–3
  3. Etikan, I., & Bala, K. (2017). Sampling and sampling methods. Biometrics & Biostatistics International Journal, 5(6), 00149.
  4. Stevens, S. S. (7 June 1946). "On the Theory of Scales of Measurement". Science. 103 (2684): 677–680.
  5. Michell, J (1986). "Measurement scales and statistics: a clash of paradigms". Psychological Bulletin. 100 (3): 398–407.
  6. Dodge, Y. (2006) The Oxford Dictionary of Statistical Terms, Oxford University Press. ISBN 0-19-920613-9
  7. Romijn, Jan-Willem (2014). "Philosophy of statistics". Stanford Encyclopedia of Philosophy.
  8. Halvorson, H. O., & Ziegler, N. R. (1933). Application of statistics to problems in bacteriology: I. A means of determining bacterial population by the dilution method. Journal of Bacteriology, 25(2), 101.
  9. Lumb, P. (1974). Application of statistics in soil mechanics. Soil Mechanics New Horizons. IK Lee, ed.
  10. Stanovich, Keith E. (2007). How to Think Straight About Psychology. Boston: Pearson Education. p. 123
  11. Crawford S., Stucki L. (1990), "Peer review and the changing research record", J Am Soc Info Science, vol. 41, pp. 223–28
  12. Godfrey-Smith 2003, Chapter 14: "Bayesianism and Modern Theories of Evidence".
  13. Sklar, L. (1992). Philosophy of physics. Dimensions of Philosophy S.
  14. Brigandt, Ingo; Love, Alan (2017), "Reductionism in Biology", in Zalta, Edward N. (ed.), The Stanford Encyclopedia of Philosophy (Spring 2017 ed.), Metaphysics Research Lab, Stanford University.
  15. Deductive and Inductive Arguments.
  16. Sextus Empiricus, Outlines of Pyrrhonism. Trans. R.G. Bury, Harvard University Press, Cambridge, Massachusetts, 1933, p. 283.
  17. There's No Such Thing As Proof In The Scientific World - There's Only Evidence. Forbes.
  18. William Feller, An Introduction to Probability Theory and Its Applications, (Vol 1), 3rd Ed, (1968), Wiley.
  19. Moore, David (1992). "Teaching Statistics as a Respectable Subject". In F. Gordon and S. Gordon. Statistics for the Twenty-First Century. Washington, DC: The Mathematical Association of America. pp. 14–25.
  20. Moses, Lincoln E. (1986). Think and Explain with Statistics, Addison-Wesley.
  21. Hays, William Lee, (1973) Statistics for the Social Sciences, Holt, Rinehart and Winston
  22. Moore, David (1992). "Teaching Statistics as a Respectable Subject". 出自 F. Gordon and S. Gordon (編). Statistics for the Twenty-First Century. Washington, DC: The Mathematical Association of America. pp. 14–25. ISBN 978-0-88385-078-7.CS1 maint: uses editors parameter (link)
  23. Chance, Beth L.; Rossman, Allan J. (2005). "Preface". Investigating Statistical Concepts, Applications, and Methods (PDF). Duxbury Press. ISBN 978-0-495-05064-3.
  24. Descriptive & Inferential Statistics: Definition, Differences & Examples
  25. Michell, J. (1993). The origins of the representational theory of measurement: Helmholtz, Hölder, and Russell. Studies in History and Philosophy of Science, 24, 185-206.
  26. Stuart, A. (1962). Basic Ideas of Scientific Sampling. New York: Hafner Publishing Company.
  27. "Psychology Secrets: Most Psychology Studies Are College Student Biased". 原著喺2017年7月6號歸檔. 喺2017年12月3號搵到.
  28. Freedman, D.A. (2005). Statistical Models: Theory and Practice, Cambridge University Press.
  29. McCarney R, Warner J, Iliffe S, van Haselen R, Griffin M, Fisher P (2007). "The Hawthorne Effect: a randomised, controlled trial". BMC Med Res Methodol. 7 (1): 30.
  30. "Levels of measurement". 原著喺2017年11月27號歸檔. 喺2017年11月26號搵到. 互聯網檔案館歸檔,歸檔日期2017年11月27號,.
  31. Kirch, W., ed. (2008). "Level of Measurement". Encyclopedia of Public Health. Springer. pp. 851–852.
  32. B. S. Everitt: The Cambridge Dictionary of Statistics, Cambridge University Press, Cambridge (3rd edition, 2006).
  33. Zar, J. H. (1984). Biostatistical Analysis. Prentice-Hall International, New Jersey, pp 43–45.
  34. Everitt, B. (1998). The Cambridge Dictionary of Statistics. Cambridge, UK New York: Cambridge University Press. ISBN 0521593468.
  35. Rubin, D. B.; Little, R. J. A. (2002). Statistical analysis with missing data. New York: Wiley.
  36. The Difference Between Type I and Type II Errors
  37. Piazza E. (2007). Probabilità e Statistica. Esculapio.
  38. O'Mahony, M. (1986). Sensory Evaluation of Food: Statistical Methods and Procedures. CRC Press. p. 487. ISBN 0-82477337-3.
  39. Huff, D. (1954). How to Lie With Statistics, WW Norton & Company, Inc. New York, NY. ISBN 978-0-393-31072-6
  40. Drennan, R. D. Statistics in archaeology. (編) Pearsall, Deborah M. Encyclopedia of Archaeology. Elsevier Inc. 2008: 2093–2100.
  41. Cohen, J. B. Misuse of Statistics. Journal of the American Statistical Association (JSTOR). 1938年12月, 33 (204): 657–674.
  42. Al-Kadi, I. A. (1992) "The origins of cryptology: The Arab contributions", Cryptologia, 16(2) 97–126. doi:10.1080/0161-119291866801
  43. Singh, S. (2000). The code book : the science of secrecy from ancient Egypt to quantum cryptography (1st Anchor Books ed.). New York: Anchor Books.
  44. Willcox, W. (1938) "The Founder of Statistics". Review of the International Statistical Institute, 5(4):321–328.
  45. 《文明小史.第四八回》:「所賺雖只毫釐,積少成多,一年統計,卻也不在少數。」
  46. "詞條名稱:統計". 教育部重編國語辭典修訂本. 臺灣教育部.