概率同統計學詞彙表

統計學同概率入面嘅術語同概念嘅詞彙表
(由概率論詞彙跳轉過嚟)

以下係概率論統計學上嘅主要詞彙一覽。

統計學上成日用嘅常態分佈(睇下面)畫出嚟會出鐘形線

概率論[e 1]數學一個子領域,專門研究概率(又叫機會率)相關嘅問題:概率係一啲描述隨機過程嘅結果嘅數值,例如掟一個冇出千嘅銀仔,出公嘅概率係 50%,所以對於思考不確定性嚟講不可或缺[1]

統計學[e 2]就係專門研究點樣喺各個科學領域當中搜集分析呈現數據,而實證嘅科學方法本質上就帶有不確定-理論上,淨係抽個樣本嚟睇嘅過程就必然會有「手上個樣本有幾大機會真係代表到個總體嘅實況」嘅問題,所以統計學嘅理論思考梗會用到概率論[2][3]

除此之外,噉亦即係話概率論同統計學本質上就係一啲可以攞嚟「喺有不確定性嘅情況下,按過去經驗預測未來」嘅工具,所以呢個表入面嗰啲詞彙同概念响研究「點樣教人工智能學習」嘅機械學習領域上都相當有用[3]

基本概率論

編輯
 
用一幅溫氏圖表示三件事件   -之間嘅機會率要點樣用數學符號表達。
内文:概率論

機會率粵文入面又有叫概率或者或然率:大致上可以理解做「一件事件有幾可能會成」,1 代表件事件實會發生,0 代表件事件絕對唔會發生;喺實際應用上,啲人一般會用以下噉嘅數學符號表示唔同事件嘅機會率[4]

  •  (或者  )代表「  發生嘅機會率」,
  •   代表「    都發生嘅機會率」(  交集[e 3]),而
  •   就代表「  或者   發生嘅機會率」(  併集[e 4]),

... 呀噉。機會率係統計學機械學習等領域上實要諗到嘅一個課題:呢啲領域都涉及研究者由一個總體[e 5]入面攞一個樣本[e 6]出嚟,並且嘗試靠分析手上嘅樣本嚟增進自己對個總體嘅認識,但呢種做法本質上就有不確定性-難以保證個樣本實係代表到個總體;例如研究者想研究體重,因為人力物力嘅限制,佢冇可能研究嗮古往今來所有嘅狼,所以佢就去搵 100 隻狼返嚟做研究,佢量度到呢個樣本嘅狼平均體重係 40 公斤,就最嚴格嘅邏輯基準嚟講,呢個數可能真係代表到全世界嘅狼,但又有可能全世界嘅狼嘅平均體重查實係 60 公斤,個研究者之所以搵到 40 公斤呢個數只係佢咁啱唔好彩抽到個代表唔到個總體嘅樣本-隨機係統計學(以至科學方法)分析上走唔甩嘅一部份[4]

  • 概率論:一套數學理論;專門研究機會率同相關概念,會以形式化(用各種數學符號)嘅方法將呢啲概念表達出嚟[4]
  • 概率公理:現代概率論當中嘅三條公理[e 7][5]
    • 第一公理:一件事件嘅概率係一個非負數實數(不過可以係 0),
       
    • 第二公理:「最少一件基本事件發生嘅概率」係 1,
       
    • 第三公理:任何可數嘅事件不交集[註 1]   會滿足以下呢條式:
       
  • 實驗[e 8]:概率論上講嘅「實驗」同一般科學上講嘅實驗係兩個唔同嘅概念;喺概率論上,一場實驗係指一段程序,而段程序有以下嘅特性[4]
    1. 有若干個具有清楚定義可能結果樣本空間[e 9]);
    2. 最少理論上可以重複無限咁多次;
    • 例如掟銀仔就係概率論上嘅一場實驗-正路嚟講,掟銀仔有兩個可能結果(),理論上可以重複無限咁多次,而呢兩個結果結合埋就形成呢場實驗嘅樣本空間。
    • 伯努利試驗[e 10]:指有兩個可能結果嘅隨機實驗,例如掟銀仔(一係出一係出)就係一場伯努利試驗[6]
    • 概率空間[e 11]:以下呢三樣嘢加埋嘅總體-
      1. 樣本空間
      2. 事件(睇下面)、同埋
      3. 概率分佈(簡單講就係一個講明「每件可能事件發生嘅機率」嘅函數
    • 實際數值[e 12]:指場概率實驗最後出嘅數值,例如家陣掟銀仔,有兩個可能結果(),而掟完最後係出公,噉就係「呢場掟銀子嘅結果」嘅實際數值[4]
  • 隨機變數[e 13]:指一個數值會隨住某啲隨機現象而改變嘅變數
  • 隨機過程[e 14]:簡單講就係有隨機喺入面嘅過程;嚴格啲噉講,隨機過程係指一嚿以若干個隨機變數定義數學物體[7]。可以睇吓馬可夫鏈
    • 平穩過程[e 15]:指場隨機過程嘅無條件概率分佈唔會隨時間改變,簡單講即係「啲可能結果分別嘅出現機率」唔會隨時間改變[8]
    • 隨機漫步[e 16]:指一條「路徑」描述一個隨機變數喺每「步」點樣變化;設   做步數或者時間,  係個離散變數,而有個變數  ,無論   係幾多,以下呢條式都會成立:
       ,例如係  
      • 如果將    嘅變化畫做條線,打戙軸係  ,而打橫軸軸係  ,會出好似以下噉嘅圖[9]
     
  • 期望值[e 17]  ):指數據嘅每一個可能值各自噉同個可能值出現嘅機率乘埋,再將柞數加埋得出嘅總和,單位會同數據嘅相同[10];舉個具體例子,想像家陣個數據有   個可能數值,而   係指個數據嘅第   個可能數值,噉   條式係:
     ;有關呢啲數學符號嘅意思,可以睇吓加總
    • 例如想像家陣掟銀仔,假設銀仔冇出千(出公同出字嘅機率一樣),出公會得到 10 分,出字 0 分,噉掟一次銀仔嘅分數嘅期望值會係
     
    • 大數定律[e 18]:依家有一串 iid 嘅隨機變數  ;只要   期望值)唔係無限大,噉   實際觀察到嘅樣本平均值( 
       
      • 會隨住   變大而接近  。進階嘅分析仲會分弱大數定律(趨近樣本平均值有咁上下概率會發生)同強大數定律(趨近樣本平均值係一定會發生咁滯)[11]
 
  • 隨機變數匯合[e 19]:指隨機變數可以有嘅極限[e 20];如果話某一個隨機變數   有一個極限,即係指(例如)隨住某個數值   變得愈嚟愈大,  嘅數值會慢慢愈嚟愈近(匯合)某個數值(設呢個數值做    係個函數嘅極限)[12]
     
  • 溫氏圖[e 21]:一種成日俾人攞嚟表達概率嘅圖表;圖入面會有若干個波波,每個波波代表一件事件,而兩個波波之間嘅相交空間代表嗰兩個波波代表嗰兩件事件嘅交集   [13]

隨機事件

編輯

概率論上所講嘅事件[e 22]係指一個由若干個可能結果組成嘅,掕住「呢件事件發生嘅機率」。

  • 基本事件[e 23]:淨係包含其中一個可能結果嘅事件。
  • 對立事件[e 24]:「  嘅對立事件」(  或者  )係指「  冇發生」呢件事件。
     
  • 互補事件[e 25]:如果話「   係互補事件」,即係話呢兩件事件當中必然有最少一件會發生-
     
  • 互斥事件[e 26]:如果話「   係互斥事件」,即係話兩件事冇可能同時發生-
     
     [14]
  • 非互斥事件[e 27]:如果    係非互斥事件,即係話兩件事有可能同時發生-
     
     [14]
  • 條件機會率[e 28]:指如果一件事件發生咗,另一件事件會發生嘅機會率;「  發生咗,  嘅條件機會率」係
     
    • 呢個數值可以用以下呢條式計[15]
     
    • 如果   互斥事件
       
  • 獨立[e 29]:如果話「   呢兩件事件互相獨立」嘅話,意思即係兩件事唔會影響對方發生嘅機會率,
     ,所以
     
    • 呢條式表示,就算   發生咗,  發生嘅機會率依然係  ,反之亦然[16]
  • 條件獨立[e 30]:指一件事件唔會影響第件事件嘅條件概率,即係話如果[17]
     
    •    就算係「喺   之下條件獨立」[e 31] 
  • 概率連鎖法則[e 32]:有兩件隨機事件   
     
    • 而如果要考慮嘅事件( )有多過兩件: 
  • 貝葉斯定理[e 33]:指以下嘅定理
     

概率分佈

編輯
内文:概率分佈

概率分佈[e 34]係指一個表明某個變數每個可能數值出現嘅機會率函數

 

當中   就係個概率分佈;呢個函數可以畫做一個表,X 軸代表個目標變數嘅數值,Y 軸代表嗰個目標變數嘅每個數值出現嘅機率;是但搵個變數    喺總體當中有一個概率分佈,表示   每個可能數值   出現嘅機率,呢個分佈喺實際上係不可知嘅,研究者淨係有得樣本量度樣本當中嘅概率分佈(喺個樣本入面,  嘅每個可能數值出現嘅機率大約係幾多),靠噉嚟估計個總體嘅分佈[18]

喺廿一世紀統計學上,比較常用嘅概率分佈相關概念有以下呢啲:

  • 離散概率分佈[e 35]:指所描述嘅變數   嘅可能數值係離散嘅概率分佈[19]
    • 概率質量函數[e 36]:描述一個離散概率分佈嘅函數;一個離散概率分佈嘅 PMF 會講明嗰個概率分佈嘅每一個離散可能數值出現嘅機會率[19]
       ,啲可能性嘅機率冚唪唥加埋係 1;
       ,每個可能性嘅機率大過 0;
       ,啲可能性以外嘅數值出現嘅機會率係 0。
 
一個概率質量函數;  嘅可能數值得三個(1、3 同 7),每個數值都掕住咗個「出現嘅機率」,而呢啲機率加埋係 1。
  • 連續概率分佈[e 37]:指所描述嘅變數   嘅可能數值係連續[19]
    • 概率密度函數[e 38]:描述一個連續概率分佈嘅函數;一個連續概率分佈嘅 PDF 會講明嗰個概率分佈嘅每一個可能數值出現嘅機會率大約係幾多[19]
       
    • 常態分佈[e 39]統計分析上最常用嘅概率分佈之一;喺常態分佈下,出現得最頻密嘅數值會係個平均數  ,而離平均數愈遠嘅數值就愈少會出現,畫做圖嘅話會出一條鐘形線[e 40];常見可以用常態分佈模擬嘅變數有人類嘅智商-多數人嘅智商數值都傾向於平均數,愈極端嘅數值愈少出現,即係話好少有智商極高或者極低嘅人。常態分佈個概率密度函數係(  係個分佈嘅標準差[18]
       
 
常態分佈畫做圖嘅樣;x 軸代表目標變數嘅數值,y 軸代表目標變數嘅每個數值出現嘅機會率  
身高間距 頻率 累計頻率
< 5.0 25 25
5.0 - 5.5 呎 35 60
5.5 - 6.0 呎 20 80
6.0 - 6.5 呎 20 100
  • 累計函數[e 42]:描述一個概率分佈之下   嘅累計值會點隨   變化嘅函數    表示「由個樣本嗰度隨機抽一個個體,個個體嘅  (叫呢個值做  )細過或者等如  」嘅機會率,
     
    • 無論連續定離散嘅概率分佈都可以有相應嘅累計函數[21]
 
   唔同嘅常態分佈嘅累計函數
  • 對稱度[e 43]:一個概率分佈可以有嘅一個屬性,攞個概率分佈當中嘅一個   值,個分佈喺   左邊嗰部份同個分佈喺   右邊嗰部份形狀上愈相似,個概率分佈以   為中心嘅對稱度就愈高;喺實際應用上,量度一個概率分佈嘅對稱度嗰陣會用嘅   值通常會係個分佈嘅平均值[22]
    • 對稱概率分佈[e 44]:一個對稱概率分佈定義上係指符合下面呢條式嘅概率分佈,當中   係個分佈上嘅一點[22]
          所有實數  
  • 動差[e 45]:泛指描述一個函數(例如概率分佈)嘅形狀嘅指標數值[23]
    • 偏度[e 46]:指個分佈有幾「歪埋一邊」;要評估一個分佈嘅偏度,一條可能嘅式如下:
       
      • 當中   係第   個個案嘅   值,  係個分佈嘅平均值,而   係個分佈嘅標準差;呢個數值愈大,表示個分佈偏度愈高[24]
    • 峰度[e 47]:指個分佈有幾「扁」;要評估一個分佈嘅偏度,一條可能嘅式如下:
       
      • 當中   係第   個個案嘅   值,  係個分佈嘅平均值,而   係個分佈嘅標準差;呢個數值愈大,表示個分佈愈扁,(如果係常態分佈)比例上有愈多嘅個案處於極端值[24]
 
兩個有相當偏度嘅概率分佈
  • 抽樣分佈[e 48]:攞一個基於隨機抽樣統計量,個統計量嘅概率分佈就係佢個抽樣分佈[25]
  • 聯合概率分佈[e 50]:一個聯合概率分佈同時描述緊多過一個變數嘅分佈;一個兩變數聯合概率分佈會有打橫嘅 X 軸 Y 軸以及打戙嘅 Z 軸,總共三條軸,X 軸 Y 軸分別描述嗰兩個變數    嘅數值,而 X 軸同 Y 軸成嘅平面當中每一點嘅高度(Z 值)反映咗「  係呢個數值而且同時   係呢個數值」嘅機會率。當變數有多過兩個嗰陣同一道理[26]
 
一個兩變數聯合概率分佈
  • 獨立同分佈[e 51]:係概率論同統計學上嘅一個概念;如果話一柞隨機變數(或者事件)係「獨立同分佈」嘅話,意思係佢哋嘅概率分佈完全一樣(每次抽嗰陣個結果嘅概率分佈一樣),而且彼此之間獨立(抽一次嘅結果唔會受打前抽到嘅數值影響)[27]
  • 中央極限定理[e 52]:概率論同統計學上最重要嘅定理之一;根據 CLT,想像有個變數  ,只要三條條件成立:
    1. 個總體喺   上嘅變異數係有限,
    2. 每次抽樣都係獨立同分佈(iid)嘅,
    3. 而且個樣本夠大,
    • 如果呢三條條件成立,噉無論個總體喺   上嘅概率分佈係點嘅樣,而家做抽樣,個樣本喺   上嘅平均值嘅分佈會接近一個常態分佈[27]

收集數據

編輯
 
抽樣係由一個總體嗰度抽出一個樣本嘅過程;喺呢個個案入面, 
内文:收集數據
睇埋:數據集

收集數據[e 53]係做統計分析前必要嘅一個工序:用科學方法做研究係要由對現實嘅觀察當中歸納出一啲能夠描述現實嘅普遍法則;而要對現實作出有系統化嘅觀察,就一定要攞數據-即係用某啲符號(喺統計學上通常係數目字)記低現實世界嘅狀態[28]

  • 總體[e 54]:指所有屬研究對象嘅個體;一份研究會嘗試搵出有關某啲研究對象嘅知識,會作出一啲描述呢啲對象嘅假說[29]
    • 例 1:研究假說係「嘅平均體重係咁多咁多」,研究對象係全世界嘅狼;
    • 例 2:研究假說係「人類可以記住一串 8 個位嘅數字平均記 4 個鐘頭」,研究對象係全世界嘅人類。
  • 樣本[e 55]:由總體抽出嚟、俾研究者攞嚟做量度  個個體(因為人力物力嘅限制,一份研究冇可能睇得嗮古往今來嘅所有研究對象)[29]
    • 例 1:由全世界嘅狼當中抽 100 隻嚟做研究,量度佢哋嘅體重, 
    • 例 2:由全世界(過十億)人當中抽 80 個做研究,量度佢哋嘅記住串數字記到幾耐, 
    • 樣本大細[e 56]:樣本嘅個體數量,通常以  符號代表;一般認為假設第啲因素不變,樣本最好就有咁大得咁大[29]。喺現實應用上,因為人力物力限制,研究者往往冇辦法做到「樣本有咁大得咁大」,不過會起碼想啲樣本「有返咁上下大」,仲會有啲特定嘅式,用嚟計「樣本最少要係幾大」[30]
  • 抽樣[e 57]:由總體抽出樣本嘅過程[31]
    • 代表性[e 58]:指個樣本有幾代表到想研究嗰個總體,數學啲講係指個樣本喺研究緊嘅變數上嘅概率分佈有幾接近總體;例如家陣想研究嘅總體係「人類」,但個研究者貪方便淨係由大學生嗰度抽樣,搞到成個樣本得 19 至 26 歲嘅人類,代表唔到呢個年齡層以外嘅人類-樣本代表性不足[29]
    • 隨機抽樣[e 59]:由總體嗰度隨機噉抽   個個體做樣本[31]
    • 系統抽樣[e 60]:將總體入面嘅個案,按每個個案佢喺某個變數   上嘅數值排序(由細到大定由大到細都得),然後再每   個個體就將嗰個個體抽出嚟做樣本一部份;系統抽樣能夠有效噉避免「抽出嚟個樣本喺變數   上唔夠代表性」呢個問題[32]
    • 返去平均[e 61]:想像家陣量度某個隨機變數若干次,如果其中一次度到個極端(極高或者極低)嘅數值,[註 3]噉下一次量度嗰陣大機率會度到個比較近平均嘅數值。有唔少統計學工作者指,返去平均嘅現象喺唔少人對「點解手上個數值出咗變化」作出錯誤嘅判斷(睇埋歸返謬論[33]
  • 統計量[e 62]:指由數據嗰度做計算得出、用嚟做進一步分析嘅數值,例子有平均值
    • 順序統計量[e 63]:一個樣本嘅第   級順序統計量係指個樣本入面第   細嗰個數值。
    • 充分統計量[e 64]統計量嘅一種。如果話一個統計量對於一個統計模型同個模型嗰啲參數嚟講係「充分」嘅,意思即係話「冇任何其他可以由個樣本嗰度計出嚟嘅統計量能夠為『啲參數嘅數值係乜』提供額外嘅資訊」,簡單講即係話嗰個統計量能夠獨力噉提供嗮有關個模型參數嘅數值嘅可能資訊[34]
  • 缺失數據[e 65]:指因為數據搜集嘅過程當中,因為受訪者對問題嘅遺漏、拒絕回答、又或者係啲調查員犯嘅疏忽等原因,而造成數據當中有啲位冇相應嘅數值。基本上做親統計分析個數據集都梗會有啲缺失數據,而係做統計分析嘅過程當中,一件缺失咗嘅數據通常會用「99」或者類似嘅冇可能數值代表[35]
  • 研究設計
    • 受試間設計[e 66]:指份研究量度咗受試者喺柞變數上嘅數值,並且比較受試者之間喺變數上嘅差異[36]
    • 受試內設計[e 67],又有叫重複量數設計[e 68]:指份研究量度咗每位受試者喺若干個時間點當中嘅變數數值;例:一路睇住班受試者嘅食量,每日睇一次,連睇 10 日,噉個數據集會每個受試者有 10 個數值,表示佢喺呢 10 日當中每一日嘅食量),等研究者可以分析一個變數點樣隨時間變化[36]
  • 自變數[e 69]應變數[e 70]:兩個相關嘅概念;IV 指自己變緊(自變)嘅變數,而 DV 指隨住 IV 變而變嗰一個變數,IV 可以大致想像成「影響或者預測 DV 數值嗰個變數」。
  • 控制變數[e 71]:如果話一個變數係一個控制變數,噉意思即係話研究者想睇個應變數獨立於呢個控制變數嘅效果。
  • 操作化[e 72]:指「定義要點樣量度一啲唔能夠直接量度得到嘅變數」嘅過程;例如係心理學研究成日都要應付一啲人腦入面嘅變數,呢啲變數好多時都難以直接量度,而個研究者要做嘅嘢包括定義好個變數,講明用某個直接量度得到嘅變數   代表想量度嗰一個變數( ),以及佢點解認為   代表到  ,上述嘅過程就係所謂嘅操作化[37]
  • 時間序列[e 73]:係指一列若干個數據數值,而呢列數值當中每一個都掕住一個數值,表示嗰一個數據數值「喺時間上係第幾個發生嘅數值」。
 
時間序列數據;X 軸代表時間,而 Y 軸就代表研究緊嗰個變數。
  • 倖存偏見[e 74]:指啲人搜集數據嗰陣,傾向淨係得到通過咗某啲甄選程序嘅個體,過唔到甄選程序嘅個體進入唔到數據集,因而引起數據偏向。例如喺二戰嗰時,有美軍嘅分析師試過研究戰機裝甲,佢哋分析返空軍基地嘅戰機喺乜嘢部位俾敵人子彈打過(搜集數據),諗住俾敵人子彈打得多嘅部位就要加厚裝甲;結果發現,返到基地嘅戰機當中冇一架係駕駛艙俾敵人子彈打過嘅;噉唔係表示駕駛艙唔使加厚裝甲,而係因為駕駛艙俾敵人打中嘅戰機根本唔會返到基地-駕駛艙俾敵人打中嘅戰機過唔到「生還」呢個甄選程序,令最後得到嘅數據望落好似反映「冇戰機嘅駕駛艙畀敵人打中過」噉[38]

觀察研究

編輯
 
一個人填緊份問卷;問卷調查係俾人做心理測驗嘅常見方法。
内文:觀察研究

觀察研究[e 75]係指由樣本嗰度攞啲描述自變數應變數嘅數據,並且作出推論,而途中唔會特登嘗試作出任何嘅操作嚟影響啲變數嘅數值。呢類研究喺社會科學上成日用,因為社會科學研究嘅係人-好少可有得好似自然科學噉,能夠吓吓都攞自己啲研究對象入去實驗室裏面任意噉搞[39]

  • 橫切面研究[e 76]:指研究者對個樣本喺 1 個時間點進行咗觀察。
  • 縱向研究[e 77]:指研究者對個樣本喺多過 1 個時間點進行咗觀察,而且會分析其中一啲變數隨時間嘅變化。
  • 隊列研究[e 78]:縱向研究嘅一種,指按某啲特性(性別同年紀等)搵一柞受試者返嚟觀察,然後喺打後一段時間(好多時斷年計)係噉觀察佢哋嘅變化;呢種做法喺醫學上成日俾人用嚟研究(例如)一隻對患者有乜嘢長遠影響[40]
  • 社會統計調查[e 79]社科上常用嘅一種收集數據方法,通過搵一柞社會大眾返嚟做受試者,對佢哋作出系統化嘅提問,並且分析有關研究嘅數據,用嚟描述或者解釋社會現象[41]
    • 李卡特量表[e 80]心理測量學上常用嘅一種社會統計調查方法,指每一條題目都成一句句子,而受試者要做嘅係睇每條題目,答自己有幾同意嗰句句子講嘅嘢;例:一個心理測驗量度一個人有幾外向,其中一條題目會係「我鍾意識新朋友」(一句句子,描述緊一樣同外向度有關嘅行為),而受試者要填一個 1 至 5 嘅數字,當中 1 分表示好唔同意呢句句子,5 分表示好同意[42]
  • 自我報告研究[e 81]:指靠人類受試者向研究者報告自己嘅行為嚟做嘅研究,通常係心理學社科領域先會做嘅。例如一個社會學研究者想研究一個人每個禮拜花幾多時間上網會點影響佢嘅社交生活,佢要量度每個受試者「每個禮拜花幾多時間上網」,就靠問受試者估計自己平均每個禮拜花幾多時間上網。自我報告研究嘅效度受到唔少學者爭議[43]
  • 民意調查[e 82]:指由專業人士搞,通過網絡、電話或者書面等嘅媒介嚟對一般大眾做調查,想知一般大眾對某啲政治經濟社會議題嘅意見態度[44]
  • 檔案研究[e 83]:指用檔案數據嚟做嘅研究;例如經濟學同第啲商學領域上嘅研究噉,就好興攞政府數據庫嗰度嘅數據嚟估計經濟指標數值,並且以呢啲經濟指標嚟做研究嘅自變數或者應變數[45][46]

實驗

編輯
内文:實驗

實驗[e 84]泛指一啲做嚟目的係要驗證某啲假說嘅步驟。喺研究者做實驗嗰陣,佢要喺一個有返咁上下受控[e 85] 指個研究者能夠量度同控制啲變數)嘅環境下做一啲操作[e 86]。一個操作涉及個研究者特登控制某啲變數(自變數)嘅數值,再睇吓個操作會引致應變數有乜嘢變化,用意在於研究自變數同應變數嘅變化之間係咪有因果嘅關係[47]-如果一份觀察性質嘅研究,發現    呢兩個變數之間有正相關,呢個發現有最少三個可能嘅解釋:

  •    上升,
  •    上升,或者
  •    會受同一個因素   影響而上升,

但如果做咗場實驗,操控   嘅數值(實驗操作[e 87])然後發現噉做令   數值上升,就更加確立「   上升」呢個可能性[註 4][48][49]

  • 實驗設計[e 88]:指設計一場實驗嘅過程;喺做實驗之前,研究者一般會寫計劃書向自己所屬嘅院校提議場實驗,會喺計劃書入面詳述場實驗嘅設計[50]
  • 實驗組同對照組
    • 實驗組[e 89]:指接受咗實驗操作嘅受試者。
    • 對照組[e 90]:指冇受實驗操作嘅受試者,研究者會對比實驗組同對照組,睇吓兩組受試者係咪有分別;如果有,噉就表示個操作真係有效。
    • 舉個例說明,想像有個研究者,佢想研究一隻新藥(自變數)係咪能夠提升人嘅專注力(應變數),於是佢就搵咗若干個受試者返嚟,將佢哋分做兩組,實驗組俾佢哋試隻藥,而對照組就食一隻已知唔會影響專注力嘅藥,然後俾兩組受試者做一啲要求專注力嘅作業(假設有咗明確方法量度專注力),比較兩組喺專注力上嘅表現係咪有分別,如果有,就表示隻藥真係有效[51]
  • 隨機化實驗[e 91]:指隨機噉將受試者分做實驗組同對照組;假想家陣有個研究者想做實驗,佢搵咗柞受試者返嚟,跟手就要有方法決定邊個入實驗組邊個入對照組,而一般認為,最理想係完全隨機噉分。有關應用上要點樣做到呢樣嘢,可以睇吓隨機數產生(RNG)等嘅技術[52]
  • 析因實驗[e 92]:指有多過一個自變數受操控嘅實驗;例如家陣有個研究者想知    呢兩個實驗操作分別會造成乜嘢效果同埋彼此之間有冇調節效應(睇下面),於是就將受試者分做 4 組-   都冇、有   、冇   、同    都有,成一個 2 x 2 嘅析因實驗[53]
  • 自然實驗[e 93]:指場實驗操作係由研究者以外嘅力量所施加嘅,例如係一場經濟實驗,研究自然災難造成嘅經濟影響-場災難唔係由研究者施加嘅,但研究者可以透過比較受咗場災難嘅經濟體同冇受嗰場災難嘅經濟體(假設兩個經濟體除咗災難之外大致上相同)對比,嚟推斷場災難造成咗乜嘢影響。呢種實驗喺社會科學嗰度零舍常見[54]
  • 准實驗[e 94]:指冇完全隨機噉將受試者分做實驗組同對照組實驗[54]
  • 臨床研究[e 95]:指喺醫學同相關領域上試吓新嘅或者治療法嘅效用;呢種研究通常都會採取比較實驗組(食咗隻新藥或者用咗新嘅治療法)同對照組(食咗安慰劑)嘅實驗方法嚟做[55]

量度

編輯
内文:量度
睇埋:刪失
  • 量度層次[e 98]:喺統計學入面對變數量度方法嘅一種分類法。喺做科學研究嗰陣時,科學家想做嘅嘢係要搵出變數同變數之間嘅關係,而要做呢樣嘢,佢哋好多時係首先要量度啲變數嘅數值,並且跟手做統計分析睇吓啲變數之間有乜嘢關係。量度層次嘅分類法係基於嗰個量度方法提供到幾多資訊嚟到劃分嘅,呢個分類法將量度方法分做四個級別[56][57]
層次 用得嘅邏輯數學運算 例子 點計中間趨勢 點計離散趨勢 定性抑或
定量
1
名目
[e 99]
   二元名目:性別(男、女)、真實性(真、假)、出席狀況(出席、缺席)
多元名目:語言廣東話普通話英文等)...
眾數
定性
2
次序
[e 100]
     多元次序:服務評等(傑出、好、欠佳)、教育程度(小學、初中、高中、學士、碩士同博士等) 眾數中位數 分位數
定性
3
等距
[e 101]
    
  
溫度年份緯度 眾數中位數平均數 分位數全距
定量
4
等比
[e 102]
    
    
價錢年齡身高絕對溫度、絕大多數嘅物理量 眾數中位數平均數 分位數全距標準差
定量
  • 連續變數[e 103]離散變數[e 104]:一個連續變數嘅可能數值有無限咁多個,而離散變數得若干個可能數值;例:真相得兩個可能數值(真同假),但溫度嘅可能數值嘅數量原則上有無限咁多個,攝氏 100 度、攝氏 100.01 度、攝氏 100.0001 度... 等等[58]
    • 離散化[e 105]:指「將一個連續嘅變數或者函數變做離散」嘅過程;喺實際應用上,噉做嘅一個可能目的係因為手上嘅數據唔夠多,但要搜集大量數據又因為人力物力嘅限制而行唔通,所以分析之前將一個連續嘅變數變做離散(睇下面中位數分割),令分析變簡單啲[59]
    • 中位數分割[e 106]將一個連續變數變做一個離散變數嘅一種方法;攞一個連續變數  ,搵出  中位數    數值   嘅個案冚唪唥設做「組 1」,而   數值   嘅個案冚唪唥設做「組 2」-得出「屬組 1 定組 2」呢個離散變數,可以將一個原本係連續嘅變數做一啲離散變數先可以做嘅推論統計分析(例如係 ANOVA)。到咗 2020 年,中位數分割呢種做法廣受評擊,好多人都唔會接受呢種做法[59]
  • 共同方法變異[e 107]:指因為量度方法(而唔係想量度嗰個變數)而起嘅變異數-想量度嘅變數會有一個(研究者想靠量度估計嘅)概率分佈,但實際量度到嘅數值嘅分佈可能同呢個真實分佈唔同,而呢個差異係因為量度架生嘅特性而起嘅;要檢驗一柞數據有冇共同方法變異嘅問題,最原始嘅做法係用哈曼測試[e 108]-即係用探索型因素分析(EFA;睇下面)嘗試由柞數據嗰度抽取一個因素出嚟,而如果呢個想像中嘅因素能夠解釋幾多嘅變異數[註 5][60]
  • 時間解像度[e 109]:指一個量度方法能夠睇到幾細時間差之間嘅變化。例如有兩個量度方法 A 同 B,A 能夠話到俾觀察者知一個變數喺 1 毫秒之間嘅變化,而 B 淨係講到俾觀察者知個變數喺 10 秒之間嘅變化,噉 A 嘅時間解像度比較高。
  • 空間解像度[e 110]:指一個量度方法能夠睇到幾細空間差之間嘅變化。例如有兩個量度方法 A 同 B,A 能夠話到俾觀察者知一個變數喺 1 厘米之間嘅變化,而 B 淨係講到俾觀察者知個變數喺 1 米之間嘅變化,噉 A 嘅空間解像度比較高。
  • 天花板效應[e 111]地板效應[e 112]:指想量度嗰啲數值高得滯(天花板效應)或者低得滯(地板效應),搞到件量度架生唔再俾到有用嘅資訊[61]
    • 舉個簡化嘅例子,想像家陣攞支日常嘅溫度計去量度太陽(塊表面超過 5,000 °C 咁熱)同天狼星(塊表面估計超過 9,000 °C 咁熱)嘅表面溫度,攞支日常溫度計去度太陽表面嘅話,條溫度計應該會變成氣體(假如條溫度計係用一般玻璃造-普通嘅玻璃沸點好多時得嗰 2,200 °C 左右),而攞支日常溫度計去度天狼星表面,條溫度計都係變氣體-噉即係話,雖然天狼星明顯熱過太陽,但條溫度計對太陽定對天狼星都係俾一樣嘅反應(變氣體)-做唔到分辨兩者(俾唔到有用嘅資訊)。
    • 呢種情況喺社科入面都見得到:想像家陣有 A 君同 B 君兩個人,兩個都喺智商測驗度攞滿分;但噉唔表示兩個一樣咁聰明-可能 A 君明顯聰明啲,但佢同 B 君嘅智能都係遠超份智商測驗度到嘅值;於是份智商測驗就唔再俾到有用嘅資訊-發生咗天花板效應[62]
    • 地板效應係天花板效應嘅相對,指想量度嗰啲嘢嘅值低得滯,搞到件量度架生俾唔到有用資訊(想像條溫度計最低淨係度到 -20 °C 嘅氣溫,條計就應該唔會有能力分辨一嚿 -100 °C 嘅物體同一嚿 -120 °C 嘅物體)。

信度同效度

編輯
内文:信度效度

信度[e 113]係常用嚟評估一個量度方法有幾好嘅指標,指對一個現象用嗰個方法進行重複觀察之後,係咪可以得到相同嘅數值;正路嚟講,如果一個量度方法係可信嘅,噉無論何時何地何人用嗰個方法量度同一樣嘢,都理應會得到相同嘅數值[63][64]

  • 評分者間信度[e 114]:用嚟評估一個量度有幾受做量度嘅人影響;例如有一個俾教育家用嚟評估細路學習進度嘅方法,但做完研究發現,五位教育家分別噉用同一個方法評估同一班細路,五個得到完全唔同嘅數值,噉呢個量度方法嘅評分者間信度就低。
    • 高氏 kappa[e 115]  ):可以用嚟評估評分者間信度嘅指標,條式係
       
      • 當中   係指有幾多 % 嘅個案係兩位評分者同意(評同一個分數),而   指如果啲評分者隨機評,有幾多 % 嘅個案會係兩位評分者同意。高氏 kappa 最大可能數值係 1,數值愈近 1 愈表示評分者間信度高[65]
  • 評分者內信度[e 116]:用嚟評估一個量度有幾受做量度嘅人影響;例如有一個俾教育家用嚟評估細路學習進度嘅方法,但做完研究發現,由同一位研究員用同一個方法度同一個細路,假設段研究時間短(個細路嘅行為理應唔會有明顯變化),次次出嘅結果都唔同,噉呢個量度方法嘅評分者內信度就低。
  • 重測試信度[e 117]:用嚟評估一個量度方法有幾受時間影響;例如有一個俾心理學家用嚟量度智商嘅測驗,做研究,搵班受試者返嚟做個測驗,得到一柞分數  ,然後過咗一個月之後,搵返班受試者返嚟又做過,得到另一柞分數  ;一般認為智商冇乜可能會喺一個月之內改變嘅,如果    差異好大,就表示呢個測驗嘅重測試信度低。
  • 內部一致度[e 118]:指一個有多條題目嘅量度方法有幾「係量度緊同一樣嘢」;例如有一個智商測驗,有 50 條題目,理論上,呢啲題目冚唪唥都係量度緊智商,所以彼此之間理應喺得分上有返咁上下正相關,但研究發現,嗰 50 條題目當中有 5 條零舍係同其餘嗰啲題目有負相關,噉心理學家就好可能會要求攞走嗰 5 條題目(佢哋似乎唔係量度緊智商,所以唔應該擺喺一個智商測驗入面),變成一個 45 條題目嘅測驗。

效度[e 119]係另一個常用嚟評估一個量度方法有幾好嘅指標,指個方法有幾量度到佢理應要量度嗰樣嘢;一個有效嘅量度方法真係量度緊研究者想佢量度嗰個變數;例如如果一個方法信度高、但效度低,就表示個量度方法能夠準確噉量度某個變數,但佢所量度嗰個變數並唔係研究者想佢量度嗰個[63][64]

  • 建構效度[e 120]:指一個概念嘅量度有幾合乎理論上嘅定義;例如理論上,智商測驗係量度智能嘅,而智能理論一般認為,智能包含一個個體解難嘅能力,所以一個智商測驗理應會考驗受試者嘅解難能力;建構效度嘅評估一般都係比較理論化嘅[66]
  • 效標效度[e 121]:通常用嚟評估心理測驗嘅效度嘅一個指標,指個測驗嘅分數同俾人認為代表要量度嗰個變數有幾強相關;例如一個設計嚟量度一個人有幾外向嘅心理測驗,研究者搵咗班受試者返實驗室做個測驗,知道每位受試者嘅分數,然後喺實驗室入面觀察每位受試者有幾常主動同人講嘢或者互動(呢啲行為反映外向程度),再做一個相關嘅分析,睇吓測驗分數係咪真係同受試者做外向行為嘅次數有正相關。
  • 分歧效度[e 122]:指一個量度方法有幾「唔量度到理應唔啦更嘅變數」;例如一個智商測驗理應係量度緊智商,而唔係身高,如果一個一個智商測驗入面其中一條題目同個人嘅身高有正相關而且同身高嘅相關強過同其餘題目嘅相關,噉就似乎表示呢條題目量度身高多過量度智商,分歧效度低。
  • 內容效度[e 123]:指一個量度方法有幾能夠涵蓋嗮佢要量度嗰樣嘢嘅各個方面;例如智能一般包括邏輯語言等多種嘅認知能力,所以一個理想嘅智商測驗理應要量度嗮以上嘅各種認知能力。
  • 聚合效度[e 124]:指一個量度方法有冇同一啲理論上同佢有相關嘅嘢有預期中嘅相關;例如智能理論上會同時影響一個人嘅邏輯能力同語言能力,所以邏輯能力同語言能力理論上應該會有返咁上下正相關[67]
  • 表面效度[e 125]:指一個量度方法就噉望落有幾合乎佢理應要量度嘅嘢,通常話「一個量度方法有表面效度」喺正式科研上唔會俾人接受[68]

描述統計學

編輯

描述統計學[e 126]係指一啲量化噉描述一柞資訊嘅統計數值,包括咗[69]

集中趨勢

編輯
内文:集中趨勢

集中趨勢[e 127]係指表示一個概率分佈「最中間嗰個數喺邊」嘅統計數值[69]

  • 平均數[e 128]:平均數( )最常係指算術平均值[e 129],即係將啲個案嘅數值( )冚唪唥加埋一齊,再除以個案數量( ):
     
    • 幾何平均值[e 130]  ):指將嗰   個案嘅數值乘埋一齊,再計個數嘅   根式
       
    • 調和平均值[e 131]  ):指以下嘅數值:
       
  • 中位數[e 132]:將啲個案嘅數值( )由細到大或者由大到細排好序,再攞最中間嗰個數,嗰個數就中位數;如果個案數量係雙數,令到有兩個數喺中間,就攞嗰兩個數嘅平均。
 
  • 眾數[e 133]:指出現得最多次嗰個數值,通常只會喺個變數係離散嘅嗰陣先會用。

離散程度

編輯
 
兩個大致跟常態分佈概率分佈;紅色嗰個嘅變異數低啲。
内文:離散程度

離散程度[e 134]係指描述一個概率分佈「有幾散」嘅統計數值[70]

  • 變異數[e 135]  ):以下嘅數值:
     
    • 當中   係個案數量,  係第   個個案喺個變數上嘅值,而   係個樣本嘅平均值-  反映咗啲個案平均距離平均值幾遠。
  • 標準差[e 136]  ):變異數嘅開方
     
  • 百分位數[e 137]:家吓將樣本入面嗰   個數值由細至大排好,噉第   個案嘅百分位數( )就係指有幾多百分比嘅個案喺個變數數值上細過或者等如嗰個個案,即係
     
  • 全距(range):指樣本入面最大嘅   數值減最細嘅   數值。
  • 變異系數[e 139]  ):指用平均值標準差得出嘅數。
     
  • 離散指數[e 140]:一個概率分佈嘅離散指數   係指以下嘅數值:
     
    • 離散指數可以用嚟作為離散程度嘅一種標準化指標[71]
  • 協方差矩陣[e 141]:一種數據表達方法,用一個矩陣表達每對變數之間嘅協方差,例如下面嗰個矩陣就顯示    之間嘅協方差係  ,而對角線當中嘅係每個變數嘅變異數,例如下面嗰個矩陣就顯示   嘅變異數係  
數據顯示嘅協方差矩陣
       
         
         
         
         

統計圖

編輯
 
一幅箱形圖
内文:統計圖

統計圖[e 142]係指將數據以視覺化嘅方法表達出嚟嘅做法,用途主要在於令啲數字易睇啲,例子有棒形圖

  • 箱形圖[e 143]:一幅箱形圖條 X 軸會一個離散嘅變數  ,Y 軸係一個連續嘅變數    嘅每個可能數值都會有一個四方形嘅「箱」,個箱會下面掕一條橫線上面掕一條橫線,個箱反映嘅嘢如下[72]
    • 個箱上面嗰條橫線反映最大嘅   值;
    • 個箱下面嗰條橫線反映最細嘅   值;
    • 個箱嘅上邊反映上四分位數[e 144],即係   值比較高嗰半橛嘅中位數
    • 個箱嘅下邊反映下四分位數[e 145],即係   值比較低嗰半橛嘅中位數
    • 個箱中間嗰條線反映所有個案夾埋中位數
  • 散佈圖[e 146]:一種常用嘅統計圖,圖嘅兩條軸分別代表咗一個變數,圖上每一點代表一個個案,而每個個案都喺嗰兩個變數上有個數值,所以就形成一幅有大量點點嘅圖像,而每個點嘅位置反映佢喺變數上嘅數值。

拉雜描述統計

編輯
  • 標準分數[e 147]:攞個個案喺一個變數上嘅數值  ,個個案喺嗰個變數上嘅標準分數( )係
     
    • 當中   係拃個案喺個變數上嘅平均值,而   係佢哋個標準差[73]
  • 結合數據[e 148]:指由將幾個個體嘅數據以某啲方式結合成嘅數據;例:有個經濟學家想研究一間公司營業額同員工嘅工作表現有乜關係,佢一個可能嘅做法係,每間公司都搵若干個員工(個體),量度每個員工嘅工作表現(個體嘅數據;假設員工表現有方法量化),然後每間公司計個平均員工工作表現(以平均值嘅方式結合),再用統計分析睇吓每間公司嘅呢個數值同營業額之間有乜關係[74]
  • 抽樣誤差[e 149]:指因為抽樣造成嘅誤差-例如由一個有 10,00 個個體嘅總體嗰度是但抽 100 個個體出嚟,用呢 100 個個體嘅平均身高 )估計個總體嘅平均身高( ),因為抽樣過程嘅隨機性,   之間梗會有些少差異[75]
  • 誤差積聚[e 150],又有叫不確定嘅傳播[e 151]:指一柞變數不確定性隨機誤差)影響到基於柞變數嘅函數嘅不確定性;想像一架太空船燃料缸,太空船要監察住自己仲淨低幾多燃料,而廿世紀嘅太空船做法係知道燃料缸滿嗰陣容量係幾多,然後喺每次架船噴燃料嗰時估計問出咗幾多燃料,靠噉嚟計淨低幾多燃料,但噉做有問題-每一次嘅估計都會有個最大可能誤差  ,喺噴咗   次燃料之後,得到嘅估計結果嘅誤差最大可以係成   咁多,即係話誤差會隨住做估計嘅次數「積聚」變到愈嚟愈大[76]
  • 數數據[e 152]:指數某件事發生咗幾多次嘅一種數據,數值只可以係正整數。
  • 班佛定律[e 153],又有叫第一個位定律[e 154]:指一個喺現實世界數據當中觀察到嘅現象;如果話一柞有單一變數   嘅數據跟從班佛定律(假設啲數值以十進制寫),意思係話喺嗰柞數據入面,會有大約 30% 嘅個案喺   上嘅數值會係以 1 開頭,而數值嘅開頭數字愈大嘅個案數量就會愈細,得大約 5& 嘅個案喺   上嘅數值會係以 9 開頭(下圖)。實證嘅研究表明,呢種現象喺地址、股票價格同人口數字等多種嘅自然(唔係由人用電腦隨機產生)統計數字當中都可以見得到[77]
 
一個跟從班佛定律嘅數據集;X 軸係 1 至 9,而 Y 軸係(如果啲數據以十進制嘅數字表示)「喺數值上以嗰個數做開頭嘅個案嘅數量」。

推論統計學

編輯

推論統計學[e 155]技術化噉講係指做數據分析,推論數據背後反映嘅概率分佈嘅過程。呢啲分析通常係由數據嘅個案嘅值嗰度計一啲指標出嚟,用呢啲指標評估(例如)某兩個變數之間係咪真係有關,或者個自變數係咪真係能夠對個應變數產生影響,甚至估計一個數學模型出嚟描述所研究嘅現象。廿一世紀嘅統計學上有好多種推論統計分析法,每種能夠處理嘅數據類型都唔同。數據科學等領域嘅專家一定要對呢啲唔同嘅分析法有所認識,知乜嘢時候應該用邊種分析法[78]

假說檢定

編輯
内文:假說檢定

假說檢定[e 156]係指喺推論統計學當中驗證一個假說係咪真嘅過程。一個做假說檢定嘅研究者所做嘅工序如下:

  1. 睇過有關佢所研究嗰樣嘢嘅文獻,
  2. 建基於已有嘅知識,作出一啲有關嗰樣嘢嘅新假說-「我睇過打前嘅研究,我認為有咗已知嘅嘢,我可以作出以下嘅判斷,而『驗證呢個判斷係咪正確』能夠帶嚟新知識」,
  3. 諗出一個驗證呢假說嘅程序,
  4. 用呢個程序攞數據,
  5. 對數據作出分析,
  6. 用分析結果判斷個假說係咪真確[79]
  • 假說[e 157]:喺科學上係指一個仲未搵到證據支撐,但研究者有理由認為係真確嘅論述。
  • 虛無假說[e 158] 符號 )同備擇假說[e 159] 符號 ):虛無假說係做一份研究嗰陣嘅預設立場,指「兩個量度嘅變數之間冇關係」呢句嘢, ,而備擇假說係做一份研究嗰陣嘗試驗證嘅立場,指「兩個量度嘅變數之間有關係」呢句嘢, 
    • 舉個例說明,假想有個認知科學家想驗證「年紀」同「記憶力」呢兩個變數之間嘅關係,於是佢就搵咗兩批人返嚟做佢嘅樣本,第一批人年紀喺 20 至 30 歲之間,第二批人年紀喺 50 至 60 歲之間,再用一啲測試量度呢兩批人嘅記憶力,設第一批人喺記憶力測試上嘅平均得分係  ,而第二批人喺同一柞測試上嘅平均得分係  ,噉呢份研究嘅     ,當中後者係個認知科學家想證實嘅嘢[80]
  • 單側同雙側檢定[e 160]單側檢定指個備擇假說講明咗   處於   邊一面,即係   或者  ,而雙側檢定指個備擇假說冇講明   處於   邊一面,即係單純嘅   [81]
  • 喺做假說檢定嗰陣,一般會將可能會出現嘅錯誤分兩種[82]
    • 第一型錯誤[e 161]指錯誤噉否定咗  ,得出咗個「假陽性」結果-兩個變數查實冇啦掕,但研究者搵到咗一個陽性結果出嚟。
    • 第二型錯誤[e 162]  其實係錯,但就冇俾人成功噉否定到,得出咗個「假陰性」-兩個變數實際上有關但就搵到個陰性結果。
  • 統計顯著性[e 163]:係做假說檢定嗰陣得到嘅一個數值;統計顯著性嘅數學符號係  ,表示「如果虛無假說係真,呢個結果出現嘅機會率」,
     睇到個噉嘅結果  係真  
    例如如果   值係 0.05,表示「如果虛無假說係真,呢個結果出現嘅機會率得嗰 5%」-因為呢個緣故,研究者有理由相信虛無假說好有可能唔係真,而主張備擇假說(通常係佢想得到嗰個結果)比較有可能會係真,個研究者可以拒絕個虛無假說[e 164][79]
  • 統計功效[e 165]:一個假說檢定過程會有嘅一個屬性;指「如果   係真確,個測試過程會成功拒絕到  」嘅機會率[83]
     成功拒絕   係真  
  • 點定區間估計
    • 點估計[e 166]:指用樣本嘅數據嚟計出一個數值,作為一個「估計嘅數值」;例如做統計嘅人家陣嘗試靠住樣本嘅變數   數據嚟估計出總體個   嘅平均值最大機會會係幾多,如果畫做圖嘅畫,個估計值會係條軸上面嘅一[84]
    • 預測區間[e 167]:指按統計模型作出嘅一個有關「跟住落嚟呢個觀察值嘅數值會喺幾多同幾多之間」嘅預測,會掕個機率數值表示嗰個預測有幾大機會成真[84]
    • 區間估計[e 168]:指用樣本嘅數據嚟計出一個數值間距,作為一個「估計個數值喺邊點同邊點之間」;例如做統計嘅人家陣嘗試靠住樣本嘅變數   數據嚟估計出總體個   嘅平均值喺幾多同幾多之間,如果畫做圖嘅畫,個估計值會係條軸上面嘅一個間距[84]
      • 信心區間[e 169]:係指「有信心總體個真實數值係喺入面嘅區間」,喺做統計嗰時會俾人攞嚟表述個樣本嘅數值同個總體嘅真實數值之間估計差幾遠。
  • 因果[e 170]:兩個變數之間可能有嘅一種關係;如果話   係因而   係果,意思即係話   引致  -「因果」一詞嘅具體定義喺廿一世紀初嘅哲學邏輯學上查實仲係一條好有爭議性嘅問題[85]。以廿一世紀初嘅基準嚟講,如果要檢定一啲帶有因果性質嘅假說(例如「食煙會引致患肺癌機率提高」係一條醫學有可能會研究嘅因果假說),通常份研究要滿足以下呢啲條件[86][87]
    • 份研究涉及實驗操作:研究者要操控  (因),睇吓  (果)係咪會跟住改變;如果會,先至確立到因果關係。
    • 份研究要顯示   嘅變化响時間上發生喺   嘅操作之後,先至會確立到因果關係。
    • 一般認為,齋靠統計相關係確立唔到因果關係嘅(睇相關唔蘊含因果)。
    • 格蘭傑因果關係[e 171]:靠兩個變數嘅時間序列嚟評估嗰兩個變數之間「有冇因果關係」嘅一種假說檢定方式;最簡單噉講,喺格蘭傑因果關係之下,攞一個因變數   嘅時間序列同一個果變數   嘅時間序列,並且揀一個時間間隔  ,如果喺每個時間點    數值傾向能夠預測   咁耐之後嘅   數值嘅話,噉   就可以算係   嘅「因」。呢種分析方法源自經濟學(經濟學成日都會應付一個個經濟指標數值嘅時間序列),而且喺現代嘅各社會科學當中相當常用,不過「到底呢個測試能唔能夠真係表明因果」係一條幾受爭議嘅課題[88]
 
打橫條軸表示時間。 (上面條線)喺一個時間點嘅數值能唔能夠預測(紅色箭咀) (下面條線)喺若干時間後嘅數值呢?
  • 多重比較問題[e 172]:指一位研究者同時考慮多場統計推論嘅結果嗰時會搞到出錯嘅機率提升;例如家陣位研究者做咗 5 場 t 測試,噉「啲測試當中最少一場出咗錯」嘅機率實會高過淨係做 1 場 t 測試嗰陣嘅。統計學界有好多種方法應付多重比較問題,簡單例子有「做嘅測試數量愈多,就要對統計顯著性有愈嚴格嘅基準」[89]
    • 邦佛朗尼校正[e 173]:最簡單(同時亦係最保守)嗰種多重比較問題應對方法,將對統計顯著性嘅要求變得嚴格啲;設   做一次比較嗰陣對統計顯著性嘅要求,  做比較嘅次數,邦佛朗尼校正係將對統計顯著性嘅要求設做[90]
       

統計相關

編輯
内文:統計相關

相關[e 174]呢個詞喺統計學上嘅定義如下:如果話    呢兩個變數正相關,即係話   數值高嗰陣   數值都傾向高,而   數值低嗰陣   數值都傾向低;如果話    呢兩個變數成負相關,即係話   數值高嗰陣   數值傾向低,而   數值低嗰陣   數值就會傾向高;而如果話    呢兩個變數冇明顯相關[e 175],即係話   嘅數值唔會點預測得到   嘅數值[91]

  • 皮亞遜積差相關係數[e 176]:係常用嚟衡量兩個變數之間嘅相關嘅一個數值,條式如下[92]
     ,當中
    •     呢兩個變數之間嘅皮亞遜積差相關係數;
    •   係第   個個案嘅   數值;
    •   係第   個個案嘅   數值;
    •   係啲個案喺   上嘅平均值
    •   係啲個案喺   上嘅平均值;
    •   係啲個案喺   上嘅標準差
    •   係啲個案喺   上嘅標準差。
    • 皮亞遜積差相關係數俾嘅資訊只係「兩個變數大致上嘅相關」,但就算兩個變數之間嘅皮亞遜積差相關係數係 0,都唔等如兩個變數之間真係冇關,好似係以下嘅一柞圖噉,每幅圖上面嗰個數表示皮亞遜積差相關係數,每一點表示一個個案,X 軸係變數  ,Y 軸係變數  ;由圖中可見,有好多有趣嘅關係都會俾出數值係 0 嘅皮亞遜積差相關係數[92]
  • 協方差[e 177]皮亞遜積差相關係數條式個分子,即係[93]
     
 
  • 相關唔蘊含因果[e 178]:統計學上嘅一條重要原則,指緊就算兩個變數之間有相關,都唔表示兩個變數之間有因果關係;假想而家有兩個變數    之間有勁嘅相關(皮亞遜積差相關係數數值大),噉可以表示三個可能性-
    1.   引致  
    2.   引致  
    3.    有同一個原因。
    • 有唔少統計學嘅學生都以為兩個變數之間有相關表示咗兩者有因果關係,但呢個係一個錯誤嘅諗法,所以統計學界就有咗句噉嘅說話用嚟提醒學生要小心[94]
  • 局部相關[e 179]:指喺第個或者第啲變數嘅影響冇咗嘅情況下,兩個變數之間嘅相關;想像有兩個變數   ,有  混淆變數(睇下面)    之間「喺   嘅影響受控制冇咗嗰陣」嘅局部相關   會係    之間嘅相關,當中   係指做線性迴歸分析  預測   嗰陣嘅誤差,  同一道理[95]
  • 組內相關[e 180]:用嚟衡量每一組有幾「內部一致」嘅基準;想像有個數據,有若干個個案,而呢柞個案可以分做若干組,如果柞數據反映組內相關高,就表示同一組嘅個案嘅數值傾向彼此之間接近;要計組內相關可以有幾條唔同嘅式用[96][97]
每個藍點係一個個案,每個個案有個   值,而 X 軸表示個個案屬邊組;左圖係 ICC 高(0.91)嘅情況,而右圖係 ICC 低(-0.07)嘅情況。
  • 等級相關[e 181]:指要同佢哋計相關值嗰兩個變數係「等級」,即係每個個案喺嗰兩個變數上有「第一高」、「第二高」同「第三高」等嘅數值[98]
    • 斯皮亞曼等級相關係數[e 182]  ):等級相關嘅一種計法,指兩個變數分別嘅等級之間嘅皮亞遜積差相關係數,即係[99]
       ,當中
      •   係考慮緊嗰兩個變數,而   係啲個案喺   上嘅等級(第一、第二... 等等)。
    • Τ 等級相關係數[e 183]  ):設   做一柞個案,每個個案都喺   呢兩個變數上有個數值,是但搵兩個個案    嚟睇,佢哋可以係一致[e 184],即係   或者  ,否則佢哋就算係唔一致[e 185],而   嘅計法如下[100]
       
      •  :一致配對嘅數量
      •  :唔一致配對嘅數量
  • 自相關[e 186]:一個隨機過程嘅自相關係指嗰個過程喺唔同時間點嘅數值之間嘅皮亞遜積差相關係數;設   做一個有隨機嘅過程,  設做是但一個時間點,而家將   呢個過程若干次,  代表個過程喺時間點   俾出嘅數值,噉呢個過程時間點   同時間點   之間嘅自相關   定義上係    之間嘅皮亞遜積差相關係數;自相關喺訊號處理上常用,可以用嚟量度一段訊號有幾接近完全隨機[101]
  • 交叉相關[e 187]:睇喺每個時間點兩段時間序列    之間嘅統計相關,即係話交叉相關會反映  (時間點    值)同  (時間點    值)之間嘅相關,又或者係揀個延遲值  ,睇吓交叉相關反映    之間嘅相關[102]
  • 正交[e 188]:喺統計學上,如果話兩個 IV「正交」,意思即係話呢兩個 IV 之間冇統計相關[103]。睇埋多重共線性

比較平均值

編輯

泛指「將手上嘅個案分做若干組,再比較唔同組之間喺個變數上嘅平均值」嘅推論統計學分析方法,多數都會假設每組喺個變數上呈常態分佈

  • 學生 t 測試[e 189],簡稱 t 測試:成日用嘅統計分析方法之一,用嚟分析兩個組(通常係實驗組同對照組)之間喺某個指定變數嘅數值上係咪有顯著嘅差異[104]。t 測試涉及以下嘅方程式,比較兩組喺個變數上嘅平均值
     
    • 當中   係成個樣本嘅大細,    就係兩個組分別喺個變數上嘅平均值  係兩個組嘅標準差(t 測試假設咗兩個組嘅標準差相等),最後計到一個   值出嚟。如果   值好大,噉就表示咗「兩個組之間嘅差異」大過「組嘅內部差異」好多,噉亦都表示咗「個實驗嘅操作造成嘅差異」大過「隨機性嘅個體差異」-  值愈大愈係表示兩個組之間嘅差異係因為組嘅存在而造成嘅。計到個   值之後,仲有啲方法可以跟手計埋個顯著性嘅值出嚟。
    • 獨立樣本 t 測試[e 190]:指做 t 測試比較嗰兩個組係獨立同分佈嘅,例如做個心理學實驗,用隨機抽樣方法隨機噉抽咗   個受試者返嚟,再用隨機方法將佢哋分落實驗組同對照組(即係每位受試者有 50% 機率入實驗組、50% 機率入對照組)[105]
    • 配對樣本 t 測試[e 191]:指做 t 測試嗰兩個組獨立同分佈嘅,研究者做咗某啲嘢,令一組數值當中每一個都喺另外嗰組當中有個對應,例如做個心理學實驗,研究者想知個實驗操作會引致變數   有乜變化,於是就喺實驗前量度   一次,跟住對受試者做實驗操作,然後喺實驗後又量度   一次(睇返重複量數設計)。喺呢個情況下,每位受試者都有個
      • 「實驗前嘅   值」( )同
      • 「實驗後嘅   值」( ),
      • 研究者想比較兩組數值(總共有   個數值,而受試者數量係  ),但兩組數值唔係獨立同分佈嘅-每個   值都有一個相應嘅   值(一位受試者嘅   值同佢嘅   值)。喺配對樣本 t 測試當中,兩組數值理論上會互相影響-每一個   理論上都會係相應嘅  函數 ),所以同獨立樣本 t 測試比起嚟,配對樣本 t 測試嘅統計自由度 ;睇下面)會明顯低啲[105]
         
 
實驗組同對照組喺個變數上各有個概率分佈(紅色線同藍色線);上圖顯示兩組差異細-組之間嘅差異(由   反映)同組內部差異(由   反映)比起嚟好細,而下圖顯示兩組差異大。組嘅數量係三或者以上(ANOVA)嗰陣可以用同樣方法想像。
  • 變異數分析[e 192]:一系列用嚟分析唔同組嘅平均值嘅方法;假想家陣個研究者想比較三組喺變數   嘅平均值上嘅差異,如果三組之間有顯著嘅差異,噉組之間嘅  變異數應該會大過組內部嘅好多。最簡單嘅單因子變異數分析[e 193]分析一個應變數喺三個或者以上嘅組之間嘅差異(就係自變數),考慮以下嘅數值[106]
     
    • 原則上,  數值愈大,研究者就愈有理由相信組之間有顯著嘅差異。
    • 重複量數變異數分析[e 194]:即係唔同組係同一班受試者喺唔同時間點嘅數值嗰陣用嘅 ANOVA;想像一個用重複量數設計實驗,喺   個時間點分別噉量度班受試者喺變數   上嘅值,如果  ,研究者可以用配對樣本 t 測試(睇上面),而如果  ,噉研究者就要用 rANOVA-比較   組( )數值之間喺   上嘅平均值嘅差異,而呢   組唔係各有一班受試者,而係同一班受試者喺唔同時間點嘅  [107]
    • 雙因子變異數分析[e 195]:指有兩個自變數嘅 ANOVA,可以用嚟睇嗰兩個自變數之間嘅調節效應(睇下面)[108]
    • 多變量變異數分析[e 196]:ANOVA 嘅一個變種,用嚟分析多過一個應變數;簡單講嘅話,MANOVA 做嘅嘢就係比較唔同組嘅平均值向量-喺一般嘅 ANOVA 當中,每組得一個數值(個應變數嘅平均值),而 MANOVA 要考慮多過一個應變數,所以做法就變成每組有一個向量  ,即係   個應變數(假設每個應變數都最少去到等距層次)[109]
    • 協方差分析[e 197]:係一種結合 ANOVA迴歸分析一般線性模型;評估一個應變數嘅平均值係咪受一個離散嘅自變數(例如)影響(一般 ANOVA 做得到嘅嘢)之餘,仲會控制住若干個連續變數(簡單講就係睇到個應變數獨立於呢啲控制變數嘅效果)。大致上噉講,ANCOVA 做嘅就係假設柞控制變數同應變數成線性關係,做迴歸分析用柞控制變數預測應變數,然後再用迴歸分析得到嘅誤差(柞控制變數預測唔到嘅變化)嚟做應變數行 ANOVA [110]
  • 等分散性[e 198]:比較平均值方法成日會作嘅假設;如果話一柞隨機變數(例如係「各組喺變數   上嘅數值」)具有等分散性,表示佢哋冚唪唥都具有相同嘅有限變異數。比較平均值方法通常會假設各組喺變數   上嘅數值嘅變異數一樣[111]
  • 異分散性[e 199]:等分散性嘅相反,指嗰柞隨機變數當中有最少一個喺變異數上同其他嗰啲唔同[111]
  • Z 測試[e 200]:都係比較樣本之間嘅平均值有咩差異,不過唔似得 t 測試噉條式會考慮埋樣本大細
     
    • 當中   值愈大就愈表示樣本之間嘅差異愈明顯。
  • F 測試[e 201]:泛指要測試嗰個變數喺虛無假說下係跟 F-分佈[e 202]嘅。

拉雜推論概念

編輯
  • 非參數統計學[e 203]:泛指「唔對背後嘅概率分佈統計參數)作出任何假設」嘅統計分析方法;例如 t 測試ANOVA 都假設咗啲變數背後係跟常態分佈嘅,所以呢啲統計分析法就係有參數統計學;非參數統計學嘅例子包括麥倫瑪測試呀噉[112]
  • 卡方檢定[e 204] χ2):一種成日俾人用嚟分析離散變數之間嘅關係嘅做法;喺最簡單嘅情況下,卡方檢定要做嘅嘢係計以下嘅數值:
     ,當中
    •   係所謂嘅卡次方[e 205]
    •   係一個觀察到嘅數值。
    •   係一個預期嘅數值。
    • 舉個例說明,想像研究者家陣想研究老人家係咪零舍容易有某隻病,佢搵個樣本返嚟,樣本入面有若干個人係老人家(歲數大過 60),又有若干個人有病,即係話啲受試者會屬於四個類嘅其中一類:
      • 有病又唔係老人家;
      • 有病又係老人家;
      • 冇病又唔係老人家;
      • 冇病又係老人家;
    • 跟住研究者可以計吓每個格嘅人數( )同「假如歲數同有冇嗰隻病無關,嗰一格嘅預期人數」( )。所以如果   數值愈大,佢就愈有理據相信歲數同有冇嗰隻病真係有關[113]
  • 麥倫瑪測試[e 206]:一個 IV 一個 DV,兩個變數都淨係得兩個可能數值,麥倫瑪測試會計個 χ2 值出嚟反映「IV 係咪對 DV 有具體影響」;例:想像家陣研究一隻對病人「有冇骨痛」嘅影響,IV 係有冇食嗰隻藥,而 DV 係有冇骨痛,麥倫瑪測試會話到俾研究者聽,IV 係咪對 DV 有顯著嘅影響[114]
  • MWU 測試[e 207]:一種非參數統計分析方法,用嚟比較兩個獨立嘅組嘅平均值係咪相等,可以用嚟唔跟常態分佈嘅數據上(唔似得 t-測試噉指定啲組要跟常態分佈);想像家陣設兩組,佢哋嘅個案數量分別係    咁多,而又想像將每個個案喺個變數上嘅數值由細到大排咗次序(計好 rank),噉計以下嘅   
    •  ,當中   係指組 1 嘅 rank 總值;
    •  ,當中   係指組 2 嘅 rank 總值;
    •    之間嘅差距會反映兩組之間係咪有啲系統性嘅差異(例如係咪「組 1 啲值硬係傾向低啲」噉)[115]
  • 效應值[e 208]:指一個量度兩個變數之間嘅關係「有幾勁」嘅數值;要得到效應值有好多方法,簡單例子有變數之間嘅相關值同埋迴歸分析當中嘅迴歸系數[116]
  • 效率[e 209]:一個假說檢定步驟或者一套實驗設計可以有嘅一個特性;一套統計方法嘅「效率」係指套方法有幾能夠用最少量嘅個案嚟達到最高嘅表現(表現通常係以「做預測嘅能力」嚟衡量)[117]
  • 頻率學派推論[e 210]:一種舊時嘅統計學詮釋方法;根據呢種理解,推論統計嘅作用在於測試「一件事有冇發生」;一個頻率學派嘅研究者做嘅嘢係將個實驗重複若干次,再睇吓喺呢   次實驗當中,有幾多次得出撐個假說嘅結果。呢種做法俾人詬病,話用佢得到嘅結果會受實驗嘅重複次數影響[118]
  • 貝葉斯推論[e 211]:一種喺廿世紀取代咗頻率學派推斷嘅統計學詮釋方法;根據呢種理解,一個研究者喺做實驗之前會有一個原先預期[e 212]嘅模型,對每件事件都有個先驗概率[e 213],然後佢會做實驗攞數據,再按呢啲數據更改自己手上嘅模型,打後再做實驗,按攞到嘅知識更改自己心目中每件事件嘅後驗概率[e 214],跟住不斷更新個模型。即係用返貝葉斯定理[e 215]嘅思考方法想像[119]
 ,當中
  •   指(研究者相信)手上模型係真確嘅機會率;
  •   指「如果手上模型係真確,會得出呢個實驗結果( )」嘅機會率;
  •   指「有咗個實驗結果,手上模型係真確」嘅機會率(事後信念[e 216])。
呢個過程可以想像成「心目中嘅概率分佈嘅不斷變化」-想像一個觀察者,佢完全唔知「撳 A 呢個掣會發生乜事」(喺佢心目中,所有可能性嘅機會率都一樣,成一個均勻分佈),喺撳咗一次,觀察到撳咗個掣會有盞燈閃之後,佢就會改變佢心目中嗰個概率分佈,知道「會有盞燈閃」嘅機會率大過「天會跌落嚟」嘅,即係對「撳 A 呢個掣會發生乜事」嘅認識多咗[119]
  • 估計理論[e 217]:統計學當中嘅一個子領域,研究喺建立統計模型嗰陣點樣估計模型嘅參數數值。可以睇返普通最小二乘法[e 218][120]
    • 最大似然估計[e 219]:廿一世紀初最常用嗰種用嚟估計模型參數數值嘅做法;最大似然估計會先搵出一個機會率函數[e 220],呢個函數會反映「觀察到手上數據嘅數值」( )同「模型參數」( )之間嘅關係,而最大似然估計演算法嘅目標係要搵出   嘅數值應該要係幾多先可以令  (已知模型參數係   噉嘅樣,觀察到手上呢柞數據嘅機會率)嘅數值有咁大得咁大[121]  可以表達成[122]
        [註 6]
    • 當中   係指「第 1 個個案喺變數   上嘅值係   咁多」嘅機會率,而   就係樣本大細[123]
  • 特徵值[e 221]特徵向量[e 222]:假想有一個非零向量  ,處於一個向量空間   當中,  作出一個線性嘅改變  (例如係同一個矩陣相乘),而   呢個改變等同將   乘以一個標量  ,即係話:
     
    •   就係一個同   呢個特徵向量相關嘅特徵值;喺應用上,特徵值可以用嚟反映一個逐步噉變化嘅系統[124]
 
  係一個特徵向量,  同矩陣   相乘,而   呢個變化等同將佢同標量   相乘,  係佢嘅特徵值。
  • 可解釋變異[e 223]:指一個數據庫入面嘅個案間差異(以離散程度計算)有幾多可以由手上嗰個統計模型解釋;可解釋變異可以用多個指標衡量[125]
  • 中介變數[e 224]:如果有三個變數,   ,當中   能夠影響  ,而   跟住會影響  ,噉   就係    之間嘅中介變數;要用迴歸分析分析中介效應最簡單嘅有三個步驟[126][127]
  1. 用迴歸分析睇吓   係咪能夠預測  ;即係睇吓   當中嘅   係咪顯著
  2. 用迴歸分析睇吓   係咪能夠預測  ;即係睇吓   當中嘅   係咪顯著
  3. 用迴歸分析睇吓    係咪能夠預測  ;即係睇吓   當中嘅   係咪顯著,以及  絕對值係咪細過  。如果   數值係 0,但   係顯著,呢個模型就係一個完全中介[e 225]嘅模型,而如果   絕對值細過   但依然顯著,噉呢個模型就係一個局部中介[e 226]嘅模型。
  • 一個諗中介嘅統計模型可以涉及多過一個層次嘅變數(可以睇返等級線性模型),即係話當中有啲變數係量度緊某啲個體(例:員工),而高層次嗰啲個體(例:公司)係由低層次嗰啲個體組成嘅。不過一般嚟講,高層嗰啲變數會係預測低層變數數值嘅自變數[128]
 
中介效應嘅圖解
  • 調節變數[e 227]:指一個「調節」另外兩個變數之間嘅關係嘅變數(調節效應[e 228]),用迴歸分析諗嘅話:
     
    • 當中  應變數 自變數,而   係一個調節變數- ,表示   數值對   嘅影響視乎   嘅數值[91]
    • 要睇吓一個變數係咪調節變數,一個可能嘅做法簡單講如下:首先將個自變數( )同想知佢係咪調節變數嘅變數( )做自變數,同個應變數做迴歸分析;然後第二步再做多個迴歸分析,今次淨係用互動項[e 229] 即係   )做自變數,如果迴歸分析結果顯示     都係統計上顯著,噉就表示真係有一個調節型嘅效應存在[129][130]
  • 混淆變數[e 230]:指一個同時會對自變數同應變數產生影響嘅變數,搞到研究者唔能夠肯定(如果搵到)自變數同應變數之間嘅關係係咪因為兩者真係有關,定係因為個混淆變數嘅影響;想像家陣研究者做一份研究,想知道    呢兩個變數之間嘅關係,佢做統計分析之後,發現    之間有顯著正相關,不過評鑑佢份研究嘅學者就指出,有一個變數    係之前嘅研究發現咗係會對    有正影響嘅,而呢份研究冇量度到  ,所以個結果就未必係因為    之間真係有關;  喺呢個情況下就係一個混淆變數[131]
  • 壓制變數[e 231]:想像家陣做迴歸分析,用幾個自變數   嚟預測應變數   嘅值;假想而家    有一定嘅統計相關  係預測變數),同時    冇顯著嘅相關(  係壓制變數),不過   就同   等嘅自變數有相關-喺現實,好似   噉嘅預測用變數多數都有「同應變數相關嘅部份」又有「同應變數冇相關嘅部份」,所以當研究者嘗試用呢啲變數建立迴歸模型嗰陣,呢啲變數唔淨只會解釋