概率同統計學詞彙表
呢篇文 需要熟悉呢方面嘅人幫手寫。 |
概率論(probability theory)係數學一個子領域,專門研究概率(又叫機會率)相關嘅問題:概率係一啲描述隨機過程嘅結果嘅數值,例如掟一個冇出千嘅銀仔,出公嘅概率係 50%,所以對於思考不確定性嚟講不可或缺[1]。
統計學(statistics)就係專門研究點樣喺各個科學領域當中搜集、分析同呈現數據,而實證嘅科學方法本質上就帶有不確定性-理論上,淨係抽個樣本嚟睇嘅過程就必然會有「手上個樣本有幾大機會真係代表到個總體嘅實況」嘅問題,所以統計學嘅理論思考梗會用到概率論[2][3]。
除此之外,噉亦即係話概率論同統計學本質上就係一啲可以攞嚟「喺有不確定性嘅情況下,按過去經驗預測未來」嘅工具,所以呢個表入面嗰啲詞彙同概念响研究「點樣教人工智能學習」嘅機械學習領域上都相當有用[3]。
基本概率論改
機會率(probability),粵文入面又有叫概率或者或然率:大致上可以理解做「一件事件有幾可能會成真」,1 代表件事件實會發生,0 代表件事件絕對唔會發生;喺實際應用上,啲人一般會用以下噉嘅數學符號表示唔同事件嘅機會率[4]:
... 呀噉。機會率係統計學同機械學習等領域上實要諗到嘅一個課題:呢啲領域都涉及研究者由一個總體(population)入面攞一個樣本(sample)出嚟,並且嘗試靠分析手上嘅樣本嚟增進自己對個總體嘅認識,但呢種做法本質上就有不確定性-難以保證個樣本實係代表到個總體;例如研究者想研究狼嘅體重,因為人力物力嘅限制,佢冇可能研究嗮古往今來所有嘅狼,所以佢就去搵 100 隻狼返嚟做研究,佢量度到呢個樣本嘅狼平均體重係 40 公斤,就最嚴格嘅邏輯基準嚟講,呢個數可能真係代表到全世界嘅狼,但又有可能全世界嘅狼嘅平均體重查實係 60 公斤,個研究者之所以搵到 40 公斤呢個數只係佢咁啱唔好彩抽到個代表唔到個總體嘅樣本-隨機性係統計學(以至科學方法)分析上走唔甩嘅一部份[4]。
- 概率論(probability theory):一套數學理論;專門研究機會率同相關概念,會以形式化(用各種數學符號)嘅方法將呢啲概念表達出嚟[4]。
- 概率公理(probability axioms):現代概率論當中嘅三條公理[5]:
- 實驗(experiment):概率論上講嘅「實驗」同一般科學上講嘅實驗係兩個唔同嘅概念;喺概率論上,一場實驗係指一段程序,而段程序有以下嘅特性[4]:
- 隨機變數(random variable):指一個數值會隨住某啲隨機性嘅現象而改變嘅變數。
- 隨機過程(stochastic process / random process):簡單講就係有隨機性喺入面嘅過程;嚴格啲噉講,隨機過程係指一嚿以若干個隨機變數嚟定義嘅數學物體[7]。可以睇吓馬可夫鏈。
- 平穩過程(stationary process):指場隨機過程嘅無條件概率分佈唔會隨時間改變,簡單講即係「啲可能結果分別嘅出現機率」唔會隨時間改變[8]。
- 隨機漫步(random walk):指一條「路徑」描述一個隨機變數喺每「步」點樣變化;設 做步數或者時間, 係個離散變數,而有個變數 ,無論 係幾多,以下呢條式都會成立:
- ,例如係
- 如果將 隨 嘅變化畫做條線,打戙軸係 ,而打橫軸軸係 ,會出好似以下噉嘅圖[9]:
- 期望值(expected value, ):指數據嘅每一個可能值各自噉同個可能值出現嘅機率乘埋,再將柞數加埋得出嘅總和,單位會同數據嘅相同[10];舉個具體例子,想像家陣個數據有 個可能數值,而 係指個數據嘅第 個可能數值,噉 條式係:
- ;有關呢啲數學符號嘅意思,可以睇吓加總。
- 例如想像家陣掟銀仔,假設銀仔冇出千(出公同出字嘅機率一樣),出公會得到 10 分,出字 0 分,噉掟一次銀仔嘅分數嘅期望值會係
- 隨機變數匯合(convergence of random variable):指隨機變數可以有嘅極限(limit);如果話某一個隨機變數 有一個極限,即係指(例如)隨住某個數值 變得愈嚟愈大, 嘅數值會慢慢愈嚟愈近(匯合)某個數值(設呢個數值做 , 係個函數嘅極限)[12]-
- 例子可以睇吓大數定律講嘅嘢。
- 溫氏圖(Venn diagram):一種成日俾人攞嚟表達概率嘅圖表;圖入面會有若干個波波,每個波波代表一件事件,而兩個波波之間嘅相交空間代表嗰兩個波波代表嗰兩件事件嘅交集 [13]。
隨機事件改
概率論上所講嘅事件(event)係指一個由若干個可能結果組成嘅集,掕住「呢件事件發生嘅機率」。
- 基本事件(elementary event):淨係包含其中一個可能結果嘅事件。
- 對立事件(complementary event):「 嘅對立事件」( 或者 )係指「 冇發生」呢件事件。
- 。
- 互補事件(collectively exhaustive events):如果話「 同 係互補事件」,即係話呢兩件事件當中必然有最少一件會發生-
- 。
- 互斥事件(mutually exclusive events):如果話「 同 係互斥事件」,即係話兩件事冇可能同時發生-
- ,
- [14]。
- 非互斥事件(non-mutually exclusive events):如果 同 係非互斥事件,即係話兩件事有可能同時發生-
- ,
- [14]。
- 條件機會率(conditional probability):指如果一件事件發生咗,另一件事件會發生嘅機會率;「 發生咗, 嘅條件機會率」係
- ;
- 呢個數值可以用以下呢條式計[15]:
- 。
- 如果 同 係互斥事件,
- 。
- 獨立(statistical independence):如果話「 同 呢兩件事件互相獨立」嘅話,意思即係兩件事唔會影響對方發生嘅機會率,
- ,所以
- 。
- 呢條式表示,就算 發生咗, 發生嘅機會率依然係 ,反之亦然[16]。
- 條件獨立(conditional independence):指一件事件唔會影響第件事件嘅條件概率,即係話如果[17]
- ,
- 噉 同 就算係「喺 之下條件獨立」(conditionally independent given C), 。
- 概率連鎖法則(chain rule):有兩件隨機事件 同 :
- ;
- 而如果要考慮嘅事件( )有多過兩件: 。
- 貝葉斯定理(Bayes' theorem):指以下嘅定理:
- 。
概率分佈改
概率分佈(probability distribution)係指一個表明某個變數每個可能數值出現嘅機會率嘅函數,
當中 就係個概率分佈;呢個函數可以畫做一個表,X 軸代表個目標變數嘅數值,Y 軸代表嗰個目標變數嘅每個數值出現嘅機率;是但搵個變數 , 喺總體當中有一個概率分佈,表示 每個可能數值 出現嘅機率,呢個分佈喺實際上係不可知嘅,研究者淨係有得攞樣本,量度樣本當中嘅概率分佈(喺個樣本入面, 嘅每個可能數值出現嘅機率大約係幾多),靠噉嚟估計個總體嘅分佈[18]。
喺廿一世紀統計學上,比較常用嘅概率分佈相關概念有以下呢啲:
- 連續概率分佈(continuous probability distribution):指所描述嘅變數 嘅可能數值係連續嘅[19]。
- 概率密度函數(probability density function,PDF):描述一個連續概率分佈嘅函數;一個連續概率分佈嘅 PDF 會講明嗰個概率分佈嘅每一個可能數值出現嘅機會率大約係幾多[19],
- 。
- 常態分佈(normal distribution):統計分析上最常用嘅概率分佈之一;喺常態分佈下,出現得最頻密嘅數值會係個平均數 ,而離平均數愈遠嘅數值就愈少會出現,畫做圖嘅話會出一條鐘形線(bell curve);常見可以用常態分佈模擬嘅變數有人類嘅智商-多數人嘅智商數值都傾向於平均數,愈極端嘅數值愈少出現,即係話好少有智商極高或者極低嘅人。常態分佈個概率密度函數係( 係個分佈嘅標準差)[18]:
- 概率密度函數(probability density function,PDF):描述一個連續概率分佈嘅函數;一個連續概率分佈嘅 PDF 會講明嗰個概率分佈嘅每一個可能數值出現嘅機會率大約係幾多[19],
身高間距 | 頻率 | 累計頻率 |
---|---|---|
< 5.0 呎 | 25 | 25 |
5.0 - 5.5 呎 | 35 | 60 |
5.5 - 6.0 呎 | 20 | 80 |
6.0 - 6.5 呎 | 20 | 100 |
- 累計函數(cumulative distribution function):描述一個概率分佈之下 嘅累計值會點隨 變化嘅函數 ; 表示「由個樣本嗰度隨機抽一個個體,個個體嘅 (叫呢個值做 )細過或者等如 」嘅機會率,
- 無論連續定離散嘅概率分佈都可以有相應嘅累計函數[21]。
- 對稱度(symmetry):一個概率分佈可以有嘅一個屬性,攞個概率分佈當中嘅一個 值,個分佈喺 左邊嗰部份同個分佈喺 右邊嗰部份形狀上愈相似,個概率分佈以 為中心嘅對稱度就愈高;喺實際應用上,量度一個概率分佈嘅對稱度嗰陣會用嘅 值通常會係個分佈嘅平均值[22]。
- 動差(moment):泛指描述一個函數(例如概率分佈)嘅形狀嘅指標數值[23]。
- 抽樣分佈(sampling distribution):攞一個基於隨機抽樣嘅統計量,個統計量嘅概率分佈就係佢個抽樣分佈[25]。
- 聯合概率分佈(joint probability distribution):一個聯合概率分佈同時描述緊多過一個變數嘅分佈;一個兩變數聯合概率分佈會有打橫嘅 X 軸 Y 軸以及打戙嘅 Z 軸,總共三條軸,X 軸 Y 軸分別描述嗰兩個變數 同 嘅數值,而 X 軸同 Y 軸成嘅平面當中每一點嘅高度(Z 值)反映咗「 係呢個數值而且同時 係呢個數值」嘅機會率。當變數有多過兩個嗰陣同一道理[26]。
- 獨立同分佈(independent and identically distributed,iid):係概率論同統計學上嘅一個概念;如果話一柞隨機性變數(或者事件)係「獨立同分佈」嘅話,意思係佢哋嘅概率分佈完全一樣(每次抽嗰陣個結果嘅概率分佈一樣),而且彼此之間獨立(抽一次嘅結果唔會受打前抽到嘅數值影響)[27]。
- 中央極限定理(central limit theorem,CLT):概率論同統計學上最重要嘅定理之一;根據 CLT,想像有個變數 ,只要三條條件成立:
收集數據改
收集數據(data collection)係做統計分析前必要嘅一個工序:用科學方法做研究係要由對現實嘅觀察當中歸納出一啲能夠描述現實嘅普遍法則;而要對現實作出有系統性嘅觀察,就一定要攞數據-即係用某啲符號(喺統計學上通常係數目字)記低現實世界嘅狀態[28]。
- 總體(population):指所有屬研究對象嘅個體;一份研究會嘗試搵出有關某啲研究對象嘅知識,會作出一啲描述呢啲對象嘅假說[29];
- 樣本(sample):由總體抽出嚟、俾研究者攞嚟做量度嘅 個個體(因為人力物力嘅限制,一份研究冇可能睇得嗮古往今來嘅所有研究對象)[29];
- 抽樣(sampling):由總體抽出樣本嘅過程[31]。
- 代表性(representativeness):指個樣本有幾代表到想研究嗰個總體,數學啲講係指個樣本喺研究緊嘅變數上嘅概率分佈有幾接近總體;例如家陣想研究嘅總體係「人類」,但個研究者貪方便淨係由大學生嗰度抽樣,搞到成個樣本得 19 至 26 歲嘅人類,代表唔到呢個年齡層以外嘅人類-樣本代表性不足[29]。
- 隨機抽樣(random sampling):由總體嗰度隨機噉抽 個個體做樣本[31]。
- 系統性抽樣(systematic sampling):將總體入面嘅個案,按每個個案佢喺某個變數 上嘅數值排序(由細到大定由大到細都得),然後再每 個個體就將嗰個個體抽出嚟做樣本一部份;系統性抽樣能夠有效噉避免「抽出嚟個樣本喺變數 上唔夠代表性」呢個問題[32]。
- 返去平均(reversion to the mean / regression to the mean):想像家陣量度某個隨機變數若干次,如果其中一次度到個極端(極高或者極低)嘅數值,[註 3]噉下一次量度嗰陣大機率會度到個比較近平均嘅數值。有唔少統計學工作者指,返去平均嘅現象喺唔少人對「點解手上個數值出咗變化」作出錯誤嘅判斷(睇埋歸返謬論)[33]。
- 統計量(statistic):指由數據嗰度做計算得出、用嚟做進一步分析嘅數值,例子有平均值。
- 缺失數據(missing data):指因為數據搜集嘅過程當中,因為受訪者對問題嘅遺漏、拒絕回答、又或者係啲調查員犯嘅疏忽等原因,而造成數據當中有啲位冇相應嘅數值。基本上做親統計分析個數據集都梗會有啲缺失數據,而係做統計分析嘅過程當中,一件缺失咗嘅數據通常會用「99」或者類似嘅冇可能數值代表[35]。
- 研究設計:
- 自變數(independent variable,IV)同應變數(dependent variable,DV):兩個相關嘅概念;IV 指自己變緊(「自變」)嘅變數,而 DV 指隨住 IV 變而變嗰一個變數,IV 可以大致想像成「影響或者預測 DV 數值嗰個變數」。
- 控制變數(control variable):如果話一個變數係一個控制變數,噉意思即係話研究者想睇個應變數獨立於呢個控制變數嘅效果。
- 操作化(operationalization):指「定義要點樣量度一啲唔能夠直接量度得到嘅變數」嘅過程;例如係心理學研究成日都要應付一啲人腦入面嘅變數,呢啲變數好多時都難以直接量度,而個研究者要做嘅嘢包括定義好個變數,講明用某個直接量度得到嘅變數 代表想量度嗰一個變數( ),以及佢點解認為 代表到 ,上述嘅過程就係所謂嘅操作化[37]。
- 時間序列(time series):係指一列若干個數據數值,而呢列數值當中每一個都掕住一個數值,表示嗰一個數據數值「喺時間上係第幾個發生嘅數值」。
- 倖存偏見(survivorship bias):指啲人搜集數據嗰陣,傾向淨係得到通過咗某啲甄選程序嘅個體,過唔到甄選程序嘅個體進入唔到數據集,因而引起數據偏向。例如喺二戰嗰時,有美軍嘅分析師試過研究戰機嘅裝甲,佢哋分析返空軍基地嘅戰機喺乜嘢部位俾敵人子彈打過(搜集數據),諗住俾敵人子彈打得多嘅部位就要加厚裝甲;結果發現,返到基地嘅戰機當中冇一架係駕駛艙俾敵人子彈打過嘅;噉唔係表示駕駛艙唔使加厚裝甲,而係因為駕駛艙俾敵人打中嘅戰機根本唔會返到基地-駕駛艙俾敵人打中嘅戰機過唔到「生還」呢個甄選程序,令最後得到嘅數據望落好似反映「冇戰機嘅駕駛艙畀敵人打中過」噉[38]。
觀察研究改
觀察研究(observational study)係指由樣本嗰度攞啲描述自變數同應變數嘅數據,並且作出推論,而途中唔會特登嘗試作出任何嘅操作嚟影響啲變數嘅數值。呢類研究喺社會科學上成日用,因為社會科學研究嘅係人-好少可有得好似自然科學噉,能夠吓吓都攞自己啲研究對象入去實驗室裏面任意噉搞[39]。
- 橫切面研究(cross-sectional study):指研究者對個樣本喺 1 個時間點進行咗觀察。
- 縱向研究(longitudinal study):指研究者對個樣本喺多過 1 個時間點進行咗觀察,而且會分析其中一啲變數隨時間嘅變化。
- 隊列研究(cohort study):縱向研究嘅一種,指按某啲特性(性別同年紀等)搵一柞受試者返嚟觀察,然後喺打後一段時間(好多時斷年計)係噉觀察佢哋嘅變化;呢種做法喺醫學上成日俾人用嚟研究(例如)一隻病對患者有乜嘢長遠影響[40]。
- 社會統計調查(survey methodology):社科上常用嘅一種收集數據方法,通過搵一柞社會大眾返嚟做受試者,對佢哋作出系統性嘅提問,並且分析有關研究嘅數據,用嚟描述或者解釋社會現象[41]。
- 自我報告研究(self-report study):指靠人類受試者向研究者報告自己嘅行為嚟做嘅研究,通常係心理學同社科領域先會做嘅。例如一個社會學研究者想研究一個人每個禮拜花幾多時間上網會點影響佢嘅社交生活,佢要量度每個受試者「每個禮拜花幾多時間上網」,就靠問受試者估計自己平均每個禮拜花幾多時間上網。自我報告研究嘅效度受到唔少學者爭議[43]。
- 民意調查(opinion pool):指由專業人士搞,通過網絡、電話或者書面等嘅媒介嚟對一般大眾做調查,想知一般大眾對某啲政治、經濟同社會議題嘅意見同態度[44]。
- 檔案研究(archival research):指用檔案數據嚟做嘅研究;例如經濟學同第啲商學領域上嘅研究噉,就好興攞政府數據庫嗰度嘅數據嚟估計經濟指標數值,並且以呢啲經濟指標嚟做研究嘅自變數或者應變數[45][46]。
實驗改
實驗(experiment)泛指一啲做嚟目的係要驗證某啲假說嘅步驟。喺研究者做實驗嗰陣,佢要喺一個有返咁上下受控(controlled;指個研究者能夠量度同控制啲變數)嘅環境下做一啲操作(manipulation)。一個操作涉及個研究者特登控制某啲變數(自變數)嘅數值,再睇吓個操作會引致應變數有乜嘢變化,用意在於研究自變數同應變數嘅變化之間係咪有因果嘅關係[47]-如果一份觀察性嘅研究,發現 同 呢兩個變數之間有正相關,呢個發現有最少三個可能嘅解釋:
- 令 上升,
- 令 上升,或者
- 同 會受同一個因素 影響而上升,
但如果做咗場實驗,操控 嘅數值(實驗操作;experimental manipulation)然後發現噉做令 數值上升,就更加確立「 令 上升」呢個可能性[註 4][48][49]。
- 實驗設計(experimental design):指設計一場實驗嘅過程;喺做實驗之前,研究者一般會寫計劃書向自己所屬嘅院校提議場實驗,會喺計劃書入面詳述場實驗嘅設計[50]。
- 實驗組同對照組:
- 隨機化實驗(randomized experiment):指隨機噉將受試者分做實驗組同對照組;假想家陣有個研究者想做實驗,佢搵咗柞受試者返嚟,跟手就要有方法決定邊個入實驗組邊個入對照組,而一般認為,最理想係完全隨機噉分。有關應用上要點樣做到呢樣嘢,可以睇吓隨機數產生(RNG)等嘅技術[52]。
- 析因實驗(factorial experiment):指有多過一個自變數受操控嘅實驗;例如家陣有個研究者想知 同 呢兩個實驗操作分別會造成乜嘢效果同埋彼此之間有冇調節效應(睇下面),於是就將受試者分做 4 組- 同 都冇、有 冇 、冇 有 、同 同 都有,成一個 2 x 2 嘅析因實驗[53]。
- 自然實驗(natural experiment):指場實驗嘅操作係由研究者以外嘅力量所施加嘅,例如係一場經濟實驗,研究自然災難造成嘅經濟影響-場災難唔係由研究者施加嘅,但研究者可以透過比較受咗場災難嘅經濟體同冇受嗰場災難嘅經濟體(假設兩個經濟體除咗災難之外大致上相同)對比,嚟推斷場災難造成咗乜嘢影響。呢種實驗喺社會科學嗰度零舍常見[54]。
- 准實驗(quasi-experiment):指冇完全隨機噉將受試者分做實驗組同對照組嘅實驗[54]。
- 臨床研究(clinical research):指喺醫學同相關領域上試吓新嘅藥或者治療法嘅效用;呢種研究通常都會採取比較實驗組(食咗隻新藥或者用咗新嘅治療法)同對照組(食咗安慰劑)嘅實驗方法嚟做[55]。
量度改
- 量度層次(level of measurement):喺統計學入面對變數量度方法嘅一種分類法。喺做科學研究嗰陣時,科學家想做嘅嘢係要搵出變數同變數之間嘅關係,而要做呢樣嘢,佢哋好多時係首先要量度啲變數嘅數值,並且跟手做統計分析睇吓啲變數之間有乜嘢關係。量度層次嘅分類法係基於嗰個量度方法提供到幾多資訊嚟到劃分嘅,呢個分類法將量度方法分做四個級別[56][57]:
層次 | 名 | 用得嘅邏輯同數學運算 | 例子 | 點計中間趨勢 | 點計離散趨勢 | 定性抑或 定量 |
---|---|---|---|---|---|---|
名目 (nominal) |
、 | 二元名目:性別(男、女)、真實性(真、假)、出席狀況(出席、缺席) 多元名目:語言(廣東話、普通話同英文等)... |
眾數 | 冇 | ||
次序 (ordinal) |
、 ; 、 | 多元次序:服務評等(傑出、好、欠佳)、教育程度(小學、初中、高中、學士、碩士同博士等) | 眾數、中位數 | 分位數 | ||
等距 (interval) |
、 ; 、 、 |
溫度、年份、緯度等 | 眾數、中位數、平均數 | 分位數、全距 | ||
等比 (ratio) |
、 ; 、 、 ; 、 |
價錢、年齡、身高、絕對溫度、絕大多數嘅物理量 | 眾數、中位數、平均數等 | 分位數、全距、標準差等 |
- 連續變數(continuous variable)同離散變數(discrete variable):一個連續變數嘅可能數值有無限咁多個,而離散變數得若干個可能數值;例:真相得兩個可能數值(真同假),但溫度嘅可能數值嘅數量原則上有無限咁多個,攝氏 100 度、攝氏 100.01 度、攝氏 100.0001 度... 等等[58]。
- 離散化(discretization):指「將一個連續嘅變數或者函數變做離散」嘅過程;喺實際應用上,噉做嘅一個可能目的係因為手上嘅數據唔夠多,但要搜集大量數據又因為人力物力嘅限制而行唔通,所以分析之前將一個連續嘅變數變做離散(睇下面中位數分割),令分析變簡單啲[59]。
- 中位數分割(median split):將一個連續變數變做一個離散變數嘅一種方法;攞一個連續變數 ,搵出 嘅中位數 , 數值 嘅個案冚唪唥設做「組 1」,而 數值 嘅個案冚唪唥設做「組 2」-得出「屬組 1 定組 2」呢個離散變數,可以將一個原本係連續嘅變數做一啲離散變數先可以做嘅推論統計分析(例如係 ANOVA)。到咗 2020 年,中位數分割呢種做法廣受評擊,好多人都唔會接受呢種做法[59]。
- 共同方法變異(common-method variance):指因為量度方法(而唔係想量度嗰個變數)而起嘅變異數-想量度嘅變數會有一個(研究者想靠量度估計嘅)概率分佈,但實際量度到嘅數值嘅分佈可能同呢個真實分佈唔同,而呢個差異係因為量度架生嘅特性而起嘅;要檢驗一柞數據有冇共同方法變異嘅問題,最原始嘅做法係用哈曼測試(Harman's test)-即係用探索性因素分析(EFA;睇下面)嘗試由柞數據嗰度抽取一個因素出嚟,而如果呢個想像中嘅因素能夠解釋幾多嘅變異數[註 5][60]。
- 時間解像度(temporal resolution):指一個量度方法能夠睇到幾細時間差之間嘅變化。例如有兩個量度方法 A 同 B,A 能夠話到俾觀察者知一個變數喺 1 毫秒之間嘅變化,而 B 淨係講到俾觀察者知個變數喺 10 秒之間嘅變化,噉 A 嘅時間解像度比較高。
- 空間解像度(spatial resolution):指一個量度方法能夠睇到幾細空間差之間嘅變化。例如有兩個量度方法 A 同 B,A 能夠話到俾觀察者知一個變數喺 1 厘米之間嘅變化,而 B 淨係講到俾觀察者知個變數喺 1 米之間嘅變化,噉 A 嘅空間解像度比較高。
- 天花板效應(ceiling effect)同地板效應(floor effect):指想量度嗰啲數值高得滯(天花板效應)或者低得滯(地板效應),搞到件量度架生唔再俾到有用嘅資訊[61]。
- 舉個簡化嘅例子,想像家陣攞支日常嘅溫度計去量度太陽(塊表面超過 5,000 °C 咁熱)同天狼星(塊表面估計超過 9,000 °C 咁熱)嘅表面溫度,攞支日常溫度計去度太陽表面嘅話,條溫度計應該會變成氣體(假如條溫度計係用一般玻璃造-普通嘅玻璃沸點好多時得嗰 2,200 °C 左右),而攞支日常溫度計去度天狼星表面,條溫度計都係變氣體-噉即係話,雖然天狼星明顯熱過太陽,但條溫度計對太陽定對天狼星都係俾一樣嘅反應(變氣體)-做唔到分辨兩者(俾唔到有用嘅資訊)。
- 呢種情況喺社科入面都見得到:想像家陣有 A 君同 B 君兩個人,兩個都喺智商測驗度攞滿分;但噉唔表示兩個一樣咁聰明-可能 A 君明顯聰明啲,但佢同 B 君嘅智能都係遠超份智商測驗度到嘅值;於是份智商測驗就唔再俾到有用嘅資訊-發生咗天花板效應[62]。
- 地板效應係天花板效應嘅相對,指想量度嗰啲嘢嘅值低得滯,搞到件量度架生俾唔到有用資訊(想像條溫度計最低淨係度到 -20 °C 嘅氣溫,條計就應該唔會有能力分辨一嚿 -100 °C 嘅物體同一嚿 -120 °C 嘅物體)。
信度同效度改
信度(reliability)係常用嚟評估一個量度方法有幾好嘅指標,指對一個現象用嗰個方法進行重複觀察之後,係咪可以得到相同嘅數值;正路嚟講,如果一個量度方法係可信(reliable)嘅,噉無論何時何地何人用嗰個方法量度同一樣嘢,都理應會得到相同嘅數值[63][64]。
- 評分者間信度(inter-rater reliability / inter-rater agreement):用嚟評估一個量度有幾受做量度嘅人影響;例如有一個俾教育家用嚟評估細路學習進度嘅方法,但做完研究發現,五位教育家分別噉用同一個方法評估同一班細路,五個得到完全唔同嘅數值,噉呢個量度方法嘅評分者間信度就低。
- 評分者內信度(intra-rater reliability):用嚟評估一個量度有幾受做量度嘅人影響;例如有一個俾教育家用嚟評估細路學習進度嘅方法,但做完研究發現,由同一位研究員用同一個方法度同一個細路,假設段研究時間短(個細路嘅行為理應唔會有明顯變化),次次出嘅結果都唔同,噉呢個量度方法嘅評分者內信度就低。
- 重測試信度(test-retest reliability):用嚟評估一個量度方法有幾受時間影響;例如有一個俾心理學家用嚟量度智商嘅測驗,做研究,搵班受試者返嚟做個測驗,得到一柞分數 ,然後過咗一個月之後,搵返班受試者返嚟又做過,得到另一柞分數 ;一般認為智商冇乜可能會喺一個月之內改變嘅,如果 同 差異好大,就表示呢個測驗嘅重測試信度低。
- 內部一致度(internal consistency):指一個有多條題目嘅量度方法有幾「係量度緊同一樣嘢」;例如有一個智商測驗,有 50 條題目,理論上,呢啲題目冚唪唥都係量度緊智商,所以彼此之間理應喺得分上有返咁上下正相關,但研究發現,嗰 50 條題目當中有 5 條零舍係同其餘嗰啲題目有負相關,噉心理學家就好可能會要求攞走嗰 5 條題目(佢哋似乎唔係量度緊智商,所以唔應該擺喺一個智商測驗入面),變成一個 45 條題目嘅測驗。
效度(validity)係另一個常用嚟評估一個量度方法有幾好嘅指標,指個方法有幾量度到佢理應要量度嗰樣嘢;一個有效嘅量度方法真係量度緊研究者想佢量度嗰個變數;例如如果一個方法信度高、但效度低,就表示個量度方法能夠準確噉量度某個變數,但佢所量度嗰個變數並唔係研究者想佢量度嗰個[63][64]。
- 建構效度(construct validity):指一個概念嘅量度有幾合乎理論上嘅定義;例如理論上,智商測驗係量度智能嘅,而智能理論一般認為,智能包含一個個體解難嘅能力,所以一個智商測驗理應會考驗受試者嘅解難能力;建構效度嘅評估一般都係比較理論化嘅[66]。
- 效標效度(criterion validity):通常用嚟評估心理測驗嘅效度嘅一個指標,指個測驗嘅分數同俾人認為代表要量度嗰個變數有幾強相關;例如一個設計嚟量度一個人有幾外向嘅心理測驗,研究者搵咗班受試者返實驗室做個測驗,知道每位受試者嘅分數,然後喺實驗室入面觀察每位受試者有幾常主動同人講嘢或者互動(呢啲行為反映外向程度),再做一個相關嘅分析,睇吓測驗分數係咪真係同受試者做外向行為嘅次數有正相關。
- 分歧效度(discriminant validity):指一個量度方法有幾「唔量度到理應唔啦更嘅變數」;例如一個智商測驗理應係量度緊智商,而唔係身高,如果一個一個智商測驗入面其中一條題目同個人嘅身高有正相關而且同身高嘅相關強過同其餘題目嘅相關,噉就似乎表示呢條題目量度身高多過量度智商,分歧效度低。
- 內容效度(content validity):指一個量度方法有幾能夠涵蓋嗮佢要量度嗰樣嘢嘅各個方面;例如智能一般包括邏輯同語言等多種嘅認知能力,所以一個理想嘅智商測驗理應要量度嗮以上嘅各種認知能力。
- 聚合效度(convergent validity):指一個量度方法有冇同一啲理論上同佢有相關嘅嘢有預期中嘅相關;例如智能理論上會同時影響一個人嘅邏輯能力同語言能力,所以邏輯能力同語言能力理論上應該會有返咁上下正相關[67]。
- 表面效度(face validity):指一個量度方法就噉望落有幾合乎佢理應要量度嘅嘢,通常話「一個量度方法有表面效度」喺正式科研上唔會俾人接受[68]。
描述統計學改
描述統計學(descriptive statistics)係指一啲量化噉描述一柞資訊嘅統計數值,包括咗[69]:
集中趨勢改
集中趨勢(central tendency)係指表示一個概率分佈「最中間嗰個數喺邊」嘅統計數值[69]。
- 平均數(mean):平均數( )最常係指算術平均值(arithmetic mean),即係將啲個案嘅數值( )冚唪唥加埋一齊,再除以個案數量( ):
- 中位數(median):將啲個案嘅數值( )由細到大或者由大到細排好序,再攞最中間嗰個數,嗰個數就中位數;如果個案數量係雙數,令到有兩個數喺中間,就攞嗰兩個數嘅平均。
離散程度改
離散程度(dispersion)係指描述一個概率分佈「有幾散」嘅統計數值[70]。
- 變異數(variance, ):以下嘅數值:
- ,
- 當中 係個案數量, 係第 個個案喺個變數上嘅值,而 係個樣本嘅平均值- 反映咗啲個案平均距離平均值幾遠。
- 標準差(standard deviation, ):變異數嘅開方。
- 百分位數(percentile):家吓將樣本入面嗰 個數值由細至大排好,噉第 個案嘅百分位數( )就係指有幾多百分比嘅個案喺個變數數值上細過或者等如嗰個個案,即係
- 全距(range):指樣本入面最大嘅 數值減最細嘅 數值。
- 變異系數(coefficient of variation, ):指用平均值除標準差得出嘅數。
- 離散指數(index of dispersion):一個概率分佈嘅離散指數 係指以下嘅數值:
- ;
- 離散指數可以用嚟作為離散程度嘅一種標準化指標[71]。
- 協方差矩陣(covariance matrix):一種數據表達方法,用一個矩陣表達每對變數之間嘅協方差,例如下面嗰個矩陣就顯示 同 之間嘅協方差係 ,而對角線當中嘅係每個變數嘅變異數,例如下面嗰個矩陣就顯示 嘅變異數係 。
統計圖改
統計圖(statistical graphics)係指將數據以視覺化嘅方法表達出嚟嘅做法,用途主要在於令啲數字易睇啲,例子有棒形圖。
- 箱形圖(box plot):一幅箱形圖條 X 軸會一個離散嘅變數 ,Y 軸係一個連續嘅變數 ; 嘅每個可能數值都會有一個四方形嘅「箱」,個箱會下面掕一條橫線上面掕一條橫線,個箱反映嘅嘢如下[72]:
- 散佈圖(scatter plot / scatter diagram):一種常用嘅統計圖,圖嘅兩條軸分別代表咗一個變數,圖上每一點代表一個個案,而每個個案都喺嗰兩個變數上有個數值,所以就形成一幅有大量點點嘅圖像,而每個點嘅位置反映佢喺變數上嘅數值。
拉雜描述統計改
- 標準分數(standard score):攞個個案喺一個變數上嘅數值 ,個個案喺嗰個變數上嘅標準分數( )係
- 當中 係拃個案喺個變數上嘅平均值,而 係佢哋個標準差[73]。
- 結合數據(aggregate data):指由將幾個個體嘅數據以某啲方式結合成嘅數據;例:有個經濟學家想研究一間公司嘅營業額同員工嘅工作表現有乜關係,佢一個可能嘅做法係,每間公司都搵若干個員工(個體),量度每個員工嘅工作表現(個體嘅數據;假設員工表現有方法量化),然後每間公司計個平均員工工作表現(以平均值嘅方式結合),再用統計分析睇吓每間公司嘅呢個數值同營業額之間有乜關係[74]。
- 抽樣誤差(sampling error):指因為抽樣造成嘅誤差-例如由一個有 10,00 個個體嘅總體嗰度是但抽 100 個個體出嚟,用呢 100 個個體嘅平均身高( )估計個總體嘅平均身高( ),因為抽樣過程嘅隨機性, 同 之間梗會有些少差異[75]。
- 誤差積聚(accumulation of errors),又有叫不確定性傳播(propagation of uncertainty):指一柞變數嘅不確定性(隨機性嘅誤差)影響到基於柞變數嘅函數嘅不確定性;想像一架太空船嘅燃料缸,太空船要監察住自己仲淨低幾多燃料,而廿世紀嘅太空船做法係知道燃料缸滿嗰陣容量係幾多,然後喺每次架船噴燃料嗰時估計問出咗幾多燃料,靠噉嚟計淨低幾多燃料,但噉做有問題-每一次嘅估計都會有個最大可能誤差 ,喺噴咗 次燃料之後,得到嘅估計結果嘅誤差最大可以係成 咁多,即係話誤差會隨住做估計嘅次數「積聚」變到愈嚟愈大[76]。
- 數數據(count data):指數某件事發生咗幾多次嘅一種數據,數值只可以係正整數。
- 班佛定律(Benford's law),又有叫第一個位定律(first-digit law):指一個喺現實世界數據當中觀察到嘅現象;如果話一柞有單一變數 嘅數據跟從班佛定律(假設啲數值以十進制寫),意思係話喺嗰柞數據入面,會有大約 30% 嘅個案喺 上嘅數值會係以 1 開頭,而數值嘅開頭數字愈大嘅個案數量就會愈細,得大約 5& 嘅個案喺 上嘅數值會係以 9 開頭(下圖)。實證嘅研究表明,呢種現象喺地址、股票價格同人口數字等多種嘅自然(唔係由人用電腦隨機產生)統計數字當中都可以見得到[77]。
推論統計學改
推論統計學(inferential statistics)技術性噉講係指做數據分析,推論數據背後反映嘅概率分佈嘅過程。呢啲分析通常係由數據嘅個案嘅值嗰度計一啲指標出嚟,用呢啲指標評估(例如)某兩個變數之間係咪真係有關,或者個自變數係咪真係能夠對個應變數產生影響,甚至估計一個數學模型出嚟描述所研究嘅現象。廿一世紀嘅統計學上有好多種推論統計分析法,每種能夠處理嘅數據類型都唔同。數據科學等領域嘅專家一定要對呢啲唔同嘅分析法有所認識,知乜嘢時候應該用邊種分析法[78]。
假說檢定改
假說檢定(hypothesis testing)係指喺推論統計學當中驗證一個假說係咪真嘅過程。一個做假說檢定嘅研究者所做嘅工序如下:
- 睇過有關佢所研究嗰樣嘢嘅文獻,
- 建基於已有嘅知識,作出一啲有關嗰樣嘢嘅新假說-「我睇過打前嘅研究,我認為有咗已知嘅嘢,我可以作出以下嘅判斷,而『驗證呢個判斷係咪正確』能夠帶嚟新知識」,
- 諗出一個驗證呢假說嘅程序,
- 用呢個程序攞數據,
- 對數據作出分析,
- 用分析結果判斷個假說係咪真確[79]。
- 假說(hypothesis):喺科學上係指一個仲未搵到證據支撐,但研究者有理由認為係真確嘅論述。
- 虛無假說(null hypothesis;符號: )同備擇假說(alternative hypothesis;符號: ):虛無假說係做一份研究嗰陣嘅預設立場,指「兩個量度嘅變數之間冇關係」呢句嘢, ,而備擇假說係做一份研究嗰陣嘗試驗證嘅立場,指「兩個量度嘅變數之間有關係」呢句嘢, 。
- 單側同雙側檢定(one- and two-tailed tests):單側檢定(one-tailed test)指個備擇假說講明咗 處於 邊一面,即係 或者 ,而雙側檢定(two-tailed tests)指個備擇假說冇講明 處於 邊一面,即係單純嘅 [81]。
- 喺做假說檢定嗰陣,一般會將可能會出現嘅錯誤分兩種[82]:
- 統計顯著性(statistical significance):係做假說檢定嗰陣得到嘅一個數值;統計顯著性嘅數學符號係 ,表示「如果虛無假說係真,呢個結果出現嘅機會率」,
- 統計功效(statistical power):一個假說檢定過程會有嘅一個屬性;指「如果 係真確,個測試過程會成功拒絕到 」嘅機會率[83]。
- 點定區間估計:
- 點估計(point estimation):指用樣本嘅數據嚟計出一個數值,作為一個「估計嘅數值」;例如做統計嘅人家陣嘗試靠住樣本嘅變數 數據嚟估計出總體個 嘅平均值最大機會會係幾多,如果畫做圖嘅畫,個估計值會係條軸上面嘅一點[84]。
- 預測區間(prediction interval):指按統計模型作出嘅一個有關「跟住落嚟呢個觀察值嘅數值會喺幾多同幾多之間」嘅預測,會掕個機率數值表示嗰個預測有幾大機會成真[84]。
- 區間估計(interval estimation):指用樣本嘅數據嚟計出一個數值間距,作為一個「估計個數值喺邊點同邊點之間」;例如做統計嘅人家陣嘗試靠住樣本嘅變數 數據嚟估計出總體個 嘅平均值喺幾多同幾多之間,如果畫做圖嘅畫,個估計值會係條軸上面嘅一個間距[84]。
- 信心區間(confidence interval,CI):係指「有信心總體個真實數值係喺入面嘅區間」,喺做統計嗰時會俾人攞嚟表述個樣本嘅數值同個總體嘅真實數值之間估計差幾遠。
- 因果(causality / causation):兩個變數之間可能有嘅一種關係;如果話 係因而 係果,意思即係話 引致 -「因果」一詞嘅具體定義喺廿一世紀初嘅哲學同邏輯學上查實仲係一條好有爭議性嘅問題[85]。以廿一世紀初嘅基準嚟講,如果要檢定一啲帶有因果性質嘅假說(例如「食煙會引致患肺癌嘅機率提高」係一條醫學有可能會研究嘅因果假說),通常份研究要滿足以下呢啲條件[86][87]:
- 份研究涉及實驗操作:研究者要操控 (因),睇吓 (果)係咪會跟住改變;如果會,先至確立到因果關係。
- 份研究要顯示 嘅變化响時間上發生喺 嘅操作之後,先至會確立到因果關係。
- 一般認為,齋靠統計相關係確立唔到因果關係嘅(睇相關唔蘊含因果)。
- 格蘭傑因果關係(Granger causality):靠兩個變數嘅時間序列嚟評估嗰兩個變數之間「有冇因果關係」嘅一種假說檢定方式;最簡單噉講,喺格蘭傑因果關係之下,攞一個因變數 嘅時間序列同一個果變數 嘅時間序列,並且揀一個時間間隔 ,如果喺每個時間點 嘅 數值傾向能夠預測 咁耐之後嘅 數值嘅話,噉 就可以算係 嘅「因」。呢種分析方法源自經濟學(經濟學成日都會應付一個個經濟指標數值嘅時間序列),而且喺現代嘅各社會科學當中相當常用,不過「到底呢個測試能唔能夠真係表明因果」係一條幾受爭議嘅課題[88]。
- 多重比較問題(multiple comparisons problem):指一位研究者同時考慮多場統計推論嘅結果嗰時會搞到出錯嘅機率提升;例如家陣位研究者做咗 5 場 t 測試,噉「啲測試當中最少一場出咗錯」嘅機率實會高過淨係做 1 場 t 測試嗰陣嘅。統計學界有好多種方法應付多重比較問題,簡單例子有「做嘅測試數量愈多,就要對統計顯著性有愈嚴格嘅基準」[89]。
統計相關改
相關(correlation)呢個詞喺統計學上嘅定義如下:如果話 同 呢兩個變數成正相關(positive correlation),即係話 數值高嗰陣 數值都傾向高,而 數值低嗰陣 數值都傾向低;如果話 同 呢兩個變數成負相關(negative correlation),即係話 數值高嗰陣 數值傾向低,而 數值低嗰陣 數值就會傾向高;而如果話 同 呢兩個變數冇明顯相關(not correlated),即係話 嘅數值唔會點預測得到 嘅數值[91]。
- 皮亞遜積差相關係數(Pearson correlation coefficient):係常用嚟衡量兩個變數之間嘅相關嘅一個數值,條式如下[92]:
- ,當中
- 協方差(covariance):皮亞遜積差相關係數條式個分子,即係[93]:
- ;
- 相關唔蘊含因果(correlation does not imply causation):統計學上嘅一條重要原則,指緊就算兩個變數之間有相關,都唔表示兩個變數之間有因果關係;假想而家有兩個變數 同 之間有勁嘅相關(皮亞遜積差相關係數數值大),噉可以表示三個可能性-
- 引致 ;
- 引致 ;
- 同 有同一個原因。
- 有唔少統計學嘅學生都以為兩個變數之間有相關表示咗兩者有因果關係,但呢個係一個錯誤嘅諗法,所以統計學界就有咗句噉嘅說話用嚟提醒學生要小心[94]。
- 局部相關(partial correlation):指喺第個或者第啲變數嘅影響冇咗嘅情況下,兩個變數之間嘅相關;想像有兩個變數 同 ,有 個混淆變數(睇下面) , 同 之間「喺 嘅影響受控制冇咗嗰陣」嘅局部相關 會係 同 之間嘅相關,當中 係指做線性迴歸分析用 預測 嗰陣嘅誤差, 同一道理[95]。
- 組內相關(intraclass correlation,ICC):用嚟衡量每一組有幾「內部一致」嘅基準;想像有個數據,有若干個個案,而呢柞個案可以分做若干組,如果柞數據反映組內相關高,就表示同一組嘅個案嘅數值傾向彼此之間接近;要計組內相關可以有幾條唔同嘅式用[96][97]。
- 等級相關(rank correlation):指要同佢哋計相關值嗰兩個變數係「等級」,即係每個個案喺嗰兩個變數上有「第一高」、「第二高」同「第三高」等嘅數值[98]。
- 斯皮亞曼等級相關係數(Spearman's rank correlation coefficient, ):等級相關嘅一種計法,指兩個變數分別嘅等級之間嘅皮亞遜積差相關係數,即係[99]:
- ,當中
- 係考慮緊嗰兩個變數,而 係啲個案喺 上嘅等級(第一、第二... 等等)。
- Τ 等級相關係數(τ rank correlation coefficient, ):設 做一柞個案,每個個案都喺 呢兩個變數上有個數值,是但搵兩個個案 同 嚟睇,佢哋可以係一致(concordant),即係 或者 ,否則佢哋就算係唔一致(discordant),而 嘅計法如下[100]:
- 斯皮亞曼等級相關係數(Spearman's rank correlation coefficient, ):等級相關嘅一種計法,指兩個變數分別嘅等級之間嘅皮亞遜積差相關係數,即係[99]:
- 自相關(autocorrelation):一個隨機過程嘅自相關係指嗰個過程喺唔同時間點嘅數值之間嘅皮亞遜積差相關係數;設 做一個有隨機性嘅過程, 設做是但一個時間點,而家將 呢個過程行若干次, 代表個過程喺時間點 俾出嘅數值,噉呢個過程時間點 同時間點 之間嘅自相關 定義上係 同 之間嘅皮亞遜積差相關係數;自相關喺訊號處理上常用,可以用嚟量度一段訊號有幾接近完全隨機[101]。
- 交叉相關(cross-correlation):睇喺每個時間點兩段時間序列 同 之間嘅統計相關,即係話交叉相關會反映 (時間點 嘅 值)同 (時間點 嘅 值)之間嘅相關,又或者係揀個延遲值 ,睇吓交叉相關反映 同 之間嘅相關[102]。
- 正交(orthogonal):喺統計學上,如果話兩個 IV「正交」,意思即係話呢兩個 IV 之間冇統計相關[103]。睇埋多重共線性。
比較平均值改
泛指「將手上嘅個案分做若干組,再比較唔同組之間喺個變數上嘅平均值」嘅推論統計學分析方法,多數都會假設每組喺個變數上呈常態分佈。
- 學生 t 測試(Student's t-test),簡稱 t 測試(t-test):成日用嘅統計分析方法之一,用嚟分析兩個組(通常係實驗組同對照組)之間喺某個指定變數嘅數值上係咪有顯著嘅差異[104]。t 測試涉及以下嘅方程式,比較兩組喺個變數上嘅平均值:
- 當中 係成個樣本嘅大細, 同 就係兩個組分別喺個變數上嘅平均值(mean), 係兩個組嘅標準差(t 測試假設咗兩個組嘅標準差相等),最後計到一個 值出嚟。如果 值好大,噉就表示咗「兩個組之間嘅差異」大過「組嘅內部差異」好多,噉亦都表示咗「個實驗嘅操作造成嘅差異」大過「隨機性嘅個體差異」- 值愈大愈係表示兩個組之間嘅差異係因為組嘅存在而造成嘅。計到個 值之後,仲有啲方法可以跟手計埋個顯著性嘅值出嚟。
- 獨立樣本 t 測試(independent samples t-test):指做 t 測試比較嗰兩個組係獨立同分佈嘅,例如做個心理學實驗,用隨機抽樣方法隨機噉抽咗 個受試者返嚟,再用隨機方法將佢哋分落實驗組同對照組(即係每位受試者有 50% 機率入實驗組、50% 機率入對照組)[105]。
- 配對樣本 t 測試(paired samples t-test / repeated-measure t-test):指做 t 測試嗰兩個組唔係獨立同分佈嘅,研究者做咗某啲嘢,令一組數值當中每一個都喺另外嗰組當中有個對應,例如做個心理學實驗,研究者想知個實驗操作會引致變數 有乜變化,於是就喺實驗前量度 一次,跟住對受試者做實驗操作,然後喺實驗後又量度 一次(睇返重複量數設計)。喺呢個情況下,每位受試者都有個
- 變異數分析(analysis of variance,ANOVA):一系列用嚟分析唔同組嘅平均值嘅方法;假想家陣個研究者想比較三組喺變數 嘅平均值上嘅差異,如果三組之間有顯著嘅差異,噉組之間嘅 嘅變異數應該會大過組內部嘅好多。最簡單嘅單因子變異數分析(one-way ANOVA)分析一個應變數喺三個或者以上嘅組之間嘅差異(「組」就係自變數),考慮以下嘅數值[106]:
- 原則上, 數值愈大,研究者就愈有理由相信組之間有顯著嘅差異。
- 重複量數變異數分析(repeated-measure ANOVA,rANOVA):即係唔同組係同一班受試者喺唔同時間點嘅數值嗰陣用嘅 ANOVA;想像一個用重複量數設計嘅實驗,喺 個時間點分別噉量度班受試者喺變數 上嘅值,如果 ,研究者可以用配對樣本 t 測試(睇上面),而如果 ,噉研究者就要用 rANOVA-比較 組( )數值之間喺 上嘅平均值嘅差異,而呢 組唔係各有一班受試者,而係同一班受試者喺唔同時間點嘅 值[107]。
- 雙因子變異數分析(two-way ANOVA):指有兩個自變數嘅 ANOVA,可以用嚟睇嗰兩個自變數之間嘅調節效應(睇下面)[108]。
- 多變量變異數分析(multivariate analysis of variance,MANOVA):ANOVA 嘅一個變種,用嚟分析多過一個應變數;簡單講嘅話,MANOVA 做嘅嘢就係比較唔同組嘅平均值向量-喺一般嘅 ANOVA 當中,每組得一個數值(個應變數嘅平均值),而 MANOVA 要考慮多過一個應變數,所以做法就變成每組有一個向量 ,即係 個應變數(假設每個應變數都最少去到等距層次)[109]。
- 協方差分析(analysis of covariance,ANCOVA):係一種結合 ANOVA 同迴歸分析嘅一般線性模型;評估一個應變數嘅平均值係咪受一個離散嘅自變數(例如「組」)影響(一般 ANOVA 做得到嘅嘢)之餘,仲會控制住若干個連續變數(簡單講就係睇到個應變數獨立於呢啲控制變數嘅效果)。大致上噉講,ANCOVA 做嘅就係假設柞控制變數同應變數成線性關係,做迴歸分析用柞控制變數預測應變數,然後再用迴歸分析得到嘅誤差(柞控制變數預測唔到嘅變化)嚟做應變數行 ANOVA [110]。
- 等分散性(homoscedasticity):比較平均值方法成日會作嘅假設;如果話一柞隨機變數(例如係「各組喺變數 上嘅數值」)具有等分散性,表示佢哋冚唪唥都具有相同嘅有限變異數。比較平均值方法通常會假設各組喺變數 上嘅數值嘅變異數一樣[111]。
- 異分散性(heteroscedasticity):等分散性嘅相反,指嗰柞隨機變數當中有最少一個喺變異數上同其他嗰啲唔同[111]。
- Z 測試(Z-test):都係比較樣本之間嘅平均值有咩差異,不過唔似得 t 測試噉條式會考慮埋樣本大細:
- 當中 值愈大就愈表示樣本之間嘅差異愈明顯。
- F 測試(F-test):泛指要測試嗰個變數喺虛無假說下係跟 F-分佈(F-distribution)嘅。
統計模型改
統計模型(statistical model)係數學模型嘅一種。一個統計模型會帶有若干個假設,模擬一個產生數據(觀察到嘅嘢)嘅過程;一個研究者會收數據,並且用數據估計一個統計模型嘅參數數值,即係用數據估計世界嘅運作法則[112]。
- 統計參數(statistical parameter):參數係指一個能夠定義一個系統嘅數值;統計參數係指個統計模型裏面用嚟描述個總體嘅特性嘅數值,例如係某個變數喺個總體嗰度嘅平均值或者標準差呀噉。
- 單變量分析(univariate analysis):指個分析模型得一個變數[113]。
- 多變量分析(multivariate analysis):指個分析模型有多過一個變數[113]。
- 多變量統計(multivariate statistics):指個分析模型有多過一個應變數。
- 統計模型標明(statistical model specification):指「講明個統計模型要包含邊啲變數喺入面,仲有係啲變數要成點樣嘅函數」嘅過程[114]。
- 適合度(goodness of fit / model fit):一個統計模型有幾能夠準確噉描述手上嘅數據,一般係愈高愈好[115]。
- 多組分析(multigroup analysis / multi-group analysis):泛指「將受試者分做幾組,每組都由佢哋數據嗰度估個統計模型出嚟,並且比較唔同組喺個模型上有乜差異」;例如研究者認為變數 同變數 喺實驗組當中會成正比,而喺對照組當中會冇相關,於是就將數據分做兩份,每份對應其中一組受試者嘅數據,然後同兩組分別建立一個結構上相同嘅迴歸模型( ),睇吓呢兩組嘅 係咪有預期中嘅差異(即係喺實驗組當中係統計上顯著嘅正數,喺對照組當中統計上唔顯著);如果有,就能夠支持嗰位研究者嘅假說[117]。睇埋調節變數。
- 約束(constraint):指喺建立一個統計模型嗰陣,指定個模型一定要滿足某啲條件;例如喺做兩組嘅多組分析嗰陣,指定一個約束,要 同 呢兩個變數之間嗰段統計關係喺兩組之間一樣,而如果施加呢個約束會搞到個模型嘅適合度明顯變差,噉個研究者就有理由話兩組之間有差異(睇埋下面調節效應)[118]。
- 混合物模型(mixture model):簡單講就係指將個模型設做「群體入面有若干個子群體,每個子群體之間都有顯著嘅差異」,而且唔使拃數據事先指定每個個案屬邊個子群體[119]。睇埋聚類分析嘅概念。
- 統計模型選擇(statistical model selection):泛指「由多個『可能描述到啲數據嘅統計模型』嗰度揀一個」嘅過程;通常係會靠「邊個模型嗰啲適合度指標最靚」嚟做基準揀。
迴歸模型改
迴歸模型(regression model)係常用嘅一種統計模型。一般迴歸模型有若干個自變數同一個應變數,兩者多數會係連續變數,然後個演算法就嘗試畫一條能夠表達自變數同應變數之間嘅關係嘅線[120]。
- 例: ,當中 係應變數, 係自變數, 係殘差(residual),0.5 同 30 係由數據估計出嚟嘅參數。
- 線性迴歸模型(linear regression model):最簡單嗰種迴歸模型;喺一個線性迴歸模型當中,個應變數係柞自變數嘅線性組合[120]。
- 多重迴歸模型(multiple regression mdoel):指多過一個自變數嘅迴歸模型。
- 例: ,當中 係第 1 個自變數, 係第 2 個自變數, 係誤差。
- 多變量適應性迴歸模型(multivariate adaptive regression splines,MARS):指以下嘅迴歸模型:
- 決定系數(coefficient of determination, ):反映一個應變數嘅變異數有幾多可以由啲自變數預測;最廣義上嘅定義如下:
- 多重共線性(multicollinearity):多重迴歸模型當中間中會出現嘅問題,指其中一個自變數嘅數值可以由其他自變數嘅線性噉預測, ,而且準確度有返咁上下高;喺有多重共線性嘅情況下,個多重迴歸模型嘅系數(嗰柞 )嘅估計數值可能會隨模型或者數據嘅細少變化而有不穩定嘅變化;多重共線性仲可能會令人懷疑個迴歸模型嘅預測能力-原則上,如果將一個多重迴歸模型嘅 改變而第啲 數值不變,係會睇到 嘅數值會點隨住 變化嘅,但如果有多重共線性,就表示 數值變會令第啲 跟住變,「設其他 不變, 改變」呢樣嘢就會唔可行;因為噉,統計學界對於「要點樣處理多重共線性」有進行認真嘅探討[123]。
- 一般線性模型(general linear model):一種同時寫低幾個線性迴歸模型嘅做法,可以表達成[125]:
- 邏輯迴歸(logistic regression / logit regression):個應變數係一個二元(得兩個可能數值)變數,例如係「輸定贏」噉;啲自變數就可以係連續可以係離散;邏輯迴歸可以用嚟按一柞個案當中每個喺柞自變數上嘅數值,預測佢哋係兩類當中嘅邊一類,例如係電子遊戲研究當中可以用嚟靠一個玩家嘅數據嚟估計佢輸定贏[126]。 , ,用方程式嚟表達嘅話:
- Sigmoid 函數:以下呢個函數:
- 自迴歸模型(autoregression):用嚟處理時間序列嘅一種迴歸模型;攞一個會隨住時間變化嘅變數 ,設 做時間點 嘅 值,一個自迴歸模型會用個變數嘅過去數值做自變數,預測個變數而家嘅數值。
- 泊淞迴歸分析(Poisson regression):會用喺數數據上嘅一種迴歸分析,最基本嗰個模型係噉嘅樣:
- ,
- 普通最小二乘法(ordinary least squares,OLS):其中一種最常用嚟估計線性迴歸模型參數嘅數值嘅演算法;呢一類演算法會用啲步驟逐漸改變個迴歸模型啲參數,目標係要令殘差平方和(residual sum of squares,簡稱 RSS)有咁細得咁細(有關將某啲數值最大最小化嘅嘢,可以睇最佳化)。當中 RSS 係指將所有誤差值嘅平方加埋得出嘅數[120]:
- 逐步迴歸(stepwise regression):一種可以用嚟估計線性迴歸模型參數嘅數值嘅演算法;指
- 線性關係(linear relationship):如果話兩個變數 同 成線性關係,即係話如果將兩個嘅數值畫做圖,會得出一條直線,條式會係[129]:
- 固定效應模型(fixed effects model):指個模型嘅參數係固定或者最少非隨機嘅數值[130]。
- 隨機效應模型(random effects model):指個模型嘅參數係隨機變數[130]。
- 混合模型(mixed model):指個模型嘅參數有啲係固定或者非隨機,有啲係隨機變數[130]。
- 等級線性模型(hierarchical linear model,HLM):一種做多層分析(multi-level analysis)嗰時好有用嘅統計分析方法;「多層分析」意思係指樣本入面有 個群組,而每個個體都屬於某一個群組,研究者有理由相信唔同群組彼此之間會有啲系統性嘅差異。
- 例如一份管理學上嘅研究,想分析一間公司(樣本)入面嘅員工(個體),而每個員工都有佢所屬嘅工作團隊(樣本入面嘅群組),研究者有理由相信工作團隊之間嘅差異(例如係團隊領袖嘅領導能力)會影響佢想研究嘅現象,所以佢就做 HLM,用類似以下噉嘅數學方程式將唔同層面嘅變數擺入去同一條式入面[131]:
- 呢條式用文字解釋係噉: 嘅數值係受 同 呢兩個變數嘅數值影響嘅,而如果用呢個變數嘅數值去預測 嘅數值嘅話,誤差平均會係 。而家想像:
- 係「工作團隊 當中員工 嘅工作表現」,
- 係「工作團隊 當中員工 嘅身體健康」,而
- 係「工作團隊 嘅領袖嘅領導能力」-
- 跟手個研究者就去收數據,做統計分析,用數據估計 同 嘅數值。如果數據反映(例如)一個員工嘅身體健康比起佢所屬嘅團隊嘅領袖嘅領導能力更加能夠預測佢嘅工作表現(簡單啲講就係 )嘅話,噉佢就發現咗啲有用嘅嘢(對一個組織嚟講,對提高員工表現嚟講,確保員工健康比起領導能力更重要),可以將佢嘅研究結果喺期刊嗰度公佈。HLM 常見於管理學等社科領域研究,因為呢啲領域成日會遇到「樣本入面有若干個次群體」嘅情況[132]。
- 例如一份管理學上嘅研究,想分析一間公司(樣本)入面嘅員工(個體),而每個員工都有佢所屬嘅工作團隊(樣本入面嘅群組),研究者有理由相信工作團隊之間嘅差異(例如係團隊領袖嘅領導能力)會影響佢想研究嘅現象,所以佢就做 HLM,用類似以下噉嘅數學方程式將唔同層面嘅變數擺入去同一條式入面[131]:
因素分析改
因素分析(factor analysis)係一系列用嚟將大量變數轉化成少量因素(factor)嘅統計方法。因素分析有好多種做,不過做法一般都係由若干個直接觀察到嘅變數嗰度推想一個能夠解釋呢啲變數嘅變化嘅因素出嚟,而最後得出呢個因素能夠一定程度上反映嗰柞變數嘅變化。舉個例說明:
- 想像家陣手上個數據集有若干個可觀察(observable)嘅隨機變數 ,而呢柞變數嘅平均值係 。
- 想像有 個數值冇得直接觀察嘅隱藏變數(latent variable) , ,呢柞 係所謂嘅因素[註 7];
- 喺做因素分析前, 嘅數值係未知,而因素分析嘅目的就係要搵出以下呢啲式當中嘅參數:
假想 嘅數值好大(即係 數量多),研究者覺得吓吓都要用嗮柞 做運算好撈絞;而又假想 ,如果研究者搵到上述柞式嘅參數數值,佢就能夠用柞 嘅數值總結成個數據集,做到「用數量少啲嘅變數嚟做分析」嘅效果[133]。
- 潛在變數模型(latent variable model,LVM):描述到啲可觀察變數(或者外顯變數)戥佢哋背後啲潛在變數之間嘅連繫。
- 因素結構(factor structure):指一個因素嘅「結構」,包含「個因素由邊啲睇到嘅變數反映」以及「每個變數嘅因素負荷量(factor loading)係幾多」等嘅資訊。
- 因素負荷量(factor loading):喺每個量度咗嘅變數同個隱藏因素之間有嘅一個數,值喺 0 到 1 之間,係嗰個變數同個隱藏因素之間嘅統計相關;如果一個變數嘅因素負荷量大,就表示佢同個隱藏因素有強嘅統計相關,而如果一個變數嘅因素負荷量細,噉就表示佢同個隱藏因素之間嘅統計相關弱,通常研究者就會覺得噉表示個變數根本反映唔到個隱藏因素,會考慮將嗰個變數由個模型嗰度攞走。
- 因素分析可以分做兩大類[134]:
- 主成份分析(principal component analysis,PCA):因素分析嘅一種;想像有柞個案,佢哋每個喺兩個變數上都有其數值(附圖),跟住可以畫兩條線(附圖嗰兩個箭咀),兩條線分別都可以用一條包含 同 嘅算式表達,當中由圖當中可以清楚睇到,長箭咀嗰條線成功噉捕捉更多嘅變異數-亦即係話長箭咀嗰條線所代表嗰個「成份」(component)比較能夠用嚟分辨啲個案,所以比較「重要」。喺最簡單嗰種情況下,一個做主成份分析嘅演算法大致上係噉[135]:
- 卡隆巴系數(Cronbach's alpha, ):心理測量學上成日用嚟衡量一個心理測驗嘅信度(睇上面)嘅數值。想像家陣有個心理測驗,有 咁多條題目,而呢 條題目冚唪唥都係量度緊一個因素(例如 10 條題目量度邏輯能力),研究者搵人做個測驗攞到數據之後,個測驗嘅卡隆巴系數( )條式如下[136][137]:
- 如果卡隆巴系數數值大(接近 1)嘅話,就表示呢柞題目嘅變異數主要源自佢哋之間嘅協方差,簡單講就係表示「呢柞題目之間嘅變異數主要係由佢哋之間嘅相關引起嘅」而唔係源於佢哋各自獨立嘅變異-所以如果一柞題目嘅卡隆巴系數數值大,研究者就更有理由相信呢柞題目係量度緊同一個隱藏因素[136]。
- 張量分解(tensor factorization / tensor decomposition):將一柞以張量形式表達嘅數據「分解」做比較簡單嘅張量以及呢啲簡單張量之間嘅運算,例[138]:
結構方程改
結構方程式模型(structural equation modeling,SEM):包含一系列用嚟搵出一柞變數之間嘅關係嘅數學模型同演算法;一個結構方程式模型會包含若干個變數,途中好多時會用因素分析減少變數嘅數量先,然後再用獨立嘅迴歸分析估計啲變數之間嘅關係[139]。
- 量度模型(measurement model):一個結構方程式模型當中定義啲因素(睇因素分析)嗰部份。
- 結構模型(structural model):一個結構方程式模型當中講明因素之間嘅關係嗰部份。
- 量度不變特性(measurement invariance):做多組分析(睇 multigroup analysis)嘅結構方程式模型嗰陣會用到嘅概念;如果話一個量度(例如係智商測試等嘅心理測驗)具有量度不變特性,即係話喺分析緊嗰幾組之間個量度所度緊嘅概念並冇差異;舉個例說明,想像家陣有個心理學家,喺幾個唔同國家嗰度用一個心理測驗做咗份研究,但佢擔心唔同文化嘅人會對個心理測驗嘅問題有唔同理解,於是就做一個多組分析,每組係一個國家嘅受試者,再同每組都做一個因素分析(睇下面),睇吓唔同組喺因素結構上係咪一樣[140]。
- 通徑分析(path analysis):指一個描述若干個變數之間嘅方向性相關嘅模型;一個通徑分析會有若干個變數,並且指明每對變數之間有點樣嘅關係,例:由 去 嘅單向箭咀表示 可以作為一個預測 嘅自變數(睇埋迴歸分析)[141]。
- 修改指數(modification indices):有好多用嚟做結構方程式模型嘅軟件喺建立完個模型之後會俾出一啲修改指數數值;喺最基本上,修改指數反映「邊條箭咀應該攞走」同「邊兩個變數之間應該要加箭咀」等嘅資訊,即係例如個程式喺建立個模型嗰陣,順手計埋「如果呢兩個變數之間嘅箭咀攞走,適合度指標會點樣變」同埋「如果呢兩個變數之間加個箭咀,適合度指標會點樣變」等嘅嘢,所以分析者如果需要執個模型,就可以靠睇啲修改指數嚟做決定[142]。
- 交叉滯後模型(cross-lagged panel model):指個結構方程式模型包含兩個變數( 同 ),兩個變數都喺若干個時間點各有數值- 同 ,當中 係指時間點 嘅 數值,而 同一道理;個交叉滯後模型會嘗試用 同 嚟預測(即係有箭咀指住)未來時間點嘅 同 數值( 有箭咀指住 同 、 有箭咀指住 同 ... 如此類推);喺廿一世紀初,有唔少人覺得交叉滯後模型可以攞嚟理解兩個變數之間嘅因果關係,但呢種見解唔係個個都同意[143][144]。