描述統計學

描述統計學miu4 seot6 tung2 gai3 hok6（英文：descriptive statistic）係指一啲量化噉描述一柞資訊嘅統計數值。

基礎

喺搵咗數據返嚟之後，研究者手上會有個數據庫（database），每個個案都會喺每個變數上有個數值，而一般嚟講，研究者首先會做嘅係搵一啲指標描述吓柞數據大致係點樣嘅，常用嘅描述統計指標包括咗^[1]：

平均數（mean）：平均數（ $A$ ）最常係指將啲個案嘅數值（ $a_{i}$ ）加埋一齊，再除以個案數量（ $n$ ）：
$A={\frac {1}{n}}\sum _{i=1}^{n}a_{i}={\frac {a_{1}+a_{2}+\cdots +a_{n}}{n}}$
變異數（variance， $\sigma _{Y}^{2}$ ）：以下嘅數值：
$\sigma _{Y}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}$ ，
- 當中 $n$ 係個案數量， $Y_{i}$ 係第 $i$ 個個案喺個變數上嘅值，而 ${\overline {Y}}$ 係個樣本嘅平均值－ $\sigma _{Y}^{2}$ 反映咗啲個案平均距離平均值幾遠。
標準差（standard deviation， $\sigma _{Y}$ ）：變異數嘅開方。
$\sigma _{Y}={\sqrt {\sigma _{Y}^{2}}}$

... 呀噉。

概率分佈

概率分佈（probability distribution）係成日用嚟描述「柞數據乜嘢樣」嘅架生。一個概率分佈係一個數學函數（mathematical function），而呢個函數表達咗每個數值喺某個總體或者樣本入面出現嘅概率（又做「機會率」；probability）， $\Pr(X=x)=f(x)$ ，當中 $f$ 就係個概率分佈。例如假設而家掟一個銀仔，用 $X$ 代表掟個銀仔嘅結果，掟 10 次（個總體係「全世界嘅掟銀仔結果」，而呢 10 次就係一個樣本）。 $X$ 係「公」（Head）嘅機會率係 0.5（即係 50%），而 $X$ 係「字」（Tail）嘅機會率都係 0.5（假設個銀仔冇做過手腳），相應嘅概率分佈如下^[2]^{[註 1]}：

P(X=Head)=0.5

，「

X

係公（

X=Head

）嘅機會率係 50%」。

P(X=Tail)=0.5

，「

X

係字（

X=Tail

）嘅機會率係 50%」。

响現實世界嘅科研入面，啲變數好少可會「一係公一係字」咁二元，但個原理一樣：常態分佈（normal distribution）就係科學入面最常用嘅概率分佈之一，如果由一個常態分佈嘅總體嗰度抽樣，個變數嘅平均值會係出現得最密嘅數值，低過平均嘅數值同高過平均嘅數值出現嘅機會率一樣，而離平均值愈遠嘅數值，抽到出嚟嘅機會率就愈低，如果按住個樣本畫一個概率分佈圖（打橫個條 X 軸係「個變數嘅可能數值」，而打戙嗰條 Y 軸係「每個數值出現嘅機會率」），一個常態分佈會俾出一條好似鐘噉嘅形狀嘅線（即係所謂嘅 bell curve）。常態分佈嘅概率密度函數係（ $\sigma$ 係個分佈嘅標準差）^[3]：

f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}}

一個概率分佈圖；幅圖打橫個條 X 軸係「個變數嘅可能數值」，而打直嗰條 Y 軸係「每個數值出現嘅機會率」。呢幅係一幅常態分佈。

譬如話以下呢個情況噉：想像有生物學家想研究成年中華白海豚嘅身長，但佢冇可能捉嗮世界上咁多隻白海豚遂隻遂隻嚟度佢哋幾長，於是乎佢就抽個樣本出嚟，用個樣本嚟估計全世界嘅白海豚嘅身長；呢個樣本入面有 20 隻白海豚，佢哋嘅平均身長係 2.2 米，唔係隻隻都啱啱好 2.2 米長－有隻係 1.8 米長，有隻係 2.6 米長呀噉－但一隻白海豚身長高過呢個值嘅機會率大致上等如佢身長低過呢個值嘅機會率，而且離 2.2 米愈遠嘅數值出現嘅機會率愈低。如果畫幅概率分佈圖，「隻白海豚嘅身長」做 X 軸，而「每個身長數值出現嘅機會率」做 Y 軸，幅圖會出一條近似鐘形嘅線。

一般嚟講，做統計嗰陣都會假設抽樣個過程係獨立同分佈（independent and identically distributed，IID）嘅－噉講嘅意思係指，樣本入面每個個體嘅數值喺由個總體嗰度抽出嚟嗰陣嘅概率分佈都係一樣，而且相互之間獨立（independent；一個抽到嘅數值嘅概率分佈唔會影響到下一個抽到嘅數值嘅）。呢個假設慳咗好多時間同精神－如果吓吓做統計都要諗第二個抽出嚟嘅數值同第一個抽出嚟嘅數值嘅概率分佈會唔會唔同咗嘅話，計起統計上嚟就會撈絞得好交關^[4]。

平均值（Mu）同標準差（Sigma）嘅數值對常態分佈嘅影響；數值大嘅標準差表示啲個體普遍同個樣本嘅平均值差好遠。

註釋

↑ 喺數學上， $P(y)$ 係指「事件 $y$ 發生嘅機會率」。

睇埋

攷

↑ Data, C. E., & Using Descriptive Statistics Bartz, A. E. (1988). Basic statistical concepts. New York: Macmillan. Devore, J., and Peck.
↑ B. S. Everitt: The Cambridge Dictionary of Statistics, Cambridge University Press, Cambridge (3rd edition, 2006).
↑ Bryc, Wlodzimierz (1995). The Normal Distribution: Characterizations with Applications. Springer-Verlag.
↑ Dinov, Ivo; Christou, Nicolas; Sanchez, Juana (2008). "Central Limit Theorem: New SOCR Applet and Demonstration Activity". Journal of Statistics Education. ASA. 16 (2).

[3] 喺數學上， $P(y)$ 係指「事件 $y$ 發生嘅機會率」。

[data1988-1] Data, C. E., & Using Descriptive Statistics Bartz, A. E. (1988). Basic statistical concepts. New York: Macmillan. Devore, J., and Peck.

[2] B. S. Everitt: The Cambridge Dictionary of Statistics, Cambridge University Press, Cambridge (3rd edition, 2006).

[4] Bryc, Wlodzimierz (1995). The Normal Distribution: Characterizations with Applications. Springer-Verlag.

[dinov2008-5] Dinov, Ivo; Christou, Nicolas; Sanchez, Juana (2008). "Central Limit Theorem: New SOCR Applet and Demonstration Activity". Journal of Statistics Education. ASA. 16 (2).

[1]

[2]

[註 1]

[3]

[4]