概率論粵拼koi3 leot2 leon6英文probability theory)係研究概率嘅一個數學理論概率(probability),粵文入面又有叫機會率或者或然率,係指一件事件有幾可能係真,1 代表件事實會發生,0 代表件事實唔會發生,而 0.5 就代表件事「有 50% 機會發生」;例如家陣掟一個銀仔,假設個銀仔冇出千嘅話,應該會有 50% 機會出公、50% 機會出字,而呢件事嘅結果(公定字)原則上係冇可能預測嘅,反映咗不確定性(uncertainty)[1][2]

輪盤(上)、掟銀仔(左下)同擲骰仔(右下)一般俾人認為係本質上隨機性嘅事件

喺概率論史上,「概率呢個數值要點樣理解」係一個有相當爭議性嘅問題:喺最基本上,古典嘅決定論(determinism)主張,如果一個觀察者喺而家呢一刻完美知道嗮宇宙嘅狀態(例:知道每粒原子喺乜位置同以乜嘢速度郁緊等等),佢將會有能力靠物理定律-假設佢識嗮所需嘅物理知識-完美預測宇宙下一刻嘅狀態[3],所以概率淨係反映人類知識唔夠,而主張呢個觀點嘅人會話「人之所以預測唔到掟銀仔嘅結果,係因為人知唔嗮風向等嘅資訊[4][5]。不過廿世紀量子力學(quantum mechanics)研究指出,宇宙裏面有部份嘅事件似乎係本質上就冇可能完全準確噉預測嘅,人頂嗮櫳都淨係有得估呢啲事件發生嘅概率[6]

喺廿一世紀初,概率論經已成為咗一個重要嘅數學理論。例如統計學就係建基於概率論嘅[1],而概率同相關概念喺機械學習(教人工智能學習同處理不確定性嘅技術)[7]同埋遊戲設計(可能會涉及設計帶有隨機性嘅遊戲[8]上都有用。

基礎

呢段片顯示個人擲幾粒唔同大細嘅骰仔
睇埋:隨機性

不確定性

內文:不確定性

概率論嘅基礎係不確定性(uncertainty):响最基本上,不確定性係指「一個個體資訊唔夠、唔能夠預測跟住會發生乜事」嘅情況。想像

  • 家陣做一場實驗(experiment)[註 1],場實驗會有  可能結果,而做嗰個人會將個實驗重複   咁多次;
  • 包含場實驗嗰   個可能結果嘅,就係場實驗嘅樣本空間(sample space),
  • 個樣本空間嘅冪集就包含咗嗰   次實驗嘅可能結果組合(事件;event)。

舉個例說明,想像依家擲一粒六面嘅骰仔 ),樣本空間  ,跟住有個人搵個唔透明嘅骰盅𢫏住咗三粒六面骰( ),然後係噉勁搖個骰盅,假設佢完全冇方法睇到粒骰仔(資訊唔夠),佢响攞開個骰盅之前就會經歷不確定性,唔知嗰三粒骰仔擲到乜嘢數字-嗰三粒骰可能係擲到   (其中一件事件)又得,擲到   (另一件事件)... 又得[9][10]

概率

內文:概率

概率(probability),又叫機會率或者或然率,可以噉樣想像:家陣有若干件可能嘅事件,而分析者同每一個可能嘅事件都俾一個數值佢;每件事件掕住嗰個數值就係嗰件事件嘅概率  ,用日常用語講表示「件事件有幾大機會發生」,0 表示「實唔會發生」,1 表示「實會發生」。响廿一世紀嘅概率論當中,啲人一般會用以下噉嘅數學符號嚟表示所講嘅嘢[11]

  • 啲人一般會用「 」或者「 」嚟代表「  發生嘅概率」,
  • 而一場實驗嘅結果( )可以用噉嘅方式表達[12]
     
      嘅概率係  」、「  嘅概率係  」... 呀噉;  可以想像成(例如)「擲骰仔得到嘅數」[9]

概率可以用好似上圖噉嘅方式嚟表達;想像 X 軸 ,表示「擲一粒六面骰仔得到嘅數」,而 Y 軸表示各件呢啲事件嘅相應   值。假如粒骰仔冇出千,應該每個數出現嘅概率都係一樣嘅。

概率公理

內文:概率公理

根據廿一世紀概率論當中嘅概率公理(probability axioms),以下呢三條原則係概率論嘅公理,即係話概率論當咗呢幾句嘢係不證自明[13]

  • 第一公理:一件事件嘅概率係一個非負數實數(不過可以係 0),
     ,當中
    •   係指一件事件,而
    •   係指所有事件結合嘅集合。
  • 第二公理:「最少一件基本事件(elementary event;指淨係包含一個可能結果事件)發生嘅概率」係 1,
     
    • 噉亦即係話,是但搵一件事件    嘅數值頂嗮櫳都只會係 1,冇得大過 1。如果一場實驗當中有件事件   嘅概率係 1( ),場實驗就冇任何嘅不確定性喺入面-  實會發生,而第啲事件嘅概率冚唪唥都會係 0,實唔會發生。
  • 第三公理:任何可數嘅事件不交集[註 2](詳情可以睇埋下面互斥事件  會滿足以下呢條式:
     
    • 簡單講,即係話如果有若干件事件係冇可能同時發生嘅,噉「呢啲事件裏面是但一件發生嘅概率」等如呢啲事件各自嘅概率就噉加埋

重要概念

睇埋:概率及統計學詞彙表

交集同併集

內文:交集併集
睇埋:溫氏圖

响概率論當中,兩件事件之間嘅關係最基本上有兩種-交集(intersection)同併集(union)[1]

  •   代表「    都發生嘅概率」(  交集;intersection),而
  •   就代表「  或者   發生嘅概率」(  併集;union)。

上述嘅概念可以用溫氏圖(Venn diagram)嚟表達:一幅溫氏圖會有若干個波,每個波代表一件事件;兩個波之間嘅相交空間代表嗰兩個波所代表嗰兩件事件嘅交集[14]。例如係以下呢幅溫氏圖噉,幅圖表示咗三件事件-   ,每件事件各有一個波代表(睇每個波掕住嗰嗰羅馬字母),而三個波相交嘅空間( )就係表示「三件事都發生」嘅概率嘅空間

對立同互斥

內文:對立事件互斥、 同 非互斥

對立事件互斥事件非互斥事件係三個緊密相關嘅概念:

  • 對立事件(complementary event):「  嘅對立事件」(  或者  )係指「  冇發生」呢一件事件[15]
     
    • 例如上面嗰幅溫氏圖當中三個波以外嘅空間(三件事都冇發生)就係「 」。
  • 互斥事件(mutually exclusive events):如果話「   係互斥事件」,即係話兩件事冇可能同時發生[16]
     
     概率公理第三條)。
    • 例如上面嗰幅溫氏圖當中嘅「 」同「 」就係互斥事件-兩個空間冇交集[16]
  • 非互斥事件(non-mutually exclusive events):如果話「   係非互斥事件」,即係話兩件事有可能同時發生-
     
     [16]
    • 例如上面嗰幅溫氏圖當中嘅「 」同「 」就係非互斥事件-兩個空間之間有個大過 0 嘅交集 )。

條件概率

內文:條件概率
睇埋:貝葉斯定理

條件概率(conditional probability)係指「如果一件事件發生咗,另外一件事件發生嘅概率」,例:「已知   發生咗,  嘅條件概率」嘅數學符號係

 

呢個數值可以用以下呢條式計[17]

 

舉個例說明,想像以下呢幅溫氏圖,每個空間掕住嗰個數表示嗰件事件發生嘅概率(例:「     都冇發生」嘅概率係 0.34... 等等),「已知   發生咗,  嘅條件概率」( )係

 

如果   互斥事件嘅話,噉  

獨立

內文:獨立 (概率論)

統計獨立(statistical independence)係指幾件事件之間唔會影響對方發生嘅概率。如果話「   呢兩件事件之間獨立」,噉以下呢條式成立[18][19]

 (「已知   發生咗,  發生嘅概率依然係   咁多。」)

噉根據條件概率嘅定義,亦即係話以下嘅方程式會成立:

 
 

就算將    喺以上呢啲式當中嘅位置互換,上述講嘅嘢不變。條件獨立(conditional independence)就係指一件事件唔會影響另外兩件事件之間嘅條件概率,即係話如果

 

   就算係「喺   之下條件獨立」(conditionally independent given C),  [20]

概率分佈

內文:概率分佈

概率分佈(probability distribution)係統計學上成日用到嘅一樣嘢。一個概率分佈係一個表明某個隨機變數嘅每個可能數值出現嘅概率函數

 

當中   就係個概率分佈;個函數可以畫做一個表,X 軸代表個目標變數嘅數值,Y 軸代表嗰個目標變數嘅每個數值出現嘅概率[21]。舉個簡單例子說明,伯努利分佈(Bernoulli distribution)就係一個可以用嚟模擬掟銀仔嘅結果嘅概率分佈,一個伯努利分佈描述嘅變數   得兩個可能數值,數值係 1 嘅機會率係  ,數值係 0 嘅機會率係  ,即係  [22]

 

當中   可以等如  (兩個都係 0.5)。假想而家用一個伯努利分佈嚟模擬一次掟銀仔實驗嘅結果,個銀仔俾人做咗手腳,所以出公嘅概率( )同出字嘅概率( )唔相同,畫做圖(X 軸表示掟銀仔結果嘅數值、Y 軸表示每個數值出現嘅概率)嘅話就會好似以下呢幅圖噉樣:

常態分佈

內文:常態分佈

响現實世界嘅科研入面,啲變數好少可會「一係公一係字」咁二元,但個原理一樣:常態分佈(normal distribution)就係科學入面最常用嘅概率分佈之一;常態分佈模擬嘅係一個連續變數(即係個目標變數嘅數值喺小數點裏面有幾多個位都得),而喺一個常態分佈當中,個變數嘅平均值會係出現得最密嘅數值,低過平均嘅數值同高過平均嘅數值出現嘅機會率一樣,而離平均值愈遠嘅數值,抽到出嚟嘅機會率就愈低,如果按住個樣本畫一個概率分佈圖,一個常態分佈會俾出一條好似鐘噉嘅形狀嘅線(即係所謂嘅「bell curve」)。常態分佈嘅概率密度函數係(  係個分佈嘅標準差[23]

 

譬如話以下呢個情況噉:想像有生物學家想研究成年中華白海豚嘅身長,但佢冇可能捉嗮世界上咁多隻白海豚遂隻遂隻嚟度佢哋幾長,於是乎佢就抽個樣本出嚟,用個樣本嚟估計全世界嘅白海豚嘅身長;呢個樣本入面有 20 隻白海豚,佢哋嘅平均身長係 2.2 米,唔係隻隻都啱啱好 2.2 米長-有隻係 1.8 米長,有隻係 2.6 米長呀噉-但一隻白海豚身長高過呢個值嘅機會率大致上等如佢身長低過呢個值嘅機會率,而且離 2.2 米愈遠嘅數值出現嘅機會率愈低。如果畫幅概率分佈圖,「隻白海豚嘅身長」做 X 軸,而「每個身長數值出現嘅機會率」做 Y 軸,幅圖會出一條近似鐘形嘅線。事實係實證嘅科研經已表明咗,智商(IQ)等好多重要嘅變數嘅分佈都可以用常態分佈嚟模擬[23]

隨機變數匯合

內文:隨機變數匯合

隨機變數匯合(convergence of random variable)係指隨機變數有嘅極限(limit);簡單講,如果話某一個隨機變數   有一個極限,即係指(例如)隨住某個數值   變得愈嚟愈大,  嘅數值會慢慢愈嚟愈近(匯合)某個數值(設呢個數值做    係個函數嘅極限)[24]

 

喺概率論上,隨機變數匯合相關嘅現象有以下呢啲:

大數定律

內文:大數定律

大數定律(law of large numbers,LLN)係概率論上一條俾人覺得好合乎直覺嘅定律[25]:想像家陣掟一個冇做手腳(出公出字概率一樣)嘅銀仔,掟嘅次數係  ;一般直覺認為,如果   嘅數值極大( ),噉嗰   次掟銀仔嘅結果應該會有一半係公一半係字;而且   嘅數值愈大,「出公嘅次數」同「出字嘅次數」之間嘅比例應該會愈嚟愈接近 1。又想像家陣擲一粒(冇做手腳嘅)六面骰仔擲   咁多次,噉嗰   次擲骰仔嘅結果嘅平均值樣本平均值;sample mean)正路會隨住   變得愈嚟愈大,而接近 3.5(理論上嘅平均值)-

喺比較嚴格嘅定義上,大數定律講嘢如下:依家有一連串獨立同分佈(iid)嘅隨機變數  (意思即係指呢啲變數之間獨立,而且概率分佈一樣);只要   期望值)唔係無限大,噉   實際觀察到嘅樣本平均值( 

 

會隨住   變大而接近  。大數定律嘅諗頭源於直覺,但喺實際嘅觀察上經已受到證實,進階嘅分析仲會分弱大數定律(weak;「趨近樣本平均值有咁上下概率會發生」)同強大數定律(strong;「趨近樣本平均值係一定會發生咁滯」)[26]

中央極限定理

內文:中央極限定理

中央極限定理(central limit theorem,CLT)廣泛噉俾人認為係現代數學上嘅一個重要結果,可以解釋常態分佈(睇返上面)點解喺大自然入面周圍都有(智商同身高等好多表示個體差異嘅變數都呈常態分佈)。根據中央極限定理,假想有若干( )個獨立同分佈變異數有限嘅隨機變數,如果   嘅數值極大( ),噉呢啲隨機變數嘅平均值形成嘅分佈會接近一個常態分佈,無論啲隨機變數本身嘅分佈係點嘅樣都一樣。用例子說明嘅話,即係話想像

  • 家陣擲   咁多粒骰仔,
  • 啲骰仔冇出千(「一粒骰仔擲到嘅數」個概率唔成常態分佈),
  • 根據中央極限定理,如果   嘅數值極大,噉最後嗰   粒骰仔擲到嘅數嘅平均值會成一個常態分佈[27][28]

用圖嚟表達嘅話:

簡單噉講,設   獨立同分佈嘅隨機變數,平均值 變異數 ,設   做呢柞隨機變數嘅平均值,噉

 

會係一個常態分佈。中央極限定理講嘅嘢表示,大自然會充滿咗常態分佈-每一件數據(例:訊號當中嘅雜訊)產生嘅過程可以想像成一個隨機過程(stochastic process),個結果(件雜訊搞到個訊號高咗定低咗,同埋搞到個訊號變咗幾多)會係一個隨機變數,而無論件數據嘅產生過程係乜嘢分佈都好,產生大量嘅數據(睇咗大量嘅訊號)之後,件數據(啲雜訊)嘅數值嘅平均值都會呈現常態分佈[27][28]

同統計學嘅啦掕

 
一個抽樣嘅過程係由一大柞研究對象(總體)嗰度抽一部份(樣本)出嚟研究-要睇嗮所有研究對象太嘥時間或者太嘥錢所以唔可行。
睇埋:統計學同埋機械學習

機會率係統計學(statistics)同相關領域上實要諗嘅課題:統計學嘅重要一環係分析科學方法(scientific method)上得到嘅數據;科學方法本質上就涉及研究者由一個總體(population)入面攞一個樣本(sample)出嚟,並且嘗試靠分析手上嘅樣本嚟增進自己對個總體嘅認識;呢種做法本質上就有不確定性-理論上,研究者永遠都唔能夠肯定,個樣本實係代表得到個總體,例如研究者想研究體重,因為人力物力嘅限制,佢冇可能研究嗮古往今來所有嘅狼,於是佢就去搵 100 隻狼嚟做樣本研究,佢量度到呢個樣本嘅狼平均體重係 40 公斤,不過就最嚴格嘅邏輯基準嚟講,呢個數可能真係代表到全世界嘅狼,但又有可能全世界嘅狼嘅平均體重查實係 60 公斤,個研究者之所以搵到 40 公斤呢個數只係佢咁啱得咁橋唔好彩,抽到個代表唔到個總體嘅樣本-隨機性係統計學分析上走唔甩嘅一部份[1][29]

例:信心區間

好多統計學上會用嘅分析概念都係以概率做基礎嘅。例如係信心區間(confidence interval,CI)噉:研究人員可以睇到嘅就淨係得個樣本啲數值,而個總體嗰柞真實數值原則上係不可知嘅;信心區間就係指「有信心總體個真實數值係喺入面嘅區間」,喺做統計嗰時會俾人攞嚟表述個樣本嘅數值同個總體嘅真實數值之間估計差幾遠,

 

舉個例說明,最常用嘅係「95% 信心區間」( ),啲科研人員會用個樣本入面嘅海豚嘅身長平均值嚟估計嗰個不可知嘅(例如)「世上所有白海豚嘅身長嘅平均值」( ),而佢哋可以用一啲統計方法計個「白海豚身長平均值嘅 95% 信心區間」出嚟-呢個值係指「有信心 95% 機會世上所有白海豚嘅身長嘅平均值嘅真實數值係喺    之間」-信心區間正正就係以概率嘅形式嚟表達嘅[30]

詮釋

內文:概率嘅詮釋

廿一世紀初嘅概率論係一個廣受人認同嘅數學理論數學上對概率嘅分析始於 8 至 13 世紀(伊斯蘭黃金時代)期間,當時嘅阿拉伯數學家喺度研究密碼學,有諗到(例如)「點樣令到啲密碼望落似完全隨機(難以確定噉知道)」等嘅問題[31];打後嘅 17 世紀數學家郁手分析擲骰仔等嘅機率遊戲,令到概率論嘅諗法萌芽;到咗廿世紀上半橛,蘇聯數學家安德雷·柯爾莫哥洛夫(Andrey Kolmogorov)將概率同相關概念整合做一套形式化嘅理論,令到概率論正式成為一個嚴謹嘅數學領域,並且俾人廣泛噉應用喺統計資訊科技等嘅領域上[32]

古典定義

內文:古典概率定義

雖然概率論咁成功,但哲學物理學等領域嘅研究者一路都有喺度諗「概率到底代表緊啲乜」嘅問題。18 世紀法國數學家拉普拉斯(Pierre-Simon Laplace)係噉樣定義「概率」嘅[33][註 4]:如果

  • 一場隨機實驗可以引致  互斥同一樣咁有可能嘅結果,而且
  •   個結果當中有   咁多個會涉及事件   發生;

  嘅概率( )就可以定義做

 

呢個定義俾好多學者覺得有缺憾:首先,個定義淨係可以用喺可能結果嘅數量有限嘅情況,但某啲重要嘅隨機實驗(例如係「一路掟銀仔,掟到出公為止」)理論上有無限咁多個可能結果;除此之外又有人指,古典定義有循環邏輯(circular logic)嘅問題-「一個冇出千嘅銀仔出公出字嘅概率係咁多咁多」,但同時一個冇出千嘅銀仔定義上就係「出公出字機會一樣」嘅[34]。因為噉,打後嘅數學界又出咗頻率派(frequentist;一件事件嘅概率係「件事件經過多次實驗之後嘅相對頻率嘅極限」)同貝葉斯派(Bayesian;一件事件嘅概率係「個觀察者根據過往經驗,覺得有幾預期件事件會發生」)等嘅諗法[35]

物理思考

睇埋:決定論同埋量子力學

有關概率嘅本質嘅問題仲涉及物理學同宇宙學上嘅思考。喺廿世紀打前嘅科學家好多時都抱持決定論(determinism)嘅觀念:喺最基本上,決定論係一種世界觀,認為宇宙裏面嘅每一件事件都係由打前嘅事件(原因)決定嘅;根據呢種睇法,概率呢個概念之所以存在,純粹係反映咗觀察者資訊上嘅不足-「如果一個觀察者完美噉知嗮嗰一刻『每粒原子喺邊』同『每粒原子以乜嘢速度移動』等嘅資訊,佢將會有能力按物理定律完美噉預測個銀仔會係公定字,但喺實際情況當中,人唔能夠攞到嗮呢啲資訊,所以淨係有得估呢啲事件發生嘅概率」。詳情可以睇吓拉普拉斯魔(Laplace's demon)相關嘅概念[3]

一個有關波粒二象性嘅英文動畫;一般古典物理學嘅諗法係波動粒子係兩樣唔同嘅嘢,但廿世紀頭半橛嘅物理實驗發現粒子有時會有好似波動噉嘅行為,例如係電子繞射現象。

不過,古典嘅決定論喺廿世紀受到挑戰:廿世紀上半橛係量子力學(quantum mechanics)崛起嘅時期,呢啲研究掂到波粒二象性(wave-particle duality)同哥本哈根詮釋(Copenhagen interpretation)等嘅議題;簡單講,量子力學發現微觀粒子同時會有波動能量嘅擾動)同粒子(一種物質)嘅特性。例如係喺古典物理學當中俾人當係波動一種,而唔係物質,但量子力學就話光有某啲粒子先至有嘅特性;根據哥本哈根詮釋,一粒粒子嘅「波動」係表示緊嗰粒粒子喺唔同位置嘅概率-喺做量度之前,粒粒子會喺空間入面有個波動,每個位置嘅波動大細表示「嗰粒粒子喺嗰個位嘅概率」,而當有觀察者郁手做量度嗰陣,粒粒子會即刻出現喺其中一個位置。呢個諗法引致咗一個問題:如果呢個詮釋係啱嘅,噉即係話宇宙入面至少有一啲現象喺本質上係隨機性嘅;呢個諗法令到古典嘅決定論大受打擊,亦都表示概率唔淨只係反映人嘅知識不足,而係宇宙本質上有嘅一種特性[36][37]

註釋

  1. 概率論上所講嘅「實驗」同一般科學方法上講嘅「實驗」係兩個唔同嘅概念。
  2. 不交集簡單講就係冇可能同時發生嘅事件。例如家陣擲三粒骰仔:
    「掟到  」同「掟到  」係冇可能同時發生嘅;但
    「掟到最少一個 2」同「掟到最少一個 4」就係有可能同時發生嘅。
  3.   係二項分佈當中有嘅一個參數
  4. 呢個就係所謂嘅古典定義

睇埋

參考

  • Billingsley, P. (2008). Probability and measure. John Wiley & Sons.
  • Gut, A. (2013). Probability: a graduate course (Vol. 75). Springer Science & Business Media.
  • Kallenberg, O. (2006). Foundations of modern probability. Springer Science & Business Media.
  • Kallenberg, O. (2006). Probabilistic symmetries and invariance principles. Springer Science & Business Media.
  • Tijms, H. (2012). Understanding probability. Cambridge University Press.
  • Tucker, H. G. (2013). A graduate course in probability. Courier Corporation.

  1. 1.0 1.1 1.2 1.3 William Feller, An Introduction to Probability Theory and Its Applications, (Vol 1), 3rd Ed, (1968), Wiley.
  2. Kallenberg, O. (2006). Foundations of modern probability. Springer Science & Business Media.
  3. 3.0 3.1 Richard Langdon Franklin (1968). Freewill and determinism: a study of rival conceptions of man. Routledge & K. Paul.
  4. Laplace, Pierre Simon. A Philosophical Essay on Probabilities, translated into English from the original French 6th ed. by Truscott, F.W. and Emory, F.L., Dover Publications (New York, 1951).
  5. Moore, W.J. (1992). Schrödinger: Life and Thought. Cambridge University Press. p. 479.
  6. Stephen Hawking's Grand Design (2010), page 32: "the molecular basis of biology shows that biological processes are governed by the laws of physics and chemistry and therefore are as determined as the orbits of the planets...so it seems that we are no more than biological machines and that free will is just an illusion", and page 72: "Quantum physics might seem to undermine the idea that nature is governed by laws, but that is not the case. Instead it leads us to accept a new form of determinism: Given the state of a system at some time, the laws of nature determine the probabilities of various futures and pasts rather than determining the future and past with certainty." (discussing a Many worlds interpretation).
  7. Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Foundations of Machine Learning. USA, Massachusetts: MIT Press.
  8. Dervishi, Kay (2019-06-18). "Other games of chance and skill on Albany's agenda". CSNY.
  9. 9.0 9.1 Ross, Sheldon (2010). A First Course in Probability (8th ed.). Pearson Prentice Hall. pp. 26–27.
  10. Papoulis, A. (1984). "Bernoulli Trials". Probability, Random Variables, and Stochastic Processes (2nd ed.). New York: McGraw-Hill. pp. 57–63.
  11. Bain, Lee J.; Engelhardt, Max (1992). Introduction to Probability and Mathematical Statistics (2nd ed.). Belmont, California: Brooks/Cole. p. 53.
  12. Murphy, K. P. (2012). Machine learning: a probabilistic perspective, p. 35. MIT press.
  13. Kolmogorov, Andrey (1950) [1933]. Foundations of the theory of probability. New York, USA: Chelsea Publishing Company.
  14. Mahmoodian, Ebadollah S.; Rezaie, M.; Vatan, F. (March 1987). "Generalization of Venn Diagram". Eighteenth Annual Iranian Mathematics Conference. Tehran and Isfahan, Iran.
  15. Robert R. Johnson, Patricia J. Kuby: Elementary Statistics. Cengage Learning 2007, ISBN 978-0-495-38386-4, p. 229.
  16. 16.0 16.1 16.2 Miller, Scott; Childers, Donald (2012). Probability and Random Processes (Second ed.). Academic Press. p. 8. ISBN 978-0-12-386981-4. The sample space is the collection or set of 'all possible' distinct (collectively exhaustive and mutually exclusive) outcomes of an experiment."
  17. Olofsson (2005) p. 29.
  18. Olofsson (2005) p. 35.
  19. Russell, Stuart; Norvig, Peter (2002). Artificial Intelligence: A Modern Approach. Prentice Hall. p. 478.
  20. Dawid, A. P. (1979). "Conditional Independence in Statistical Theory". Journal of the Royal Statistical Society, Series B. 41 (1): 1–31.
  21. Ash, Robert B. (2008). Basic probability theory (Dover ed.). Mineola, N.Y.: Dover Publications. pp. 66–69.
  22. Bertsekas, Dimitri P. (2002). Introduction to Probability. Tsitsiklis, John N., Τσιτσικλής, Γιάννης Ν. Belmont, Mass.: Athena Scientific.
  23. 23.0 23.1 Bryc, Wlodzimierz (1995). The Normal Distribution: Characterizations with Applications. Springer-Verlag.
  24. Billingsley, Patrick (1999). Convergence of probability measures (2nd ed.). John Wiley & Sons. pp. 1–28.
  25. Dekking, Michel (2005). A Modern Introduction to Probability and Statistics. Springer. pp. 181–190.
  26. Yao, Kai; Gao, Jinwu (2016). "Law of Large Numbers for Uncertain Random Variables". IEEE Transactions on Fuzzy Systems. 24 (3): 615–621.
  27. 27.0 27.1 Bárány, Imre; Vu, Van (2007). "Central limit theorems for Gaussian polytopes". Annals of Probability. Institute of Mathematical Statistics. 35 (4): 1593–1621.
  28. 28.0 28.1 Dinov, Ivo; Christou, Nicolas; Sanchez, Juana (2008). "Central Limit Theorem: New SOCR Applet and Demonstration Activity". Journal of Statistics Education. ASA. 16 (2): 1–15.
  29. Moore, David (1992). "Teaching Statistics as a Respectable Subject". In F. Gordon and S. Gordon. Statistics for the Twenty-First Century. Washington, DC: The Mathematical Association of America. pp. 14–25.
  30. Zar, J. H. (1984). Biostatistical Analysis. Prentice-Hall International, New Jersey, pp 43–45.
  31. Broemeling, Lyle D. (1 November 2011). "An Account of Early Statistical Inference in Arab Cryptology". The American Statistician. 65 (4): 255–257.
  32. Debnath, L., & Basu, K. (2015). A short history of probability theory and its applications. International Journal of Mathematical Education in Science and Technology, 46(1), 13-39.
  33. Laplace, P. S., (1814). English edition 1951, A Philosophical Essay on Probabilities, New York: Dover Publications Inc.
  34. Spanos, Aris (1986). Statistical foundations of econometric modelling. Cambridge New York: Cambridge University Press.
  35. Cohen, L (1989). An introduction to the philosophy of induction and probability. Oxford New York: Clarendon Press Oxford University Press.
  36. The Trouble with Quantum Mechanics.
  37. Wimmel, H. (1992). Quantum Physics & Observed Reality: A Critical Interpretation of Quantum Mechanics. World Scientific. p. 2. ISBN 978-981-02-1010-6.