甘別分佈
甘別分佈(英文:Gumbel distribution,又叫Generalized Extreme Value distribution Type-I,「1型廣義極值分佈」)係喺概率論同統計學當中幫個最大值(或者最細值)建模嘅分佈、個最值係喺各式分佈啲一堆樣本之中攞出嘅。
概率密度函數 | |||
累積分佈函數 | |||
變數 |
location (real) scale (real) | ||
---|---|---|---|
撐集 | |||
where | |||
CDF | |||
平均數 |
where is the Euler–Mascheroni constant | ||
中位數 | |||
眾數 | |||
方差 | |||
偏度 | |||
峰度 | |||
熵 | |||
MGF | |||
CF |
呢個分佈係可以表示得出特定年份江水最高水位嘅分佈,若果有返幅表有過去十年啲最大值嘅話。個分佈有助於預測啲極端地震、洪水或者其他自然災害發生嘅可能性。甘別分佈個潛在適用性、攞嚟表示最大值分佈嘅係同極值理論有關,個理論表明若果基礎樣本數據嘅分佈係正態或者指數類型,甘別分佈即可能會好有用。以下啲例都係使甘別分佈嚟建模畀個最大值嘅分佈。要建模畀個最細值,係使啲原始值嘅負數。
甘別分佈係廣義極值分佈(亦都喊做 Fisher-Tippett 分佈)嘅一個特例。佢亦都着喊做對數Weibull分佈同雙指數分佈(個術語有時亦都攞嚟指拉普拉斯分佈)。甘別分佈同甘佩茲分佈有關:個密度先圍原點反射、再限制喺正半線上嗰陣,就得到甘佩茲函數。
喺離散選擇理論裏便幾常見嘅係,啲潛在變數嘅誤差喺multinomial logit模型嘅潛在變數公式入便嘅係遵循返甘別分佈嘅。噉樣可以令到兩個甘別分佈個隨機變數差異有返邏輯分佈(logistic distribution)。
甘別分佈得名自Emil Julius Gumbel(1891 – 1966),基於佢篇原始論文描述到呢種分佈嘅。[1][2]
定義
編輯甘別分佈嘅累積分佈函數係:
標準甘別分佈
編輯標準甘別分佈嘅情況係 同 具有累積分佈函數:
同埋概率密度函數:
喺呢種情況下,眾數係 0,中位數係 ,均值係 ( Euler-Mascheroni 常數),標準差係
對於 n>1,累積量根據下式畀出:
特性
編輯眾數係 μ,中位數係 ,平均值由下式畀出
其中 係Euler-Mascheroni 常數。
標準差 係 ,所以掉轉頭有 。 [3]
喺眾數下, , 個值變成 ,即唔受 值影響。
相關分佈
編輯- 若果 具有甘別分佈,係噉Y= − X嘅條件分佈具有甘佩茲分佈(假設Y係正,或者等效噉假設X係負)。Y嘅 cdf G同F (X嘅 cdf)有拏褦,對於y > 0有公式: ;所以,密度同 相關:甘佩茲密度同反射嘅甘別密度成正比,僅衹限於正半線。[4]
- 若果 有指數分佈、變數均值係 1 嘅,係噉− log( X ) 具有標準甘別分佈。
- 若果 同 係獨立嘅,係噉 有邏輯分佈: 。
- 若果 係獨立嘅,係噉 。注意 。
廣義多元對數伽馬分佈相關理論提供咗甘別分佈嘅多元版本(multivariate version)。
應用
編輯甘別表明,個最大值(或者最孻順序統計量)喺啲服從指數分佈嘅隨機變數樣本之中攞出嘅、減去樣本size個自然對數[6]嘅話隨樣本size愈大就愈發接近甘別分佈。[7]
所以,喺水文學,甘別分佈着攞嚟分析諸如日降雨量同江水流量啲月份同年份最大值等變數,[3]亦都着攞嚟描述啲乾旱。[8]
甘別仲證明咗個對事件概率嘅估計量r⁄(n+1)(其中r係喺數據序列中觀察到嘅值嘅秩數,n係觀測值嘅總數)係一個無偏估計、估計返個累積概率圍住分佈嘅眾數嘅。所以,呢個估計量通常攞嚟做畫圖嘅中間位置。
喺數論,甘別分佈近似於[9]個項數喺隨機整數拆分之中與及喺啲質數罅同埋啲質數宿(prime constellations)罅啲trend-adjusted sizes之中嘅。[10]
計法
編輯概率論文
編輯喺前軟件時代,甘別分佈係攞概率紙嚟描繪(見圖)。呢個論文基於累積分佈函數 嘅線性化:
喺論文入便,水平軸係攞雙對數刻度構建,而縱軸係線性嘅。畫個 喺紙嘅水平軸上, 畫 變數到縱軸上之後,個分佈就由斜率係 1 嘅直線表示到。等到類似CumFreq噉樣嘅分佈擬合軟件有得用嗰陣,繪製分佈嘅任務就變得容易咗啲,當中似下一節寫到噉生成甘別變數。
生成甘別變數
編輯甘別分佈嘅分位數函數(逆累積分佈函數) 係由下式畀出:
隨機變數 係從區間 嘅均勻分佈得出嗰陣,變數 即有帶參數 同 嘅甘別分佈。
睇埋
編輯考
編輯- ↑ Gumbel, E.J. (1935), "Les valeurs extrêmes des distributions statistiques" (PDF), Annales de l'Institut Henri Poincaré, 5 (2): 115–158
- ↑ Gumbel E.J. (1941). "The return period of flood flows". The Annals of Mathematical Statistics, 12, 163–190.
- ↑ 3.0 3.1 Oosterbaan, R.J. (1994). "Chapter 6 Frequency and Regression Analysis" (PDF). 出自 Ritzema, H.P. (編). Drainage Principles and Applications, Publication 16. Wageningen, The Netherlands: International Institute for Land Reclamation and Improvement (ILRI). pp. 175–224. ISBN 90-70754-33-9.
- ↑ Willemse, W.J.; Kaas, R. (2007). "Rational reconstruction of frailty-based mortality models by a generalisation of Gompertz' law of mortality" (PDF). Insurance: Mathematics and Economics. 40 (3): 468. doi:10.1016/j.insmatheco.2006.07.003. 原著 (PDF)喺2017年8月9號歸檔. 喺2021年7月4號搵到.
- ↑ CumFreq, software for probability distribution fitting
- ↑ [https://math.stackexchange.com/questions/3527556/gumbel-distribution-and-exponential-distribution?noredirect=1#comment7669633_3527556 user49229, Gumbel distribution and exponential distribution ]
- ↑ Gumbel, E.J. (1954). Statistical theory of extreme values and some practical applications. Applied Mathematics Series.第33卷 (第1版). U.S. Department of Commerce, National Bureau of Standards. ASIN B0007DSHG4.
- ↑ Burke, Eleanor J.; Perry, Richard H.J.; Brown, Simon J. (2010). "An extreme value analysis of UK drought and projections of change in the future". Journal of Hydrology. 388 (1–2): 131–143. Bibcode:2010JHyd..388..131B. doi:10.1016/j.jhydrol.2010.04.035.
- ↑ Erdös, Paul; Lehner, Joseph (1941). "The distribution of the number of summands in the partitions of a positive integer". Duke Mathematical Journal. 8 (2): 335. doi:10.1215/S0012-7094-41-00826-8.
- ↑ Kourbatov, A. (2013). "Maximal gaps between prime k-tuples: a statistical approach". Journal of Integer Sequences. 16. arXiv:1301.2242. Bibcode:2013arXiv1301.2242K. Article 13.5.2.
- ↑ Adams, Ryan. "The Gumbel-Max Trick for Discrete Distributions".