協氏定律

協氏定律（英文：Heaps' law，又計做英文：Herdan's law），係語言學上一條靠實證^{[註 1]}得出嘅定律。根據協氏定律，以下呢條式實會成立^[1]：

協氏定律講嘅嘢畫做圖嘅樣

V_{R}(n)=Kn^{\beta }

，當中

$V_{R}(n)$ 指一份 $n$ 隻字咁長嘅文件入面有幾多隻唔同款嘅字－「am am」係兩隻同款嘅字，「I am」係兩隻唔同款嘅字，
$K$ 同 $\beta$ 係某啲參數，數值視乎語言而定。喺英文入面， $K$ 數值通常會係 10 至 100，而 $\beta$ 數值係 0.4 至 0.6。

將協氏定律條式畫做圖嘅話，會出好似附圖噉嘅線。

用日常用語講嘅話，協氏定律講嘅嘢如下：

「

一份文件嘅長度愈長，愈難搵到新鮮嘅字。

」

註釋編輯

↑ 即係話語言學家都唔係好肯定點解呢條定律成立，但總之實際睇數據嗰陣就係睇到噉嘅規律。

睇埋編輯

文獻編輯

Egghe, L. (2007), "Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments", Journal of the American Society for Information Science and Technology, 58 (5): 702-709.

攷編輯

↑ Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206-208).

由「https://zh-yue.wikipedia.org/w/index.php?title=協氏定律&oldid=1786885」收