詞庫
Lexicon(粵拼:lek1 sik4 kan4,讀音大致對應漢字
- 例如廣東話嘅叻識勤包嗮所有喺廣東話入面嘅詞彙-「
詞彙 」呢隻詞喺廣東話入面,算係廣東話叻識勤嘅一部份[1][2]; - 除此之外,一門知識都可以有佢哋嘅叻識勤,例如係 AI 噉,做 AI 相關嘅工作會用到好多概念同埋行話(例:人工神經網絡),呢啲嘢入面包含嘅詞彙,可以算係 AI 呢個領域嘅叻識勤,形成所謂嘅 AI 詞彙。


喺語言學上,叻識勤係一個重要嘅概念:一隻語言可以大致睇做叻識勤同文法結合埋一齊而成嘅總體[3]-叻識勤包括咗大拃嗰隻語言裏面嘅詞彙,用語言嘅人要攞住啲詞彙,跟文法將啲詞彙砌埋做句子,達致表達佢哋想表達嘅意思;例如攞住廣東話嘅詞彙[4]
再跟廣東話嘅文法規則砌成「畀本書我。」噉嘅句子[註 1]。因為叻識勤咁基本,對佢哋嘅研究喺語言學同自然語言處理(NLP)等語言相關嘅工作上相當受到重視。詞彙學(lexicology)就係語言學嘅一門子領域,顧名思義專研究叻識勤。
基礎 編輯
詞庫嘅最基本組成部份係字詞。
首先,而家淨係考慮口語(唔好諗文字點寫住),字詞由音素同形態素組成,當中
- 音素(phoneme):指令用隻語言嘅人能夠分辨兩隻字嘅最細嘅聲單位;攞廣東話做例子,廣東話有元音同輔音,噉想像以下嘅音[註 2]
- 形態素(morpheme):指可以有意思嘅最細可能單位,唔一定能夠自成一隻字詞;攞英格蘭話做例子,想像以下呢啲字[6]:"Prefix"
一隻字詞會由若干嚿音素同若干嚿形態素組成。是但搵一個會用語言嘅群體,佢哋用嘅語言裏面有嘅字詞擺埋嗮一齊嘅整體,就係嗰個群體嘅詞庫,當中「群體」可以係[8]:
- 講同一隻話嘅人,例:廣東話嘅詞庫、閩南話嘅詞庫、英格蘭話嘅詞庫... 呀噉;
- 做同一行嘅人-是但搵一門工作,嗰門工作都會有外人(講同一隻語言但唔係做嗰範嘅人)聽唔明嘅行話,所以一個行業可以有佢哋嘅詞庫,例:電腦科學嘅詞庫、工程學嘅詞庫、芭蕾舞嘅詞庫... 呀噉;
- 用同一隻語言而且年齡差唔多嘅人-年齡唔同嘅人講嘢方式可以幾唔同,有陣時可能齋係聽一個人講嘢啲用詞就可以知佢年齡,例:廣東話老人家嘅詞庫、廣東話後生仔女嘅詞庫... 呀噉;
... 等等。
詞庫化 編輯
詞庫化(lexicalization)係語言演變嘅重要一環,指[9]
「 | 」 |
噉嘅過程。詞庫化嘅過程可以係靠好多唔同嘅機制嚟做:
- 合成詞(compound,可以做粵拼:kam1 paang4):技術性噉講,合成詞係指一個 lexeme 可能由多個字幹組成,簡化講即係兩隻各有意思嘅字砌埋一齊做一隻自成個新意思嘅字;例如粵人史上第一次見到雪糕嗰陣,就攞住雪同糕呢兩隻本身喺粵文入面可以獨自存在嘅形態素,砌埋一齊變成雪糕呢隻新字詞,隻字詞嗰兩橛對隻字詞整體嘅意思嚟講都係必要嘅[10][11]。
- 減筆(abbreviation,減筆可以做 abbrv.):將啲現有嘅字縮短,通常係由原先隻字或者句嘢度攞最重要嗰啲部份出嚟,最後形成隻新字或者句新句子,例如廣東話個英文名-Cantonese-以英文嚟講係一隻幾長嘅字,成日畀人減筆做 Canto,形成 Canto-pop(指粵語流行曲)等嘅字詞[13]。睇埋揳夫簡潔定律。
- 頭字語(acronym):淨係適用於寫起上嚟會攞字母寫嘅語言,指將隻詞用字母寫低,再攞隻詞每個字開頭嗰個字母,砌做一隻新字,例如北大西洋公約組織個名噉,北大西洋公約組織嘅英文名叫
- North Atlantic Treaty Organization
- 借詞(loanword):指由第啲語言度借啲字詞嚟用[註 3][15]。
語料分析 編輯
語言相關工作者成日會靠分析語料嚟研究一隻語言嘅詞庫。
例如協氏定律(Heaps' law)就好出名:協氏定律係語言學上一條靠實證[註 4]得出嘅定律;根據協氏定律,以下呢條式實會成立[16]:
- ,當中
指一份 隻字咁長嘅文件入面有幾多隻唔同款嘅字-am am 係兩隻同款嘅字,I am 係兩隻唔同款嘅字, 同 係某啲參數,數值視乎語言而定。喺英文入面, 數值通常會係 10 至 100,而 數值係 0.4 至 0.6(睇附圖)。用日常用語講嘅話,協氏定律講嘅嘢即係「一份文件嘅長度愈長,愈難搵到新鮮嘅字」。
睇埋 編輯
註釋 編輯
攷 編輯
- ↑ Lai, R., & Winterstein, G. (2020, May). Cifu: a frequency lexicon of Hong Kong Cantonese. In Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 3069-3077).
- ↑ CC-Canto beta.
- ↑ Dominiek, Sandra; Taft, Marcus (1994). Morphological structure, lexical representation, and lexical access. Lawrence Erlbaum Associates, Publishers.
- ↑ Matthews, Stephen; Yip, Virginia (2011). Cantonese: A Comprehensive Grammar (2nd ed.). London: Routledge.
- ↑ Phoneme. Encyclopedia Britannica.
- ↑ Master List of Morphemes: Suffixes, Prefixes, Roots (PDF). Florida Department of Education.
- ↑ Haspelmath, Martin (2010). Understanding Morphology. Andrea D. Sims (2nd ed.). London: Hodder Education.
- ↑ [1]
- ↑ Lipka, Leonhard (January 1992). "Lexicalization and Institutionalization in English and German" (PDF). Linguistica Pragensia: 1-13.
- ↑ ice-cream (n.). Online Etymology Dictionary.
- ↑ 7.2 Compound Words. Essentials of Linguistics. Open Library.
- ↑ Kin-chung, C. H. I. N. (2003). On the Interface Properties of Cantonese Verb-Object Compounds (PDF) (Doctoral dissertation, The Chinese University of Hong Kong).
- ↑ Chu, Yiu-wai; Leung, Eve (2013). "Remapping Hong Kong popular music: Covers, localisation and the waning hybridity of Cantopop". Popular Music. 32 (1): 65-78.
- ↑ What Is an Acronym? Definition and Examples. Grammarly.
- ↑ Kang, Y. J. (2013). Loanwords. Oxford Bibliographies.
- ↑ Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206-208).