字嵌入
字嵌入(粵拼:zi6 ham3 jap6;英文:word embedding),又叫詞嵌入,係自然語言處理上嘅一個重要概念,指用多維實數向量表示一隻字嘅意思。齋靠日常觀察經已可知,人能夠由字詞嗰度理解啲字嘅意思,但電腦冇呢樣能力,淨係能夠處理一大拃嘅數字;於是自然語言處理上就出咗一個諗頭-攞一段字詞做 input,同段字入面每隻字都俾若干個數佢(而呢若干個數結合成一個向量),用呢啲數嚟表示隻字詞嘅意思[1]。
概論
編輯家陣攞段字詞俾個 AI 分析,段嘢入面每隻字詞都有件字嵌入,每件字嵌入係個以實數表示嘅 維向量,啲實數會表示隻字詞嘅意思,所以啲數值相近嘅字嵌入會係表示緊意思上相近嘅字詞[2]。
想像每隻字詞嘅字嵌入有 30 個實數( [註 1]),當中第一個實數表示嗰隻字詞同「貓科」有幾強嘅語義關聯,第二個實數表示嗰隻字詞同「人類」有幾強嘅語義關聯,第三個實數表示嗰隻字詞同「昆蟲」有幾強嘅語義關聯... 等等,數值愈正就表示語義關聯愈勁,即係
Cat
(貓)呢隻字詞嘅字嵌入係[0.9, 0.1, -0.8...]
;Tiger
(老虎)呢隻字詞嘅字嵌入係[0.7, -0.6, -0.75...]
;Nebula
(星雲)呢隻字詞嘅字嵌入係[-0.9, -0.95, -0.95...]
;
姑且唔好諗「點樣知一隻字詞嘅字嵌入數值係乜」嘅問題住。假想而家每隻字詞都有咗件字嵌入,一件字嵌入係個向量,所以可以當做空間入面嘅一點噉嚟睇-好似附圖噉;當咗兩隻字詞係空間入面嘅兩點,分析者就有得計兩點之間嘅歐幾里得距離(Euclidean distance),得出個數值嚟反映「嗰兩隻字詞喺意思上爭幾遠」[註 2]。
睇埋
編輯註釋
編輯參考
編輯- ↑ Lebret, Rémi; Collobert, Ronan (2013). "Word Emdeddings through Hellinger PCA". Conference of the European Chapter of the Association for Computational Linguistics (EACL). Vol. 2014.
- ↑ Jurafsky, Daniel; H. James, Martin (2000). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J.: Prentice Hall.