字嵌入粵拼zi6 ham3 jap6英文word embedding),又叫詞嵌入,係自然語言處理上嘅一個重要概念,指用多維實數向量表示一隻意思。齋靠日常觀察經已可知,人能夠由字詞嗰度理解啲字嘅意思,但電腦冇呢樣能力,淨係能夠處理一大拃嘅數字;於是自然語言處理上就出咗一個諗頭-攞一段字詞做 input,同段字入面每隻字都俾若干個數佢(而呢若干個數結合成一個向量),用呢啲數嚟表示隻字詞嘅意思[1]

概論

編輯
 
想像而家     係兩隻字詞嘅字嵌入,可以畫做空間入面嘅兩,跟住分析者就可以計兩點之間嘅距離。
睇埋:語義向量

家陣攞段字詞俾個 AI 分析,段嘢入面每隻字詞都有件字嵌入,每件字嵌入係個以實數表示嘅  向量,啲實數會表示隻字詞嘅意思,所以啲數值相近嘅字嵌入會係表示緊意思上相近嘅字詞[2]

想像每隻字詞嘅字嵌入有 30 個實數(  [註 1]),當中第一個實數表示嗰隻字詞同「貓科」有幾強嘅語義關聯,第二個實數表示嗰隻字詞同「人類」有幾強嘅語義關聯,第三個實數表示嗰隻字詞同「昆蟲」有幾強嘅語義關聯... 等等,數值愈正就表示語義關聯愈勁,即係

  • Cat)呢隻字詞嘅字嵌入係 [0.9, 0.1, -0.8...]
  • Tiger老虎)呢隻字詞嘅字嵌入係 [0.7, -0.6, -0.75...]
  • Nebula星雲)呢隻字詞嘅字嵌入係 [-0.9, -0.95, -0.95...]

姑且唔好諗「點樣知一隻字詞嘅字嵌入數值係乜」嘅問題住。假想而家每隻字詞都有咗件字嵌入,一件字嵌入係個向量,所以可以當做空間入面嘅一噉嚟睇-好似附圖噉;當咗兩隻字詞係空間入面嘅兩點,分析者就有得計兩點之間嘅歐幾里得距離(Euclidean distance),得出個數值嚟反映「嗰兩隻字詞喺意思上爭幾遠」[註 2]

睇埋

編輯

註釋

編輯
  1. 喺實際應用上,  嘅數值閒閒哋會係幾百。
  2. 技術化啲講,實際應用上通常會同呢個距離值做標準化

參考

編輯
  1. Lebret, Rémi; Collobert, Ronan (2013). "Word Emdeddings through Hellinger PCA". Conference of the European Chapter of the Association for Computational Linguistics (EACL). Vol. 2014.
  2. Jurafsky, Daniel; H. James, Martin (2000). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J.: Prentice Hall.