餘弦相似性(粵拼:jyu4 jyun4 soeng1 ci5 sing3;英文:cosine similarity)係一種相似性量度,可以攞嚟量度兩列數之間有幾相似。
計餘弦相似性嗰陣,條式會攞兩個向量做 input,而 output 就會俾個數 θ {\displaystyle \theta } 出嚟, θ {\displaystyle \theta } 嘅值反映兩個向量之間「個角度有幾大」[1]。
設 A {\displaystyle \mathbf {A} } 同 B {\displaystyle \mathbf {B} } 做要分析嗰兩個向量,而 A i {\displaystyle A_{i}} 同 B i {\displaystyle B_{i}} 係 A {\displaystyle \mathbf {A} } 同 B {\displaystyle \mathbf {B} } 嘅組成部份,噉餘弦相似性可以用噉嘅式計:
呢條式會出嘅 output 可能數值最低係 -1 最高係 1,數值愈高就表示兩個向量愈相似。