關注機制

喺人工神經網絡嘅意涵上，關注機制（粵拼：gwaan1 zyu3 gei1 zai3；英文：attention），粵文又可以叫注意力機制，係一種模仿注意力呢種認知功能嘅技術。腦嘅注意力系統做嘅簡單講係將個腦嘅資訊處理資源集中用嚟處理緊要嘅資訊源，而關注機制重點在於教一個人工智能程式由（大量嘅）輸入數據嗰度揀一部份（重要嗰啲）嚟集中處理，並且忽略或者淡化輸入數據當中冇咁緊要嗰啲。個諗頭就係「個神經網絡應該俾多啲運算資訊落去數據裏面細婗又重要嘅部分」。「乜嘢數據算係緊要」呢一樣可以用梯度下降法（gradient descent）等嘅方法嚟教個程式睇上下文學。

關注機制喺多種機械學習技術當中都有用，好似係自然語言處理同電腦視覺都會用到關注機制^[1]^[2] 。

Transformer 網絡有廣泛噉使用開關注機制嚟實現表現力^[1]，基於卷積神經網絡嘅電腦視覺系統亦都可以用到關注機制。

最廣泛噉俾人用嘅關注技術有點積關注（dot-product attention）同埋多頭關注（multi-head attention）兩種，前者使用向量之間嘅點積嚟確定「要關注邊一點」；後者就結合唨幾種唔同嘅關注機制，嚟指導網絡或者子網絡「要關注邊一點」。

語言翻譯示例

想像家陣要整一部識將英文翻譯做法文嘅機械，首先可以用編碼器-解碼器模型挃啲關注單元（attention unit）入去：一個關注單元係一個完全連埋嘅細神經網絡，個單元捉編碼器輸出嘅加權組合饋入解碼器（參見下圖）。

結構示意圖

帶埋關注機制嘅編碼器-解碼器。幅圖使特定嘅值嚟令到字母具體意涵清晰啲（睇圖例）。左便手黑色路係編碼器-解碼器；中間橙色路係關注單元；右便手灰色佮彩色啲係啲計出嘅數據（H矩陣同埋w向量），其中啲灰色柵係啲零值

圖例
標籤	指代	大細
i-1	時間步（上一步）	-
100	最大句長
300	嵌入尺寸（詞維度）
500	隱向量嘅長度
10k	字典大細，單詞數
x, y	one-hot字典向量^{[註 1]}	10k
x, y	詞嵌入向量^{[註 2]}	300
h	編碼器隱向量^{[註 3]}	500
s	解碼器隱向量	500
E	RNN編碼器^{[註 4]}
D	2層解碼器^{[註 5]}
score	較準分值	100
w	向量關注權重^{[註 6]}	100
A	關注模塊^{[註 7]}	100
H	隱向量級聯矩陣^{[註 8]}	$500\times 100$
c	上下文向量^{[註 9]}	500

註

↑ x →x實現為查找表，而唔係向量乘法
↑ 呢枚向量通常喺其他項目（例如Glove或Word2Vec）入便預先計算得出嘅
↑ 喺每個時間點，呢枚向量都匯總嗮佢之前啲所有先前單詞。
最後個h可以當作「句子」向量，又或似Hinton稱呼到嘅Thought_vector
↑ 300 + 300輸入，500輸出
↑ 一層包含有500個神經元，另一層包含有300個神經元
↑ 戥喺學習階段改變開嘅「硬」神經元權重相反，
呢啲係喺前向嗰陣改變嘅「軟」權重。
↑ 一個完全連埋嘅網絡，佢輸出100長嘅分值
↑ 將100個隱藏向量h級聯到一個矩陣度
↑ c = H * w。
c係由w加權嘅、h枚向量嘅線性組合

逐步分析

下低張表顯示到每個時步入便嘅計算。由於英文同法文喺某啲句子有語序上嘅分別，所以示例入便用唨英文當中一句「I love you」（「我愛你」）當輸入，期望輸出法文「je t'aime」（「我你愛」）。為唨清晰，當中使唨特定嘅數值同形狀而唔係純字母。嵌套嘅形狀描述唨h嘅包含性質，其中每隻h包含有佢前面啲單詞嘅歷史記錄（表現成 ……一路喺外便加廓線）。關注分值喺度着料理好（cooked up）嚟獲得所需嘅關注權重。

步	X	h, H：編碼器輸出呢啲係500×1向量，攞形狀表示	y_i-1：到關注點嘅解碼器輸入	對齊分值	w：關注權重即softmax(score)	c：上下文向量，等於H * w	y：解碼器輸出
1	I	=「I」嘅向量編碼	-	-	-	-	-
2	love	=「I love」嘅向量編碼	-	-	-	-	-
3	you	=「I love you」嘅向量編碼	-	-	-	-	-
4	-	-	y₁仲未存在，所以改用	[.63 -3.2 -2.5 .5 .5 ...]	[.94 .02 .04 0 0 ...]	.94 * + .02 * + .04 *	je
5	-	-	y₁	[-1.5 -3.9 .57 .5 .5 ...]	[.11 .01 .88 0 0 ...]	.11 * + .01 * + .88 *	t'
6	-	-	y₂	[-2.8 .64 -3.2 .5 .5 ...]	[.03 .95 .02 0 0 ...]	.03 * + .95 * + .02 *	aime

動畫圖畀隻過程。可以睇到編碼-解碼過程。

關注權重矩陣

用矩陣形式表示返上述翻譯示例嘅關注權重，可以睇到個網絡係點樣根據上下文較返佢個關注焦點嘅。

	I	love	you
je	.94	.02	.04
t'	.11	.01	.88
aime	.03	.95	.02

呢種關注權重嘅表示形式有助於解決神經網絡經常着批評到嘅「可解釋性」問題。用呢種方式分析返啲逐字翻譯而唔考慮語序嘅網絡，就會有對角線佔優嘅矩陣，之唔同於關注機制得到嘅非對角線佔優嘅矩陣。呢種非對角線佔優嘅矩陣表明關注機制喺分析句子成份嗰陣顯得更加熹微細緻。喺第一次通過解碼器嗰陣，94％嘅關注權重擺喺第一個英語單詞「I」（「我」）度，噉網絡就畀出單詞「je」（「我」）。喺解碼器嘅第二遍，88％嘅關注權重擺喺第三個英語單詞「you」（「你」）度，噉就唔係提供「aime」（「愛」）、而係提供「t'」（「你」）。喺最後一次傳遞嗰陣，關注權重嘅95％落返第二個英語單詞「love」（「愛」）度，噉就提供「aime」（「愛」）。

變體

編碼解碼器，點積關注^[3]
編碼解碼器，QKV關注^[4]
解碼器，點積關注：
w_ij = x_i * x_j ^[5]
解碼器，QKV關注^[6]
攞全連接（FC）𤗲計算關注而咪點積相關性^[7]

圖例
標籤	描述
變量X,H,S,T	大寫表示成隻矩陣畀條句而咪畀單隻詞。譬如H係隻矩陣畀隻隱狀態喺編碼器—每棟一隻字詞
S, T	S =解碼器隱態, T = embeddings畀目標（target）詞（一般係攞到嘅輸出）。Pytorch Tutorial 變體嘅訓練階段，T交替喺兩隻源之間根據使到嘅teacher forcing程度。T可以係隻embedding畀隻網絡嘅輸出詞，即embedding(argmax(FC output))；又可以係有teacher forcing嘅情況下，T係噉係隻embedding畀隻已知嘅正確詞，隻可以係跟恆常嘅forcing概率（比如，二份一）啲出嘅。
X, H	H = 編碼器隱態, X = embeddings畀輸入啲詞
W	關注係數
Qw, Kw, Vw, FC	權重矩陣分別畀query, key, vector. FC係全連接嘅（fully connected）權重矩陣
⊕, ⊗	⊕ = 向量錔接（vector concatenation）. ⊗ = 矩陣乘法
corr	逐棟做softmax畀矩陣畀所有啲點積組合。點積可以係： *x_i x_j（喺變體3）, h_i * s*_j（喺變體1）, column_i( KwH ) * column_j( QwS ) （喺變體2）, column_i(KwX) * column_j(Qw*X) （喺變體4）；變體5使到全連接𤗲來決定啲係數。變體係QKV嘅話，點積就得到歸一化憑sqrt(d)，其中d係隻高度畀QKV啲矩陣。

考

↑ ^1.0 ^1.1 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-12-05). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].
↑ Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (2019-06-13). "Stand-Alone Self-Attention in Vision Models". arXiv:1906.05909 [cs.CV].
↑ Luong, Minh-Thang (2015-09-20). "Effective Approaches to Attention-based Neural Machine Translation". arXiv:1508.04025v5 [cs.CL].
↑ Neil Rhodes (2021). CS 152 NN—27: Attention: Keys, Queries, & Values. 時間 06:30. 喺2021-12-22搵到.
↑ Alfredo Canziani & Yann Lecun (2021). NYU Deep Learning course, Spring 2020. 時間 05:30. 喺2021-12-22搵到.
↑ Alfredo Canziani & Yann Lecun (2021). NYU Deep Learning course, Spring 2020. 時間 20:15. 喺2021-12-22搵到.
↑ Robertson, Sean. "NLP From Scratch: Translation With a Sequence To Sequence Network and Attention". pytorch.org. 喺2021-12-22搵到.

睇埋

圖神經網絡（GNN）

連出去

Alex Graves （2020年5月4日），深度學習入便嘅關注與及記憶（影片講座）， DeepMind / UCL ，透過YouTube進行。
Rasa算法白板-關注喺YouTube

[3] x →x實現為查找表，而唔係向量乘法

[4] 呢枚向量通常喺其他項目（例如Glove或Word2Vec）入便預先計算得出嘅

[5] 喺每個時間點，呢枚向量都匯總嗮佢之前啲所有先前單詞。
最後個h可以當作「句子」向量，又或似Hinton稱呼到嘅Thought_vector

[6] 300 + 300輸入，500輸出

[7] 一層包含有500個神經元，另一層包含有300個神經元

[8] 戥喺學習階段改變開嘅「硬」神經元權重相反，
呢啲係喺前向嗰陣改變嘅「軟」權重。

[9] 一個完全連埋嘅網絡，佢輸出100長嘅分值

[10] 將100個隱藏向量h級聯到一個矩陣度

[11] = H * w。
c係由w加權嘅、h枚向量嘅線性組合

[allyouneed-1] 1.0 ^1.1 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-12-05). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].

[2] Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (2019-06-13). "Stand-Alone Self-Attention in Vision Models". arXiv:1906.05909 [cs.CV].

[xy-dot-12] Luong, Minh-Thang (2015-09-20). "Effective Approaches to Attention-based Neural Machine Translation". arXiv:1508.04025v5 [cs.CL].

[xy-qkv-13] Neil Rhodes (2021). CS 152 NN—27: Attention: Keys, Queries, & Values. 時間 06:30. 喺2021-12-22搵到.

[xx-dot-14] Alfredo Canziani & Yann Lecun (2021). NYU Deep Learning course, Spring 2020. 時間 05:30. 喺2021-12-22搵到.

[xx-qkv-15] Alfredo Canziani & Yann Lecun (2021). NYU Deep Learning course, Spring 2020. 時間 20:15. 喺2021-12-22搵到.

[pytorch-tutorial-16] Robertson, Sean. "NLP From Scratch: Translation With a Sequence To Sequence Network and Attention". pytorch.org. 喺2021-12-22搵到.

[1]

[2]

[註 1]

[註 2]

[註 3]

[註 4]

[註 5]

[註 6]

[註 7]

[註 8]

[註 9]

[3]

[4]

[5]

[6]

[7]