機械翻譯嘅評估

機械翻譯嘅評估係指「評估一個 MT 程式嘅 output」。

評估係 MT 上一項重要嘅工序：無論係邊門工程學都好，研究者喺設計一件嘢嗰陣都實要評估件嘢「有幾掂」，件嘢解決問題嘅能力要有返咁上下勁，先至可以攞去出街當產品噉賣。不過 MT 評估一啲都唔易做－首先，翻譯呢家嘢有啲主觀，一位專家覺得掂嘅翻譯，另一位專家可能會覺得唔掂；除此之外，同一句句子要譯做第隻語言，好多時會有多過一個可能嘅譯法，而且兩個譯法都係普遍畀人覺得係可以接受嘅。

評估嘅等級

評估單位要係句子（sentence-level）定係成份文件（document-level）？如果話「用句子做評估單位」，意思係指研究者會將啲句子逐句逐句攞嚟睇，睇吓係咪句句都「譯得靚」，而如果話「用成份文件做評估單位」，意思係指研究者會一吓過睇嗮成段字，即係會諗埋「某啲語言，可能會慣例上將某啲類嘅句子擺喺段落最頭」噉嘅問題^[1]。

夠掂同流暢

夠掂同流暢（adequacy and fluency）：呢個概念係講緊「評估重心要係語義定係句法？」噉嘅問題；

「評估重點係語義」（夠掂）意思係指，研究者睇重嘅係要將句嘢包含嘅意思全部 output 好佢，而
「評估重點係句法」（流暢）意思係指，研究者想個 MT 程式出到嘅 output 要「好似一個能夠流暢使用目標語言嘅人」噉，

所以如果有句 output 係「以目標語言做母語嘅人 get1 到想講乜，但文法唔係好啱」嘅，追求「夠掂」嘅研究者會接受，而追求「流暢」嘅研究者就唔會^[2]。

人手評估

用人手嚟評估 MT 系統嘅做法如下。

首先，研究者要搵一大班人返嚟做評判，評判一定要係識目標語言又識來源語言嘅。喺實際應用上，評判好多時仲會係對翻譯起碼有啲認識嘅人^{[註 1]}。

假定而家有 5 個英到粵 MT 系統要評估，研究者會要求啲評判坐定定喺部電腦前面，電腦嘅熒幕會顯示類似噉嘅字：

來源句子："The vault to which I refer is of ancient granite." ^[3]

對照粵譯：「我講緊嘅嗰個暗窖係用古老嘅麻石造嘅。」

唔該同以下嘅譯法排先後，表示啲譯法邊個最好邊個最差，最好嘅排先，最差嘅排後^{[註 2]}。

譯法 1：「我提到嗰個暗窖係由遠古麻石造嘅。」

譯法 2：「我講嘅嗰個暗窖係用古老麻石起嘅。」

譯法 3：「我講嗰個暗窖係用古老麻石起出嚟嘅。」

譯法 4：「我講嘅嗰一個暗窖係用古老麻石起出嚟嘅。」

譯法 5：「我提到嘅嗰個暗窖係用古麻石砌出嚟嘅。」

可以用下面嘅空間畀答案。
...

－當中嗰 5 個譯法，就係 5 個 MT 系統分別出嘅 output。正常嚟講，啲 output 嘅出現次序係隨機化嘅，即係唔會（例如）其中一個系統出嘅 output 永遠擺喺「譯法 1」嗰個位，費事「句子出現嘅次序」對研究結果造成干擾。

研究者會重複噉要評判睇好似上面噉嘅問題，可能睇成幾千次。搞掂之後，研究者手上就會有一拃數據，啲數據會（簡化噉講）包含「每一句 input，嗰 5 個系統平均喺嗰句 input 上得到幾高嘅名次」噉嘅資訊^{[註 3]}，跟住研究者就有得睇吓「邊個系統傾向攞到高嘅名次」^{[註 4]}－名次傾向高嗰個 MT 系統，就算係「最掂」^[4]。

自動評估

註釋

↑ 因為噉，「請評判返嚟幫手評估 MT」要使相當多嘅錢。
↑ 亦都有啲研究者係叫評判同每個譯法畀個分數，分數表示個譯法「有幾好」。
↑ 正常嚟講，研究者仲會睇埋評分者間信度。
↑ 技術性啲講，亦可以用 TrueSkill 呢隻演算法嚟分析。

攷

↑ Liu, S., & Zhang, X. (2020, May). Corpora for document-level neural machine translation. In Proceedings of the 12th Language Resources and Evaluation Conference (pp. 3775-3781).
↑ Banchs, R. E., D'Haro, L. F., & Li, H. (2015). Adequacy-fluency metrics: Evaluating mt in the continuous space model framework. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 23(3), 472-482.
↑ 句嘢出自 1922 年 H. P. Lovecraft 短篇小說 The Tomb。
↑ Graham, Y. (2013). Continuous measurement scales in human evaluation of machine translation. Association for Computational Linguistics.

拎

[1]

[3] 因為噉，「請評判返嚟幫手評估 MT」要使相當多嘅錢。

[5] 亦都有啲研究者係叫評判同每個譯法畀個分數，分數表示個譯法「有幾好」。

[6] 正常嚟講，研究者仲會睇埋評分者間信度。

[7] 技術性啲講，亦可以用 TrueSkill 呢隻演算法嚟分析。

[1] Liu, S., & Zhang, X. (2020, May). Corpora for document-level neural machine translation. In Proceedings of the 12th Language Resources and Evaluation Conference (pp. 3775-3781).

[2] Banchs, R. E., D'Haro, L. F., & Li, H. (2015). Adequacy-fluency metrics: Evaluating mt in the continuous space model framework. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 23(3), 472-482.

[4] 句嘢出自 1922 年 H. P. Lovecraft 短篇小說 The Tomb。

[8] Graham, Y. (2013). Continuous measurement scales in human evaluation of machine translation. Association for Computational Linguistics.

[1]

[2]

[註 1]

[3]

[註 2]

[註 3]

[註 4]

[4]