機械翻譯嘅評估係指「評估一個 MT 程式嘅 output」。

評估係 MT 上一項重要嘅工序:無論係邊門工程學都好,研究者喺設計一件嘢嗰陣都實要評估件嘢「有幾掂」,件嘢解決問題嘅能力要有返咁上下勁,先至可以攞去出街當產品噉賣。不過 MT 評估一啲都唔易做-首先,翻譯呢家嘢有啲主觀,一位專家覺得掂嘅翻譯,另一位專家可能會覺得唔掂;除此之外,同一句句子要譯做第隻語言,好多時會有多過一個可能嘅譯法,而且兩個譯法都係普遍畀人覺得係可以接受嘅。

評估嘅等級

編輯

評估單位要係句子(sentence-level)定係成份文件(document-level)?如果話「用句子做評估單位」,意思係指研究者會將啲句子逐句逐句攞嚟睇,睇吓係咪句句都「譯得靚」,而如果話「用成份文件做評估單位」,意思係指研究者會一吓過睇嗮成段字,即係會諗埋「某啲語言,可能會慣例上將某啲類嘅句子擺喺段落最頭」噉嘅問題[1]

夠掂同流暢

編輯

夠掂同流暢(adequacy and fluency):呢個概念係講緊「評估重心要係語義定係句法?」噉嘅問題;

  • 「評估重點係語義」(夠掂)意思係指,研究者睇重嘅係要將句嘢包含嘅意思全部 output 好佢,而
  • 「評估重點係句法」(流暢)意思係指,研究者想個 MT 程式出到嘅 output 要「好似一個能夠流暢使用目標語言嘅人」噉,

所以如果有句 output 係「以目標語言做母語嘅人 get1 到想講乜,但文法唔係好啱」嘅,追求「夠掂」嘅研究者會接受,而追求「流暢」嘅研究者就唔會[2]

人手評估

編輯

用人手嚟評估 MT 系統嘅做法如下。

首先,研究者要搵一大班人返嚟做評判,評判一定要係識目標語言又識來源語言嘅。喺實際應用上,評判好多時仲會係對翻譯起碼有啲認識嘅人[註 1]

假定而家有 5 個英到粵 MT 系統要評估,研究者會要求啲評判坐定定喺部電腦前面,電腦嘅熒幕會顯示類似噉嘅字:

來源句子:"The vault to which I refer is of ancient granite." [3]
對照粵譯:「我講緊嘅嗰個暗窖係用古老嘅麻石造嘅。」

唔該同以下嘅譯法排先後,表示啲譯法邊個最好邊個最差,最好嘅排先,最差嘅排後[註 2]

譯法 1:「我提到嗰個暗窖係由遠古麻石造嘅。」
譯法 2:「我講嘅嗰個暗窖係用古老麻石起嘅。」
譯法 3:「我講嗰個暗窖係用古老麻石起出嚟嘅。」
譯法 4:「我講嘅嗰一個暗窖係用古老麻石起出嚟嘅。」
譯法 5:「我提到嘅嗰個暗窖係用古麻石砌出嚟嘅。」

可以用下面嘅空間畀答案。

...

-當中嗰 5 個譯法,就係 5 個 MT 系統分別出嘅 output。正常嚟講,啲 output 嘅出現次序係隨機化嘅,即係唔會(例如)其中一個系統出嘅 output 永遠擺喺「譯法 1」嗰個位,費事「句子出現嘅次序」對研究結果造成干擾

研究者會重複噉要評判睇好似上面噉嘅問題,可能睇成幾千次。搞掂之後,研究者手上就會有一拃數據,啲數據會(簡化噉講)包含「每一句 input,嗰 5 個系統平均喺嗰句 input 上得到幾高嘅名次」噉嘅資訊[註 3],跟住研究者就有得睇吓「邊個系統傾向攞到高嘅名次」[註 4]-名次傾向高嗰個 MT 系統,就算係「最掂」[4]

自動評估

編輯
内文:BLEU

註釋

編輯
  1. 因為噉,「請評判返嚟幫手評估 MT」要使相當多嘅錢。
  2. 亦都有啲研究者係叫評判同每個譯法畀個分數,分數表示個譯法「有幾好」。
  3. 正常嚟講,研究者仲會睇埋評分者間信度
  4. 技術性啲講,亦可以用 TrueSkill 呢隻演算法嚟分析。
  1. Liu, S., & Zhang, X. (2020, May). Corpora for document-level neural machine translation. In Proceedings of the 12th Language Resources and Evaluation Conference (pp. 3775-3781).
  2. Banchs, R. E., D'Haro, L. F., & Li, H. (2015). Adequacy-fluency metrics: Evaluating mt in the continuous space model framework. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 23(3), 472-482.
  3. 句嘢出自 1922 年 H. P. Lovecraft 短篇小說 The Tomb
  4. Graham, Y. (2013). Continuous measurement scales in human evaluation of machine translation. Association for Computational Linguistics.