機械翻譯粵拼gei1 haai6 faan1 jik6英文machine translation,MT),或者叫機器翻譯,有陣時會簡稱機翻,係電算語言學(computational linguistics)嘅一個子領域,專門研究點樣用電腦軟件嚟幫手翻譯一啲用自然語言寫嘅文-「自然語言」係指好似廣東話同英文呢啲人類日常講嘢會用嘅語言[1][2][3][4][5]

Google 翻譯個嘜頭;Google 翻譯用咗機械翻譯嘅技術。

喺最基本嘅層次,機翻嘅做法可以係將一種語言嘅字直接換做目標語言當中「相應」嘅字,但現實係,靠呢種做法通常都唔會俾到理想嘅翻譯出嚟-呢種做法得出嘅結果幾乎實要用人手執吓先至會靚。要翻譯得流暢,部機器要識得睇嗮成句句子,甚至乎係成段嘢,了解嗮當中每一個字嘅意思,先至決定俾啲乜嘢輸出好[6]。舉個簡單嘅例子嚟說明,以下有兩句英文句子:

句子 1:The thriller movie is disturbing.
句子 2:The noises he makes are disturbing.

喺以上呢兩句句子裏面,講緊嘢嗰個人都用咗「disturbing」呢個形容詞,但係呢個字要譯做粵文嘅話就起碼有兩個可能嘅意思:呢個字就噉睇可以譯做「令人不安」噉解,但係譯做「令人覺得佢煩」噉解又得[7],所以對於呢個字要點譯,就一定要睇嗮成句句子先可以做決定:句子 1 用「disturbing」嚟形容一套驚慄片,而句子 2 就用「disturbing」嚟形容某個人所發出嘅噪音。一般會認為喺前者嘅情況當中,「disturbing」比較可能係指「令人不安」,而喺後者嘅情況入面,呢個字就比較可能係指「令人覺得佢煩」。由呢個例子睇得出,一個字嘅意思可能會因為成句句子或者成段嘢當中嘅其他字而有所不同[1][8]。一個完善嘅機翻程式一定要識處理自然語言當中嘅呢類細微問題,而呢個過程通常要用到統計學同埋人工神經網絡等嘅技巧[1][2][9]

機翻技術好有潛質。自從 1950 年代嗰陣開始,學界對機翻經已有唔少嘅討論,當中有唔少相關領域嘅科學家都唔覺得機翻會有一日完全取代人手翻譯[10][11]。到咗廿一世紀,隨住機翻技術嘅進步,機翻經已成功噉俾人類廣泛噉用嚟幫手做翻譯,而喺某啲情況裏面,機翻俾出嚟嘅輸出仲可以直接-即係唔使經人手執-攞嚟用,好似係對天氣報告嘅翻譯就係噉樣[1]

概論

 
一個譯到鬼五馬六嘅餐牌(簡體中文);就噉將一種語言嘅字直接換做目標語言當中「相應」嘅字好多時會俾到令人啼笑皆非嘅輸出。

核心問題

睇埋:翻譯

用人手做翻譯嘅過程大致上如下[12]

  1. 解讀源文段字嘅意思;
  2. 將呢啲意思重新噉用目標語言表達出嚟。

呢個過程就噉睇好似簡單得好交關,但係實際上佢背後有住一柞好複雜嘅認知作業[13]。要將源文段字嘅意思完全噉解讀嗮出嚟嘅話,個翻譯者實要分析嗮成段字嘅特徵-呢個過程要求個翻譯者要好詳細噉了解嗰隻語言嘅文法語義句法慣用語、以至講嗰隻語言嗰班人嘅文化。同一道理,個翻譯者亦都要對隻目標語言有深入嘅認識[12]。而機械翻譯呢個領域最主要嘅挑戰就在於要點先至可以寫一啲程式令到一部電腦曉學人噉樣做呢個過程,而且俾出嚟嘅輸出仲要係望落同人手做嘅冇分別嘅

基於規則

內文:基於規則機械翻譯

基於規則機械翻譯(ruled-based machine translation;RBMT)主要係喺整字典同埋文法程式嗰陣用嘅,會運用對來源語言同目標語言嘅文法嘅認識同埋對兩隻語言嘅語義嘅分析。基本嘅做法係用對來源語言嘅分析將輸入嗰句嘢嘅結構同輸出嗰句嘢嘅結構連繫埋一齊,再產生一句輸出嘅句子[14]。例如係以下呢段翻譯噉:

英文句子:A girl eats an apple.
目標語言:廣東話

RBMT 會揾本字典將原句句子嘅每個字揾個對應嘅廣東話字:「A」係「個」,「girl」係「女仔」,「eat」係「食」等等。跟手 RBMT 會分析英文同粵文分別嘅造句法則,再用揾出嗰啲對應字用粵文造句法則砌返句句子出嚟,跟手就會俾呢個輸出:「個女仔食個蘋果」。RBMT 會用語料庫嘅技巧進行複雜啲嘅翻譯,等部機識得處理語言嘅類型學、短語同識別嘅差異、同埋成語嘅翻譯,或者隔離咗啲異常嘢去。

RBMT 最大嘅問題係,要用佢做翻譯就實要將兩種語言內含嘅規則明文噉列嗮出嚟,但係呢個做法有唔少問題:一,語言呢家嘢有陣時有好多不成文嘅規定嘅,例如「某某食某樣嘢」喺廣東話入面聽落有啲怪-喺描述動作嗰陣,廣東話比較常會講「某某食緊某樣嘢」或者「某某食咗某樣嘢」,但係呢條係不成文嘅規則;二,用 RBMT 嘅人仲要同部電腦講好嗮所有有關歧義要點處理嘅法則,例如對於「disturbing」呢個字應該對應「令人不安」定係「令人覺得佢煩」,寫 RBMT 機翻程式嗰個人一定要指定好嗮喺乜嘢情況下譯做前者,乜嘢情況下譯做後者,但係英文(同埋其他主要語言)入面有過萬個字-要逐個逐個字指明嗮呢啲法則好多時根本就唔可行。因為噉,RBMT 有好多限制,喺好多情況之下都行唔通。

統計

內文:統計機械翻譯

統計機械翻譯(statistical machine translation;SMT)會嘗試用統計學嘅方法嚟做機翻。呢種機翻嘅原理係揾一大柞(事先人手翻譯咗嘅)兩種語言嘅句子返嚟做樣本,再寫啲程式去教部電腦揾出唔同字之間嘅統計關係。舉個例說明:如果部電腦撞到一句英文句子入面有「disturbing」呢個字,噉佢會嘗試透過啲樣本嚟計吓個字應該譯做「令人不安」嘅機會率係幾多幾多,同埋呢個機會率會點樣隨住「句句子入面仲有乜嘢字」變化(如果個字俾寫嘢嗰個人用嚟形容一套驚慄片,噉應該譯做「令人不安」嘅機會率就會高啲)。喺部電腦處理完個樣本之後,佢內部會產生一個統計模型,而呢個統計模型嗰柞參數會由個樣本嗰度導出[15]。一般嚟講,個樣本愈大,統計機翻嘅準確性就愈高[16]。到咗廿一世紀,世界上有多個政府都興用呢種手法翻譯佢哋啲文件,例如加拿大嘅聯邦政府就用咗呢種方法同佢啲文件做英(佢嗰兩個官方語言)翻譯[17],而且 Google 翻譯都有用咗呢種手法[18]

統計機翻相當受歡迎,有唔少科學家都想進一步發展佢,甚至有人提倡話再進步啲嘅統計機翻能夠淨係用一種語言嘅樣本就可以做到機翻[19]

混合型

內文:混合型機械翻譯

混合型機械翻譯(hybrid machine translation;HMT)係指運用多過一種手法做機翻嘅方法[20]。有多個做機翻方面工作嘅組織都興結合基於規則方法同統計方法嚟做機翻,而佢哋主要有兩大做法:

  • 用統計處理過嘅規則(rules post-processed by statistics):個程式會用明文規則嚟做翻譯,但係啲規則唔係由個程式員指定嘅,而係由個程式自己由數據嗰度推論出嚟嘅。
  • 用規則引導統計(statistics guided by rules):個程式會用(好多時由語言學嗰度學到嘅)明文規則引導統計,亦都會用規則及後處理統計翻譯所俾嘅結果。呢種做法喺做翻譯嗰陣有大好多嘅彈性同控制,而且仲俾個設計者有得控制個程式喺翻譯前後點樣處理段文字嘅內容。

神經

內文:神經機械翻譯

神經機械翻譯(neural machine translation;NMT)係廿一世紀初興起嘅一種機翻手法,連 Google 都開始用神經機翻取代舊陣時嗰啲機翻方法[21]。神經機翻係指運用人工神經網絡(artificial neural network)嚟做機翻。人工神經網絡係一種特殊嘅電腦程式,會攞一啲特定嘅輸入,再靠一大柞-閒閒地數以百計嘅-人工神經細胞做運算,每一粒人工神經細胞都會按照佢由第啲神經細胞嗰度收到嘅輸入運算一個輸出數值,最後俾出一個運算結果。如果有一個極龐大-有數以萬計嘅神經細胞-嘅人工神經網絡嘅輸入設做(例如)一篇來源語言嘅文章,而輸出設做目標語言嘅譯文,就有可能做到機翻[22][23][24][25]

主要技術問題

評估機翻

機翻本體

手語機翻

應用

機翻史

內文:機械翻譯史

機械翻譯嘅意見可能會搵返去喺十七世紀度。喺1629年, René Descartes 建議整個普及嘅語言同啲相關嘅意見喺唔同嘅發音分享一個標誌。"機械翻譯"個區入面所出現嘅會喺Warren Weaver備忘錄嘅翻譯度 (1949年). 第一個搜索嘅人喺個區入面係 Yehosha Bar-Hillel, 佢開始去進行佢嘅搜索喺MIT 嗰度(1951年)。搜索者繼續咁樣去加入個區域機械翻譯同電腦性共同語嘅組織邊個係喺美國度組成嘅 (1962年)。1972年,佢畀保護性搜索同工程總監(簡稱DDR&E)寫報告, 全面MT嘅可能性已經重新再建立嘅由啲成功嘅MT系統喺翻緊譯軍用手册轉成越南文當打緊仗嘅時候。

睇埋

參考同工具

基礎知識

日本

20世紀80年代末,日本文部省大藏省都極力主張大搞人工智能同機器譯,並由野村研究所專門負責協調各項MT技術研究。搞出好多款實用嘅MT軟體,以下為有代表性嘅幾款。

經典書籍

Hutchins, W. John (1992). 械翻譯導論 —— An Introduction to Machine Translation. London: Academic Press. ISBN 0-12-362830-X. {{cite book}}: Unknown parameter |coauthors= ignored (|author= suggested) (help)

  • 機械翻譯文獻網 —— 該網址由以上同一作者維護,An electronic repository (and bibliography) of articles, books and papers in the field of machine translation and computer-based translation technology

機翻引擎

  1. 1.0 1.1 1.2 1.3 Brown, P. F., Cocke, J., Pietra, S. A. D., Pietra, V. J. D., Jelinek, F., Lafferty, J. D., ... & Roossin, P. S. (1990). A statistical approach to machine translation. Computational linguistics, 16(2), 79-85.
  2. 2.0 2.1 Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
  3. Somers, H. (1999). Example-based machine translation. Machine translation, 14(2), 113-157.
  4. Machine Translation | SYSTRAN Technologies.
  5. Dare, M., Diaz, V. F., So, A. H. Z., Wang, Y., & Zhang, S. (2023). Unsupervised Mandarin-Cantonese Machine Translation (PDF). arXiv preprint arXiv:2301.03971.
  6. Albat, Thomas Fritz. "Systems and Methods for Automatically Estimating a Translation Time." US Patent 0185235, 19 July 2012.
  7. Definition of 'disturbing'. Collins English Dictionary.
  8. Importance of Context in Translation 互聯網檔案館歸檔,歸檔日期2021年1月26號,..
  9. Mikolov, T., Karafiát, M., Burget, L., Černocký, J., & Khudanpur, S. (2010). Recurrent neural network based language model. In Eleventh annual conference of the international speech communication association.
  10. Yehoshua Bar-Hillel (1964). Language and Information: Selected Essays on Their Theory and Application. Reading, MA: Addison-Wesley. pp. 174–179.
  11. "Madsen, Mathias: The Limits of Machine Translation (2010)". Docs.google.com.
  12. 12.0 12.1 Kelly, Nataly; Zetzsche, Jost (2012). Found in Translation: How Language Shapes Our Lives and Transforms the World. TarcherPerigee.
  13. Gutt, E. A. (2014). Translation and relevance: Cognition and context. Routledge.
  14. Nirenburg, Sergei (1989). "Knowledge-Based Machine Translation". Machine Trandation 4 (1989), 5 - 24. Kluwer Academic Publishers.
  15. Philipp Koehn (2009). Statistical Machine Translation. Cambridge University Press. p. 27. ISBN 0521874157. Retrieved 22 March 2015. Statistical machine translation is related to other data-driven methods in machine translation, such as the earlier work on example-based machine translation. Contrast this to systems that are based on hand-crafted rules.
  16. "Inside Google Translate – Google Translate".
  17. Hoy, Claire. Nice Work: The Continuing Scandal of Canada's Senate, p. 165.
  18. "Google Translator: The Universal Language". Blog.outer-court.com.
  19. Tambouratzis, G., Sofianopoulos, S., & Vassiliou, M. (2013). Language-independent hybrid MT with PRESEMT. In Proceedings of the Second Workshop on Hybrid Approaches to Translation (pp. 123-130).
  20. Adam Boretz. "Boretz, Adam, "AppTek Launches Hybrid Machine Translation Software" SpeechTechMag.com (posted 2 MAR 2009)". Speechtechmag.com.
  21. Google's neural network learns to translate languages it hasn't been trained on.
  22. EU Spends EUR 1.9m to Customize MT for State and Regional Authorities.
  23. KantanMT Users Can Now Customise and Deploy Neural Machine Translation Engines.
  24. Omniscien Technologies Announces Release of Language Studio™ with Next-Generation NMT Technology.
  25. SDL Adds Neural Machine Translation to Its Enterprise Translation Server.