規則為本機械翻譯

規則為本機械翻譯英文Rule-based machine translation,RBMT)係機械翻譯嘅一種做法,教部電腦靠一啲明文噉講出嚟嘅法則做翻譯。

RBMT 會用語料庫嘅技巧進行複雜啲嘅翻譯,等部機識得處理語言嘅類型學、短語同識別嘅差異、同埋成語嘅翻譯,或者隔離咗啲異常嘢去。

基本步驟

編輯

想像家陣要將英文譯做粵文,可以用以下呢三樣嘢[1][2]

  • 要有本字典做到將英文入面每隻字轉做粵文入面「對應」嘅字;
  • 要有拃法則表示英文入面嘅句子結構
  • 要有拃法則表示粵文入面嘅句子結構;

跟住部機就可以用以下嘅步驟做翻譯:

  1. 攞要翻譯嘅文字做 input,例如家陣想將英文句子 the girl eats an apple 譯做粵文;
  2. 同 input 入面每隻字標注好佢係咩詞性,睇返例句-the = 指定冠詞girl = 名詞eats = 動詞an = 非指定冠詞apple = 名詞;
  3. 對句嘢做解析(知清楚啲字之間嘅句法關係),睇返例句- eats 係簡單現在式,第三身,主動,而 eats受詞apple
  4. 將句嘢啲字轉換做粵文,睇返例句-
    • the = 嗰個
    • girl = 女仔
    • eat =
    • an = 一個
    • apple = 蘋果
  5. 將啲字砌埋做一句粵文句子-嗰個女仔食一個蘋果,俾出嚟做 output [註 1]

問題

編輯
睇埋:不確定性

RBMT 就噉睇好似掂噉,但查實有好多問題都係佢處理唔嚟嘅:事實表明,呢種做法

  • 應付歧義嗰陣好撈絞-吓吓都要人手教部電腦「呢隻呢隻字有咁多隻可能意思,喺情況 A 下當係意思 A、喺情況 B 下當係意思 B...」等嘅資訊;
  • 而且用呢種方法做 NLP 嘅電腦亦都唔會識處理反話語言演變嘅問題。

註釋

編輯
  1. 喺某啲語言當中,仲要諗埋詞形變化

睇埋

編輯
  1. Forcada, M. L., Ginestí-Rosell, M., Nordfalk, J., O’Regan, J., Ortiz-Rojas, S., Pérez-Ortiz, J. A., ... & Tyers, F. M. (2011). Apertium: a free/open-source platform for rule-based machine translation. Machine translation, 25(2), 127-144.
  2. Charoenpornsawat, P., Sornlertlamvanich, V., & Charoenporn, T. (2002). Improving translation quality of rule-based machine translation. In COLING-02: machine translation in Asia.