自動總結粵拼zi6 dung6 zung2 git3)係自然語言處理(NLP)上成日提到嘅一種技術。如果話一個電腦程式曉做自動總結,意思即係話呢個程式能夠[1]

  • 攞一段文字或者講嘢[註 1]input
  • 畀一段新嘅字(文字或者講嘢嘅聲)做 output,而呢段新嘅字
    • 短過原本 input 嗰段字,而且
    • 講到嗮 input 段字最重要嗰啲資訊
2013 年法國一拃檔案;拃檔案咁多,有冇方法可以教電腦一嘢睇嗮啲檔案,再用短短哋一段字總結嗮啲資訊佢呢?

廣義化嘅話,自動總結仲可以包埋識得同圖像或者影片做總結嘅程式。廿世紀嘅研究表明,自動總結呢樣工作一啲都唔簡單-人類總結一段字嗰陣,會用到對段字嘅語義理解,而到咗 2022 年代初,「理解文字嘅語義」對電腦嚟講依然係一樣困難嘅工作[2][3]

到咗廿一世紀,自動總結嘅諗頭喺資訊科技上愈嚟愈受重視:隨住互聯網社交媒體嘅發展,人類產生嘅文字數據愈嚟愈多,數據科學等領域嘅應用工作者開始發覺,佢哋成日都要面對「手上啲數據多得滯,難以處理嗮佢哋」噉嘅情況;呢啲工作者往往希望可以有效噉做自動總結,達致「將大拃數據入面最精要嗰啲抽取出嚟」嘅效果。因為噉,唔少 AI 工作者都致力研究自動總結,想開發出更新更有效嘅自動總結演算法[4]:p. 1

自動總結可以用抽取法抽象法兩大種方針做[5][6]

抽取法

編輯
睇埋:語義距離

抽取法重點在於由段資訊入面抽取最重要嗰啲部份。喺文字自動總結當中,抽取法即係將段字裏面最「重要」嗰啲抽出嚟,攞去做 output-啲 output 會係 input 嘅子集,而個程式由頭到尾都唔會更改段字嘅內容。最基本上,抽取法可以用以下噉嘅演算法嚟想像[7]

開份文件嚟睇;
Foreach 句子
以某啲基準對句句子評分;
將得分最高(或者最低)嗰 k 句句子畀出嚟做 output;

「點樣評價一句句子有幾重要」係一條幾有爭議性嘅問題。語義距離係一種比較簡單嘅做法:兩句句子之間嘅語義距離係指兩句嘢喺意思爭幾遠;原則上,如果一句句子同段字入面第啲句子之間語義距離遠[註 2],就表示佢表達到啲其餘句子表達唔到嘅意思,就理應表示佢愈值得抽出嚟做總結嘅一部份[5]。除咗語義距離之外,仲可以睇吓機會率(一隻字重要,就表示佢大機會出現喺啲句子入面[註 3][8])同 tf-idf(一般認為係種比較有效噉反映到「隻字幾重要」嘅做法[9])等嘅概念[4]:p. 2-3

抽象法

編輯

抽象法重點在於產生對段字嘅抽象理解。抽象法會將段字嘅語義表示成抽象化嘅符號,然後透過操作呢啲符號決定要畀咩 output,途中改變段字嘅內容。最基本噉講,呢種做法係[5]

開份文件嚟睇;
睇勻文件段字;
建立一個內部模型,描述份文件有啲乜語義
攞住個模型產生一段總結。

到咗 2020 年代為止,抽取法明顯容易啲,所以常見過抽象法。

程式評估

編輯

要評估一段自動總結演算法「有幾好」,可以有好多做法:其中一種最常用嘅做法係所謂嘅 ROUGE(全名 Recall-Oriented Understudy for Gisting Evaluation);ROUGE 嘅基本諗頭係,人工智能最想做嘅嘢就係教電腦模仿噉嘅智能,所以如果話一段 AI 演算法掂,即係等同話佢展現到同人類專家一樣噉嘅表現;噉講即係話,研究者會去[10]

  1. 搵一拃由受過訓嘅人類,叫佢哋人手同拃文件做總結;
  2. 用自己設計嘅自動總結演算法同同一拃文件做總結;
  3. 比較人類專家做嘅總結同段演算法做嘅總結;
  4. 兩者愈相似,就愈表示段演算法掂。

睇埋

編輯

文獻

編輯
  • Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). Text summarization techniques: a brief survey (PDF). arXiv preprint arXiv:1707.02268,呢篇文綜述當時嘅文字自動總結技術。
  • Nenkova, A., & McKeown, K. R. (2011). Automatic Summarization. Foundations and Trends in Information Retrieval, 5(2-3), 103-233.
  • Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Mining text data (pp. 43-76). Springer, Boston, MA.
  • Passali, T., Gidiotis, A., Chatzikyriakidis, E., & Tsoumakas, G. (2021, April). Towards human-centered summarization: A case study on financial news. In Proceedings of the First Workshop on Bridging Human-Computer Interaction and Natural Language Processing (pp. 21-27).

註釋

編輯
  1. 喺廿一世紀初,對文字做嘅自動總結比較常見。
  2. 喺呢度,個程式可以用矩陣儲住數值表示每對句子之間嘅相似度。
  3. 一般認為,呢種做法比較原始,而事實係到咗 2020 年左右,啲人都已經覺得呢種做法唔係好掂。

引咗

編輯
  1. Torres-Moreno, Juan-Manuel (1 October 2014). Automatic Text Summarization. Wiley. pp. 320-
  2. Pan, Xingjia; Tang, Fan; Dong, Weiming; Ma, Chongyang; Meng, Yiping; Huang, Feiyue; Lee, Tong-Yee; Xu, Changsheng (2021-04-01). "Content-Based Visual Summarization for Image Collection". IEEE Transactions on Visualization and Computer Graphics. 27 (4): 2298-2312.
  3. Sankar K. Pal; Alfredo Petrosino; Lucia Maddalena (25 January 2012). Handbook on Soft Computing for Video Surveillance. CRC Press. pp. 81-.
  4. 4.0 4.1 4.2 4.3 Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). Text summarization techniques: a brief survey (PDF). arXiv preprint arXiv:1707.02268.
  5. 5.0 5.1 5.2 Understand Text Summarization and create your own summarizer in python. Towards Data Science.
  6. Afzal M, Alam F, Malik KM, Malik GM, Clinical Context-Aware Biomedical Text Summarization Using Deep Neural Network: Model Development and Validation, J Med Internet Res 2020;22(10):e19810, DOI: 10.2196/19810, PMID 33095174.
  7. Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Mining text data (pp. 43-76). Springer, Boston, MA.
  8. Vanderwende, L., Suzuki, H., Brockett, C., & Nenkova, A. (2007). Beyond SumBasic: Task-focused summarization with sentence simplification and lexical expansion. Information Processing & Management, 43(6), 1606-1618.
  9. Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information processing & management, 24(5), 513-523.
  10. Lin, C. Y. (2004, July). Rouge: A package for automatic evaluation of summaries (PDF). In Text summarization branches out (pp. 74-81).