自動總結

自動總結（粵拼：zi6 dung6 zung2 git3）係自然語言處理（NLP）上成日提到嘅一種技術。如果話一個電腦程式曉做自動總結，意思即係話呢個程式能夠^[1]：

攞一段文字或者講嘢嘅聲^{[註 1]}做 input；
畀一段新嘅字（文字或者講嘢嘅聲）做 output，而呢段新嘅字
- 短過原本 input 嗰段字，而且
- 講到嗮 input 段字最重要嗰啲資訊；

廣義化嘅話，自動總結仲可以包埋識得同圖像或者影片做總結嘅程式。廿世紀嘅研究表明，自動總結呢樣工作一啲都唔簡單－人類總結一段字嗰陣，會用到對段字嘅語義嘅理解，而到咗 2022 年代初，「理解文字嘅語義」對電腦嚟講依然係一樣困難嘅工作^[2]^[3]。

到咗廿一世紀，自動總結嘅諗頭喺資訊科技上愈嚟愈受重視：隨住互聯網同社交媒體嘅發展，人類產生嘅文字數據愈嚟愈多，數據科學等領域嘅應用工作者開始發覺，佢哋成日都要面對「手上啲數據多得滯，難以處理嗮佢哋」噉嘅情況；呢啲工作者往往希望可以有效噉做自動總結，達致「將大拃數據入面最精要嗰啲抽取出嚟」嘅效果。因為噉，唔少 AI 工作者都致力研究自動總結，想開發出更新更有效嘅自動總結演算法^[4]^{:p. 1}。

自動總結可以用抽取法同抽象法兩大種方針做^[5]^[6]。

抽取法

抽取法重點在於由段資訊入面抽取最重要嗰啲部份。喺文字自動總結當中，抽取法即係將段字裏面最「重要」嗰啲抽出嚟，攞去做 output－啲 output 會係 input 嘅子集，而個程式由頭到尾都唔會更改段字嘅內容。最基本上，抽取法可以用以下噉嘅演算法嚟想像^[7]：

開份文件嚟睇；

Foreach 句子，

以某啲基準對句句子評分；

將得分最高（或者最低）嗰 k 句句子畀出嚟做 output；

「點樣評價一句句子有幾重要」係一條幾有爭議性嘅問題。語義距離係一種比較簡單嘅做法：兩句句子之間嘅語義距離係指兩句嘢喺意思爭幾遠；原則上，如果一句句子同段字入面第啲句子之間語義距離遠^{[註 2]}，就表示佢表達到啲其餘句子表達唔到嘅意思，就理應表示佢愈值得抽出嚟做總結嘅一部份^[5]。除咗語義距離之外，仲可以睇吓機會率（一隻字重要，就表示佢大機會出現喺啲句子入面^{[註 3]}^[8]）同 tf-idf（一般認為係種比較有效噉反映到「隻字幾重要」嘅做法^[9]）等嘅概念^[4]^{:p. 2-3}。

抽象法

抽象法重點在於產生對段字嘅抽象理解。抽象法會將段字嘅語義表示成抽象化嘅符號，然後透過操作呢啲符號決定要畀咩 output，途中會改變段字嘅內容。最基本噉講，呢種做法係^[5]：

開份文件嚟睇；

睇勻文件段字；

建立一個內部模型，描述份文件有啲乜語義；

攞住個模型產生一段總結。

到咗 2020 年代為止，抽取法明顯容易啲，所以常見過抽象法。

程式評估

要評估一段自動總結演算法「有幾好」，可以有好多做法：其中一種最常用嘅做法係所謂嘅 ROUGE（全名 Recall-Oriented Understudy for Gisting Evaluation）；ROUGE 嘅基本諗頭係，人工智能最想做嘅嘢就係教電腦模仿人噉嘅智能，所以如果話一段 AI 演算法掂，即係等同話佢展現到同人類專家一樣噉嘅表現；噉講即係話，研究者會去^[10]

搵一拃由受過訓嘅人類，叫佢哋人手同拃文件做總結；
用自己設計嘅自動總結演算法同同一拃文件做總結；
比較人類專家做嘅總結同段演算法做嘅總結；
兩者愈相似，就愈表示段演算法掂。

睇埋

文獻

Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). Text summarization techniques: a brief survey (PDF). arXiv preprint arXiv:1707.02268，呢篇文綜述當時嘅文字自動總結技術。
Nenkova, A., & McKeown, K. R. (2011). Automatic Summarization. Foundations and Trends in Information Retrieval, 5(2-3), 103-233.
Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Mining text data (pp. 43-76). Springer, Boston, MA.
Passali, T., Gidiotis, A., Chatzikyriakidis, E., & Tsoumakas, G. (2021, April). Towards human-centered summarization: A case study on financial news. In Proceedings of the First Workshop on Bridging Human-Computer Interaction and Natural Language Processing (pp. 21-27).

註釋

↑ 喺廿一世紀初，對文字做嘅自動總結比較常見。
↑ 喺呢度，個程式可以用矩陣儲住數值表示每對句子之間嘅相似度。
↑ 一般認為，呢種做法比較原始，而事實係到咗 2020 年左右，啲人都已經覺得呢種做法唔係好掂。

引咗

↑ Torres-Moreno, Juan-Manuel (1 October 2014). Automatic Text Summarization. Wiley. pp. 320-
↑ Pan, Xingjia; Tang, Fan; Dong, Weiming; Ma, Chongyang; Meng, Yiping; Huang, Feiyue; Lee, Tong-Yee; Xu, Changsheng (2021-04-01). "Content-Based Visual Summarization for Image Collection". IEEE Transactions on Visualization and Computer Graphics. 27 (4): 2298-2312.
↑ Sankar K. Pal; Alfredo Petrosino; Lucia Maddalena (25 January 2012). Handbook on Soft Computing for Video Surveillance. CRC Press. pp. 81-.
↑ ^4.0 ^4.1 ^4.2 ^4.3 Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). Text summarization techniques: a brief survey (PDF). arXiv preprint arXiv:1707.02268.
↑ ^5.0 ^5.1 ^5.2 Understand Text Summarization and create your own summarizer in python. Towards Data Science.
↑ Afzal M, Alam F, Malik KM, Malik GM, Clinical Context-Aware Biomedical Text Summarization Using Deep Neural Network: Model Development and Validation, J Med Internet Res 2020;22(10):e19810, DOI: 10.2196/19810, PMID 33095174.
↑ Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Mining text data (pp. 43-76). Springer, Boston, MA.
↑ Vanderwende, L., Suzuki, H., Brockett, C., & Nenkova, A. (2007). Beyond SumBasic: Task-focused summarization with sentence simplification and lexical expansion. Information Processing & Management, 43(6), 1606-1618.
↑ Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information processing & management, 24(5), 513-523.
↑ Lin, C. Y. (2004, July). Rouge: A package for automatic evaluation of summaries (PDF). In Text summarization branches out (pp. 74-81).

拎

（英文）明白自動總結，Towards Data Science.

[2] 喺廿一世紀初，對文字做嘅自動總結比較常見。

[9] 喺呢度，個程式可以用矩陣儲住數值表示每對句子之間嘅相似度。

[10] 一般認為，呢種做法比較原始，而事實係到咗 2020 年左右，啲人都已經覺得呢種做法唔係好掂。

[1] Torres-Moreno, Juan-Manuel (1 October 2014). Automatic Text Summarization. Wiley. pp. 320-

[3] Pan, Xingjia; Tang, Fan; Dong, Weiming; Ma, Chongyang; Meng, Yiping; Huang, Feiyue; Lee, Tong-Yee; Xu, Changsheng (2021-04-01). "Content-Based Visual Summarization for Image Collection". IEEE Transactions on Visualization and Computer Graphics. 27 (4): 2298-2312.

[4] Sankar K. Pal; Alfredo Petrosino; Lucia Maddalena (25 January 2012). Handbook on Soft Computing for Video Surveillance. CRC Press. pp. 81-.

[allahyari2017-5] 4.0 ^4.1 ^4.2 ^4.3 Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). Text summarization techniques: a brief survey (PDF). arXiv preprint arXiv:1707.02268.

[towardsdatascienceintro-6] 5.0 ^5.1 ^5.2 Understand Text Summarization and create your own summarizer in python. Towards Data Science.

[7] Afzal M, Alam F, Malik KM, Malik GM, Clinical Context-Aware Biomedical Text Summarization Using Deep Neural Network: Model Development and Validation, J Med Internet Res 2020;22(10):e19810, DOI: 10.2196/19810, PMID 33095174.

[8] Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Mining text data (pp. 43-76). Springer, Boston, MA.

[11] Vanderwende, L., Suzuki, H., Brockett, C., & Nenkova, A. (2007). Beyond SumBasic: Task-focused summarization with sentence simplification and lexical expansion. Information Processing & Management, 43(6), 1606-1618.

[12] Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information processing & management, 24(5), 513-523.

[13] Lin, C. Y. (2004, July). Rouge: A package for automatic evaluation of summaries (PDF). In Text summarization branches out (pp. 74-81).

[1]

[註 1]

[2]

[3]

[4]

[5]

[6]

[7]

[註 2]

[註 3]

[8]

[9]

[10]