自動總結
自動總結(粵拼:zi6 dung6 zung2 git3)係自然語言處理(NLP)上成日提到嘅一種技術。如果話一個電腦程式曉做自動總結,意思即係話呢個程式能夠[1]:
廣義化嘅話,自動總結仲可以包埋識得同圖像或者影片做總結嘅程式。廿世紀嘅研究表明,自動總結呢樣工作一啲都唔簡單-人類總結一段字嗰陣,會用到對段字嘅語義嘅理解,而到咗 2022 年代初,「理解文字嘅語義」對電腦嚟講依然係一樣困難嘅工作[2][3]。
到咗廿一世紀,自動總結嘅諗頭喺資訊科技上愈嚟愈受重視:隨住互聯網同社交媒體嘅發展,人類產生嘅文字數據愈嚟愈多,數據科學等領域嘅應用工作者開始發覺,佢哋成日都要面對「手上啲數據多得滯,難以處理嗮佢哋」噉嘅情況;呢啲工作者往往希望可以有效噉做自動總結,達致「將大拃數據入面最精要嗰啲抽取出嚟」嘅效果。因為噉,唔少 AI 工作者都致力研究自動總結,想開發出更新更有效嘅自動總結演算法[4]:p. 1。
抽取法
編輯抽取法重點在於由段資訊入面抽取最重要嗰啲部份。喺文字自動總結當中,抽取法即係將段字裏面最「重要」嗰啲抽出嚟,攞去做 output-啲 output 會係 input 嘅子集,而個程式由頭到尾都唔會更改段字嘅內容。最基本上,抽取法可以用以下噉嘅演算法嚟想像[7]:
「點樣評價一句句子有幾重要」係一條幾有爭議性嘅問題。語義距離係一種比較簡單嘅做法:兩句句子之間嘅語義距離係指兩句嘢喺意思爭幾遠;原則上,如果一句句子同段字入面第啲句子之間語義距離遠[註 2],就表示佢表達到啲其餘句子表達唔到嘅意思,就理應表示佢愈值得抽出嚟做總結嘅一部份[5]。除咗語義距離之外,仲可以睇吓機會率(一隻字重要,就表示佢大機會出現喺啲句子入面[註 3][8])同 tf-idf(一般認為係種比較有效噉反映到「隻字幾重要」嘅做法[9])等嘅概念[4]:p. 2-3。
抽象法
編輯抽象法重點在於產生對段字嘅抽象理解。抽象法會將段字嘅語義表示成抽象化嘅符號,然後透過操作呢啲符號決定要畀咩 output,途中會改變段字嘅內容。最基本噉講,呢種做法係[5]:
到咗 2020 年代為止,抽取法明顯容易啲,所以常見過抽象法。
程式評估
編輯要評估一段自動總結演算法「有幾好」,可以有好多做法:其中一種最常用嘅做法係所謂嘅 ROUGE(全名 Recall-Oriented Understudy for Gisting Evaluation);ROUGE 嘅基本諗頭係,人工智能最想做嘅嘢就係教電腦模仿人噉嘅智能,所以如果話一段 AI 演算法掂,即係等同話佢展現到同人類專家一樣噉嘅表現;噉講即係話,研究者會去[10]
- 搵一拃由受過訓嘅人類,叫佢哋人手同拃文件做總結;
- 用自己設計嘅自動總結演算法同同一拃文件做總結;
- 比較人類專家做嘅總結同段演算法做嘅總結;
- 兩者愈相似,就愈表示段演算法掂。
睇埋
編輯文獻
編輯- Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). Text summarization techniques: a brief survey (PDF). arXiv preprint arXiv:1707.02268,呢篇文綜述當時嘅文字自動總結技術。
- Nenkova, A., & McKeown, K. R. (2011). Automatic Summarization. Foundations and Trends in Information Retrieval, 5(2-3), 103-233.
- Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Mining text data (pp. 43-76). Springer, Boston, MA.
- Passali, T., Gidiotis, A., Chatzikyriakidis, E., & Tsoumakas, G. (2021, April). Towards human-centered summarization: A case study on financial news. In Proceedings of the First Workshop on Bridging Human-Computer Interaction and Natural Language Processing (pp. 21-27).
註釋
編輯引咗
編輯- ↑ Torres-Moreno, Juan-Manuel (1 October 2014). Automatic Text Summarization. Wiley. pp. 320-
- ↑ Pan, Xingjia; Tang, Fan; Dong, Weiming; Ma, Chongyang; Meng, Yiping; Huang, Feiyue; Lee, Tong-Yee; Xu, Changsheng (2021-04-01). "Content-Based Visual Summarization for Image Collection". IEEE Transactions on Visualization and Computer Graphics. 27 (4): 2298-2312.
- ↑ Sankar K. Pal; Alfredo Petrosino; Lucia Maddalena (25 January 2012). Handbook on Soft Computing for Video Surveillance. CRC Press. pp. 81-.
- ↑ 4.0 4.1 4.2 4.3 Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K. (2017). Text summarization techniques: a brief survey (PDF). arXiv preprint arXiv:1707.02268.
- ↑ 5.0 5.1 5.2 Understand Text Summarization and create your own summarizer in python. Towards Data Science.
- ↑ Afzal M, Alam F, Malik KM, Malik GM, Clinical Context-Aware Biomedical Text Summarization Using Deep Neural Network: Model Development and Validation, J Med Internet Res 2020;22(10):e19810, DOI: 10.2196/19810, PMID 33095174.
- ↑ Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Mining text data (pp. 43-76). Springer, Boston, MA.
- ↑ Vanderwende, L., Suzuki, H., Brockett, C., & Nenkova, A. (2007). Beyond SumBasic: Task-focused summarization with sentence simplification and lexical expansion. Information Processing & Management, 43(6), 1606-1618.
- ↑ Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information processing & management, 24(5), 513-523.
- ↑ Lin, C. Y. (2004, July). Rouge: A package for automatic evaluation of summaries (PDF). In Text summarization branches out (pp. 74-81).
拎
編輯- (英文) 明白自動總結,Towards Data Science.