語義網粵拼jyu5 ji6 mong5英文Semantic Web),又叫 Web 3.0,係早喺 1990 年代上半橛嗰時已經存在嘅一套資訊科技構想。語義網係預想中嘅一個 WWW 延伸版,唔淨只做到畀人讀取網頁數據,仲做到畀呢啲數據可以由電腦自動噉讀取[1]

「用 XML 將一個英文網頁入面啲資訊maak1得一清二楚」嘅想像圖
  呢篇文講嘅唔係語義網絡Web3

最簡單噉講,語義網會用到標記語言(可以睇吓 XML 同埋網絡本體語言呀噉)等嘅技術,將互聯網唔同地方嘅數據用同一樣嘅格式編好,令電腦可以自動處理呢啲資訊。進階啲嘅技術通常仲會用到自然語言處理(指教 AI 處理自然語言嘅技術),教電腦自動噉處理用互聯網上嗰啲用自然語言寫出嚟嘅數據[2]

喺廿一世紀初,語義網相關嘅技術畀唔少從事 AI 方面工作嘅人士睇好,覺得呢種技術能夠帶嚟資訊處理上嘅革命[3]

背景 編輯

"I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web .... A "Semantic Web", which makes this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines."

粵譯:「我對萬維網有個夢想,想電腦有日能夠分析所有萬維網上嘅數據... 一個令到呢樣嘢成為可能嘅『語義網』仲未出現,但當佢一出現,每日嘅交易機制、官僚組織同埋我哋嘅日常生活都可以齋靠機械同機械之間講嘢嚟搞得掂。」[4]

喺 2020 年代初,語義網係構想中一套萬維網(WWW)延伸版,最重點特徵係[5]

想做到對啲數據賦予意義,令到電腦能夠自動化噉睇同理解呢啲數據。

响打前嘅 WWW 度,數據往往係人手用自然語言(指英文廣東話等日常講嘢會用嘅語言)寫成嘅:舉例說明,想像家陣要處理一拃用粵語白話文生物物種相關資訊嘅網頁,一個噉嘅網頁要講「呢種物種分佈喺邊啲地方」呢樣資訊嗰陣,可能會用[3]

  • 「XXX 呢種生物廣泛噉分佈喺 AAA、BBB 同 CCC 呢幾笪地方」、
  • 「XXX 喺 AAA、BBB 同 CCC 等地都可以搵到」、
  • 「AAA、BBB 同 CCC 等咁多唔同地方,都有 XXX 嘅蹤影」

... 等咁多種唔同方法嚟講。呢啲噉嘅數據對人類嚟講好易睇-是但搵個識廣東話又唔係文盲嘅人,佢能夠輕易噉得知上面嗰幾句句子都係講緊「XXX 分佈喺邊啲地方」嘅資訊,但要電腦做到同樣嘅嘢,就撈絞得好交關[註 1]

語義網嘅核心諗頭,就係想解決呢條問題,想要(簡化講)啲網頁嘅結構編好嗮,標好嗮每件重要資訊喺邊個位,以及啲資訊之間有乜關係(睇埋語義三部嘅概念)呀噉,噉研究者就可以輕易噉寫程式教電腦自動讀取呢啲唔同地方嘅數據-達致令「讀取同理解數據」噉嘅工作自動化。

技術基礎 編輯

想像而家想教部電腦處理「保羅·舒斯特(Paul Schuster)喺德累斯頓(Dresden)出世」呢樣資訊。研究者可以用 HTML 等嘅標記語言maak1好嗮網頁入面嘅資訊,例如係以下呢段 HTML 碼噉:

<div vocab="https://schema.org/" typeof="Person">
  <span property="name">Paul Schuster</span><span property="birthPlace" typeof="Place" href="https://www.wikidata.org/entity/Q1731">
    <span property="name">Dresden</span> 出世。
  </span>
</div>

上面段碼畀電腦得知以下嘅資訊:

  • Paul Schuster 呢樣資訊屬於(Person),而 Paul Schuster 係佢個name)。
  • Dresden 呢樣資訊係 Paul Schuster出生地birthPlace),屬於地方(Place),而
  • https://www.wikidata.org/entity/Q1731 包含有關 Dresden 嘅各種數據(好似係人口同埋「德累斯頓係德國嘅一座城市」呢點;睇埋維基數據)。

畫做圖嘅話就會好似下面噉:

 

而家想像 WWW 上面嘅資訊,冚唪唥都用噉嘅方法嘜好嗮,噉就可以(例如)教電腦自動噉靠

  • 「保羅·舒斯特喺德累斯頓出世」同埋
  • 「德累斯頓係德國嘅一座城市」呢兩樣資訊,

推論出「保羅·舒斯特喺德國出世」呢點-即係話語義網可以令電腦自動噉讀取 WWW 上嘅任何數據。而如果電腦曉自動攞 WWW 上嘅資訊,就能夠做到好多嘢,例子可以睇吓機械學習(ML)相關嘅技術-呢啲技術本質上就係「靠住畀電腦係噉讀大量數據,令電腦學識睇數據入面嘅規律,從而令睇病等嘅工作都有得自動化」嘅,如果電腦能夠自動噉讀取所有 WWW 上面嘅資訊,就起碼表示做 ML 嗰陣會多咗好多數據用。

主要挑戰 編輯

語義網實行起上嚟一啲都唔容易,要面對重重挑戰[6]

  • 數據多:網絡上面有極大量嘅數據,例如想像而家要同有關生物物種嘅資訊整標記,淨係睇蝴蝶,喺 2022 年,世上已知嘅蝴蝶物種估計坐底有成 18,000 種咁多,每種都要最少同佢哋嘜好佢哋嘅學名、分佈地同外形等嘅資訊,而(又例如)飛蛾物種數量仲多,有成超過 100,000 種咁多;而且生物物種遠遠唔淨只蝴蝶同飛蛾-要達致語義網,需要處理極大量嘅資訊。
  • 歧義含糊:歧義係指一隻字詞有幾個可能意思,而含糊係指隻字詞冇明確意思;想像而家語義網整好咗,有個人想問部電腦有關帝王斑蝶(其中一種最常見嘅蝴蝶,珠三角都成日見到)嘅資訊,可能佢打錯字或者理解唔夠正確,搞到佢打咗「帝黃斑蝶」嚟做畀部機睇嘅 input,部電腦就有必要應變。有關點樣處理歧義同含糊,可以睇吓快思邏輯嘅概念。
  • 假資訊:喺廿一世紀初,網絡上面嘅資訊絕大多數都係由人創造嘅;有部份嘅人可能會唔覺意(甚至出於惡意)貼咗啲錯誤嘅資訊上網,而同時網上嘅資訊好多時都好專業,研究者未必吓吓都有足夠嘅專業知識分辨邊啲資訊真確邊啲錯誤,例如諗返有關蝴蝶物種嘅資訊,做語義網工作嘅人可能淨係熟 IT 嘢,所以冇能力分辨啲蝴蝶相關資訊係咪正確。有關假資訊嘅問題,可以睇吓公信力嘅概念。

... 呀噉。

註釋 編輯

  1. 事實係喺 NLP 工作上,「教 AI 理解自然語言」呢家嘢到咗 2020 年代仲係條大難題。

睇埋 編輯

睇埋 編輯

  • Liyang Yu (December 14, 2014). A Developer's Guide to the Semantic Web, 2nd ed. Springer.
  • Thomas B. Passin (March 1, 2004). Explorer's Guide to the Semantic Web. Manning Publications.

引述 編輯

  1. SEMANTIC WEB.
  2. Kaffee, L. A., Vougiouklis, P., & Simperl, E. (2022). Using natural language generation to bootstrap missing Wikipedia articles: A human-centric perspective. Semantic Web, 13(2), 163-194.
  3. 3.0 3.1 Berners-Lee, Tim; Hendler, James; Lassila, Ora (May 17, 2001). "The Semantic Web" (PDF). Scientific American. Vol. 284, no. 5. pp. 34-43.
  4. Berners-Lee, Tim; Fischetti, Mark (1999). Weaving the Web. HarperSanFrancisco. Chapter 12.
  5. Semantic Web. Encyclopedia Britannica.
  6. Lukasiewicz, Thomas; Umberto Straccia (2008). "Managing uncertainty and vagueness in description logics for the Semantic Web" (PDF). Web Semantics: Science, Services and Agents on the World Wide Web. 6 (4): 291-308.

外拎 編輯