電腦視覺

電腦視覺（英文：computer vision）係人工智能嘅一個子領域，涉及科學家嘗試教電腦做人類視覺系統做到嘅工作－電腦視覺涉及研究教電腦由睇到嘅影像當中分辨睇到啲乜嘢物件、判斷周圍物件嘅位置（呢種技術對自駕車嚟講好有用）、以至認人樣等等^[1]。

細分任務

電腦視覺因爲係模擬成個視覺系統，所以都分得成好多子任務，互相之間嘅相關性都幾大但有唔同嘅任務要求。圖像分類（image classification）係一個比較基礎嘅任務類型，要求喺畀定嘅語義標籤（semantic labels）列表之下，電腦識逐張逐張幫一堆圖片正確噉加標籤嚟分啲圖片落到啱嘅類。呢項工需要電腦克服到一種語義鴻溝（semantic gap），因爲電腦攞到嘅淨係得啲像素值，之但係要從啲數字得返一啲圖片本身嘅特徵，仲要克服角度、光影、變形、環境揞影（occlusion）、背景混雜（background clutter）、個類型本身嘅各種變體嚟畀返啱嘅標籤畀幅圖。喺呢個基礎上有分類並定位（classification plus Localization）任務，嚟唔單止幫圖片分類，仲要確定圖片裏便嘅物體具體係喺圖片嘅邊笪埞；仲有姿態估計（pose estimation），由圖片當中一啲關鍵點嚟畀出譬如人嘅姿態骨架圖。進多一步，要喺一幅圖當中識返一件或者幾件嘢，就要涉及物體檢測（object detection）。如果唔單止係識別同埋定位圖片啲嘢，而仲要幫啲嘢分柵saak3、畫出啲像素嘅具體範圍，就有按大類（分開屋、車、人……）分柵嘅語義分柵（semantic segmentation）同埋分嗮每件嘢（人甲、人乙、車甲……）嘅實例分柵（instance segmentation）呢啲任務。而到視覺信息理解結合埋自然語言處理嘅層面，有任務似描述生成（captioning）、即幫啲圖片抑或圖片當中嘅嘢（用到物體識別）生成一條簡要描述，同埋視覺問題回答（visual question answering）、即畀一幅圖同埋一個題目等電腦揀出抑或畀出啱嘅答案嘅。

例

事先處理

電腦視覺程式會由某啲型式嘅光感應器嗰度得到訊號，再將訊號轉化做電腦記得住嘅碼。舉個例說明，喺用紅綠藍色彩模式（RGB model）將一幅圖存入去佢嘅記憶體嗰陣，部電腦會記住 $[[207,229,78],[141,159,138]...]$ 噉嘅一系列數字，每組數字有三個數，每個最細係 0 最大係 255，第一個數代表嗰一點有幾多紅（R），第二個數代表嗰一點有幾多綠（G），而第三個數代表嗰一點有幾多藍（B），而成串嘢當中有 $n$ 組「每組三個數」嘅數－ $n$ 就係幅圖嘅象素；最後形成一個矩陣，令到部電腦可以記住幅圖嘅樣^[2]。

運算方法

喺做咗事先處理（preprocessing）之後，影像數據就可以用好多演算法嚟處理。想像一個人工神經網絡（artificial neural network），一個簡單嘅前饋人工神經網絡分若干層，每層有若干粒人工神經細胞（artificial neuron），每粒人工神經細胞都有個數值，個數代表佢嘅啟動程度（activation level），而每粒神經細胞嘅啟動程度嘅數值都有條式計，呢條式包括咗喺佢之前嗰啲神經細胞嘅啟動程度，即係話個程式會有一條類似噉樣嘅算式：

t=W_{1}A_{1}+W_{2}A_{2}...

；

喺呢條式當中， $t$ 代表嗰粒神經細胞嘅啟動程度， $A_{n}$ 代表其他神經細胞當中第 $n$ 粒嘅啟動程度，而 $W_{n}$ 就係其他神經細胞當中第 $n$ 粒嘅權重（指嗰粒神經細胞有幾影響到 $t$ 嗰粒神經細胞嘅啟動程度）。所以當一粒人工神經細胞啟動嗰陣，會帶起佢後面啲人工神經細胞跟住佢啟動－似十足生物神經網絡入面嗰啲神經細胞噉。最前嗰層有 $ni$ 粒細胞，每 $i$ 粒細胞代表幅輸入圖像嘅像素嘅色水，而最後嗰層有一粒細胞，呢粒細胞有兩個可能數值，1（陽性）同 0（陰性）^[3]。

機械學習

跟住研究者要個網絡做學習：個研究者走去搵柞數據返嚟－呢柞數據就係所謂嘅訓練集（training set）；呢個訓練集會包括咗一連串嘅輸入個案，每個個案都係一幅影肺嘅 X 光片，而已知啲個案當中邊個有肺癌邊個冇；跟手個研究者就可以將個訓練集嘅數據入落去個神經網絡做輸入，等部電腦計出喺每一個個案入面，個神經網絡俾出嚟嘅輸出（即係佢對「呢幅 X 光片個人係咪有肺癌」嘅診斷）同正確嘅輸出值有幾大出入，跟手事先編寫好嘅學習法則就會按照呢啲落差值計吓啲權重要點變，先可以令到個神經網絡俾出更準確嘅答案。如是者，喺個神經網絡運算過大量嘅個案之後，佢嗰啲權重等嘅參數就會有所改變，變到更加能夠計到正確嘅答案－個研究者就可以攞呢個神經網絡嚟去做將來嘅肺癌診斷。呢種用電腦視覺做醫療診斷嘅做法喺廿一世紀醫學上經已取得咗相當嘅成功^[4]^[5]。

睇埋

攷

↑ Dana H. Ballard; Christopher M. Brown (1982). Computer Vision. Prentice Hall.
↑ Rudolf F. Graf (1999). Modern Dictionary of Electronics. Oxford: Newnes. p. 569.
↑ "Artificial Neural Networks as Models of Neural Information Processing | Frontiers Research Topic". Retrieved 2018-02-20.
↑ Haykin, S. S., Haykin, S. S., Haykin, S. S., Elektroingenieur, K., & Haykin, S. S. (2009). Neural networks and learning machines (Vol. 3). Upper Saddle River: Pearson education.
↑ Jain, A. K., Mao, J., & Mohiuddin, K. M. (1996). Artificial neural networks: A tutorial. Computer, (3), 31-44.

拎

USC Iris computer vision conference list.
Computer vision papers on the web A complete list of papers of the most relevant computer vision conferences.
Computer Vision Online News, source code, datasets and job offers related to computer vision.
Keith Price's Annotated Computer Vision Bibliography.
CVonline Bob Fisher's Compendium of Computer Vision.

[1] Dana H. Ballard; Christopher M. Brown (1982). Computer Vision. Prentice Hall.

[rudolf1999-2] Rudolf F. Graf (1999). Modern Dictionary of Electronics. Oxford: Newnes. p. 569.

[3] "Artificial Neural Networks as Models of Neural Information Processing | Frontiers Research Topic". Retrieved 2018-02-20.

[haykin2009-4] Haykin, S. S., Haykin, S. S., Haykin, S. S., Elektroingenieur, K., & Haykin, S. S. (2009). Neural networks and learning machines (Vol. 3). Upper Saddle River: Pearson education.

[5] Jain, A. K., Mao, J., & Mohiuddin, K. M. (1996). Artificial neural networks: A tutorial. Computer, (3), 31-44.

[1]

[2]

[3]

[4]

[5]