機器視覺主要用計算機來模擬人的視覺功能,但并不僅僅是人眼的簡單延伸,更重要的是具有人腦的一部分功能一一從客觀事物的圖像中提取信息,進行處理并加以理解,最終用于實際檢測、測量和控制。
一個典型的工業(yè)機器視覺應用系統(tǒng),包括數(shù)字圖像處理技術、機械工程技術、控制技術、視覺光源照明技術、光學成像技術、傳感器技術、模擬與數(shù)字視頻技術、計算機軟硬件技術、人機接口技術等。
在行業(yè)應用方面,主要有制藥、包裝、電子、汽車制造、半導體、紡織、煙草、交通、物流等行業(yè),用機器視覺技術取代人工,可以提供生產效率和產品質量。例如在物流行業(yè),可以使用機器視覺技術進行快遞的分揀分類,不會出現(xiàn)大多快遞公司人工進行分揀,減少物品的損壞率,可以提高分揀效率,減少人工勞動。
主要問題和發(fā)展瓶頸
機器視覺可以看作是與人工智能和模式識別密切相關的一個子學科或子領域。限制機器視覺發(fā)展的瓶頸是多方面的,其中最重要的可以歸結為三個方面:計算能力不足、認知理論未明以及精確識別與模糊特征之間的自相矛盾。
1.機器視覺面向的研究對象主要是圖像和視頻,其特點是數(shù)據量龐大、冗余信息多、特征空間維度高,同時考慮到真正的機器視覺面對的對象和問題的多樣性,單一的簡單特征提取算法(如顏色、空間朝向與頻率、邊界形狀等等)難以滿足算法對普適性的要求,因此在設計普適性的特征提取算法時對計算能力和存儲速度的要求是十分巨大的,這就造成了開發(fā)成本的大幅度提高。
2. 如何讓機器認知這個世界?這一問題目前沒有成熟的答案,早期的人工智能理論發(fā)展經歷了符號主義學派、行為主義學派、連接主義學派等一系列的發(fā)展但都沒有找到令人滿意的答案,目前較新的思想認為應該從分析、了解和模擬人類大腦的信息處理功能去構建智能機器視覺系統(tǒng),但神經科學的發(fā)展目前只能做到了解和模擬大腦的一個局部,而不是整體(當然計算能力限制也是原因之一)。事實上,我們對人是如何對一個目標或場景進行認知的這一問題仍停留在定性描述而非定量描述上。
3. 機器視覺系統(tǒng)經常被人詬病的問題之一就是準確性。以十年前如火如荼的人臉識別算法為例,盡管一系列看似優(yōu)秀的算法不斷問世,但目前為止在非指定大規(guī)模樣本庫下進行人臉識別的準確率仍然無法滿足實際應用的需求,因此無法取代指紋或虹膜等近距接觸式生物特征識別方法。這一問題的出現(xiàn)并非偶然。因為目標越精細,越復雜,信息越大,則其模糊性和不確定性也越強。人類之所以能夠較好的對人臉進行識別,其實也是以犧牲一定的準確性為代價的。而機器視覺在做的事情一方面想要借鑒人腦或人眼系統(tǒng)的靈感去處理復雜而龐大的信息流,另一方面又想摒除人腦在模式識別方面存在的精確性不足的缺陷。
關于視覺測量研究:
(1)機器視覺測量的可靠性。相比與其他測量手段,視覺的最大優(yōu)點就是可以快速獲得三維信息,一張或幾張照片就可以重建出被測物體的三維特征,進而實現(xiàn)測量。但正如大家所說,只要測量條件、環(huán)境、被測物表面特性等改變,有時甚至時稍加改變,結果則大不一樣,測量重復性和精度更無從談起。這也是目前機器視覺測量尺寸、位姿等參數(shù)時比較突出的問題,特別是在一些強光干擾、溫度場變化、光照條件變化的應用場合這個問題尤為突出。因此,視覺測量的環(huán)境適應性問題解決難度很大,無法找到普適性的方法,只能針對具體問題,研究相應光照、特征提取、匹配、重建、標定等具體方法。
(2)測量精度問題。精度是測量系統(tǒng)的重要指標。視覺測量精度依賴于相機分辨率、視場大小、圖像處理算法等等。CCD和CMOS的制造工藝已取得長足進步,目前6000*4000pixel的分辨率已經成為穩(wěn)定商品。而采用壓電驅動芯片做微米級移動進行像素細分的方法和設備已經商品化,號稱分辨率可近20000*14000pixel。
提升三維技術
在現(xiàn)實生活中,我們越來越需要更多的三維模型來實現(xiàn)對物體或環(huán)境的全面掌握。獲得三維模型有兩種基本方式,一種是利用激光掃描儀,一種是拍攝照片。但激光掃描儀的成本高,也有可能會對樣本帶來一些損害。第二種方式的成本小,而且在精度上也跟激光掃描儀相差無幾,因此成為了現(xiàn)在研究的一個熱點。
我們知道,一般的圖像上是沒有長度、距離等深度信息的,而三維模型則能更加全面、精確地記錄環(huán)境,可以直觀呈現(xiàn)物體的位置、距離、姿態(tài)等。比如中國古代建筑全自動三維重建系統(tǒng),能夠實現(xiàn)全自動三維建模,即從底層圖像處理到生成最終的三維模型,全部自動實現(xiàn),無需人工交互。它對圖像的拍攝方式也無特殊約束和限制,只需手持自由拍攝即可。在精度上,也與激光掃描精度相當,精度小于3cm/100米,通過配備更高像素數(shù)量的相機和長焦鏡頭還可以實現(xiàn)毫米級重建。
此外,在實時定位與在線三維重建方面,機器視覺也具有極大的應用潛力。將手機上攝像頭讀取的視頻作為輸入,通過初始化、特征點提取、動態(tài)模板特征點匹配、幾何變化計算階段后得到視頻每一幀中感興趣區(qū)域的位置。
目前,我國基于機器視覺的三維重建技術在國際上可以說處于領先地位,應用也比較廣泛。除了上述之外,還能用在一些不太適合人工作業(yè)的環(huán)境監(jiān)測方面,像對露天煤礦的監(jiān)測,就是通過無人機對煤礦進行全方位拍攝,生成三維模型來實時監(jiān)測礦山的變化。此外,也能應用于城市規(guī)劃、數(shù)字媒體、三維試衣、牙模制造等多方面。
未來發(fā)展趨勢
由于機器視覺是自動化的一部分,沒有自動化就不會有機器視覺,機器視覺軟硬件產品正逐漸成為協(xié)作生產制造過程中不同階段的核心系統(tǒng),無論是用戶還是硬件供應商都將機器視覺產品作為生產線上信息收集的工具,這就要求機器視覺產品大量采用標準化技術,直觀地說就是要隨著自動化的開放而逐漸開放,可以根據用戶的需求進行二次開發(fā)。
當今,自動化企業(yè)正在倡導軟硬一體化解決方案,機器視覺的廠商在未來十年內也應該不單純是只提供產品的供應商,而是逐漸向一體化解決方案的系統(tǒng)集成商邁進。隨著中國加工制造業(yè)的發(fā)展,對于機器視覺的需求也逐漸增多。隨著機器視覺產品的增多,技術的提高,國內機器視覺的應用狀況將由初期的低端轉向高端。由于機器視覺的介入,自動化將朝著更智能、更快速的方向發(fā)展。
一個典型的工業(yè)機器視覺應用系統(tǒng),包括數(shù)字圖像處理技術、機械工程技術、控制技術、視覺光源照明技術、光學成像技術、傳感器技術、模擬與數(shù)字視頻技術、計算機軟硬件技術、人機接口技術等。
在行業(yè)應用方面,主要有制藥、包裝、電子、汽車制造、半導體、紡織、煙草、交通、物流等行業(yè),用機器視覺技術取代人工,可以提供生產效率和產品質量。例如在物流行業(yè),可以使用機器視覺技術進行快遞的分揀分類,不會出現(xiàn)大多快遞公司人工進行分揀,減少物品的損壞率,可以提高分揀效率,減少人工勞動。
主要問題和發(fā)展瓶頸
機器視覺可以看作是與人工智能和模式識別密切相關的一個子學科或子領域。限制機器視覺發(fā)展的瓶頸是多方面的,其中最重要的可以歸結為三個方面:計算能力不足、認知理論未明以及精確識別與模糊特征之間的自相矛盾。
1.機器視覺面向的研究對象主要是圖像和視頻,其特點是數(shù)據量龐大、冗余信息多、特征空間維度高,同時考慮到真正的機器視覺面對的對象和問題的多樣性,單一的簡單特征提取算法(如顏色、空間朝向與頻率、邊界形狀等等)難以滿足算法對普適性的要求,因此在設計普適性的特征提取算法時對計算能力和存儲速度的要求是十分巨大的,這就造成了開發(fā)成本的大幅度提高。
2. 如何讓機器認知這個世界?這一問題目前沒有成熟的答案,早期的人工智能理論發(fā)展經歷了符號主義學派、行為主義學派、連接主義學派等一系列的發(fā)展但都沒有找到令人滿意的答案,目前較新的思想認為應該從分析、了解和模擬人類大腦的信息處理功能去構建智能機器視覺系統(tǒng),但神經科學的發(fā)展目前只能做到了解和模擬大腦的一個局部,而不是整體(當然計算能力限制也是原因之一)。事實上,我們對人是如何對一個目標或場景進行認知的這一問題仍停留在定性描述而非定量描述上。
3. 機器視覺系統(tǒng)經常被人詬病的問題之一就是準確性。以十年前如火如荼的人臉識別算法為例,盡管一系列看似優(yōu)秀的算法不斷問世,但目前為止在非指定大規(guī)模樣本庫下進行人臉識別的準確率仍然無法滿足實際應用的需求,因此無法取代指紋或虹膜等近距接觸式生物特征識別方法。這一問題的出現(xiàn)并非偶然。因為目標越精細,越復雜,信息越大,則其模糊性和不確定性也越強。人類之所以能夠較好的對人臉進行識別,其實也是以犧牲一定的準確性為代價的。而機器視覺在做的事情一方面想要借鑒人腦或人眼系統(tǒng)的靈感去處理復雜而龐大的信息流,另一方面又想摒除人腦在模式識別方面存在的精確性不足的缺陷。
關于視覺測量研究:
(1)機器視覺測量的可靠性。相比與其他測量手段,視覺的最大優(yōu)點就是可以快速獲得三維信息,一張或幾張照片就可以重建出被測物體的三維特征,進而實現(xiàn)測量。但正如大家所說,只要測量條件、環(huán)境、被測物表面特性等改變,有時甚至時稍加改變,結果則大不一樣,測量重復性和精度更無從談起。這也是目前機器視覺測量尺寸、位姿等參數(shù)時比較突出的問題,特別是在一些強光干擾、溫度場變化、光照條件變化的應用場合這個問題尤為突出。因此,視覺測量的環(huán)境適應性問題解決難度很大,無法找到普適性的方法,只能針對具體問題,研究相應光照、特征提取、匹配、重建、標定等具體方法。
(2)測量精度問題。精度是測量系統(tǒng)的重要指標。視覺測量精度依賴于相機分辨率、視場大小、圖像處理算法等等。CCD和CMOS的制造工藝已取得長足進步,目前6000*4000pixel的分辨率已經成為穩(wěn)定商品。而采用壓電驅動芯片做微米級移動進行像素細分的方法和設備已經商品化,號稱分辨率可近20000*14000pixel。
提升三維技術
在現(xiàn)實生活中,我們越來越需要更多的三維模型來實現(xiàn)對物體或環(huán)境的全面掌握。獲得三維模型有兩種基本方式,一種是利用激光掃描儀,一種是拍攝照片。但激光掃描儀的成本高,也有可能會對樣本帶來一些損害。第二種方式的成本小,而且在精度上也跟激光掃描儀相差無幾,因此成為了現(xiàn)在研究的一個熱點。
我們知道,一般的圖像上是沒有長度、距離等深度信息的,而三維模型則能更加全面、精確地記錄環(huán)境,可以直觀呈現(xiàn)物體的位置、距離、姿態(tài)等。比如中國古代建筑全自動三維重建系統(tǒng),能夠實現(xiàn)全自動三維建模,即從底層圖像處理到生成最終的三維模型,全部自動實現(xiàn),無需人工交互。它對圖像的拍攝方式也無特殊約束和限制,只需手持自由拍攝即可。在精度上,也與激光掃描精度相當,精度小于3cm/100米,通過配備更高像素數(shù)量的相機和長焦鏡頭還可以實現(xiàn)毫米級重建。
此外,在實時定位與在線三維重建方面,機器視覺也具有極大的應用潛力。將手機上攝像頭讀取的視頻作為輸入,通過初始化、特征點提取、動態(tài)模板特征點匹配、幾何變化計算階段后得到視頻每一幀中感興趣區(qū)域的位置。
目前,我國基于機器視覺的三維重建技術在國際上可以說處于領先地位,應用也比較廣泛。除了上述之外,還能用在一些不太適合人工作業(yè)的環(huán)境監(jiān)測方面,像對露天煤礦的監(jiān)測,就是通過無人機對煤礦進行全方位拍攝,生成三維模型來實時監(jiān)測礦山的變化。此外,也能應用于城市規(guī)劃、數(shù)字媒體、三維試衣、牙模制造等多方面。
未來發(fā)展趨勢
由于機器視覺是自動化的一部分,沒有自動化就不會有機器視覺,機器視覺軟硬件產品正逐漸成為協(xié)作生產制造過程中不同階段的核心系統(tǒng),無論是用戶還是硬件供應商都將機器視覺產品作為生產線上信息收集的工具,這就要求機器視覺產品大量采用標準化技術,直觀地說就是要隨著自動化的開放而逐漸開放,可以根據用戶的需求進行二次開發(fā)。
當今,自動化企業(yè)正在倡導軟硬一體化解決方案,機器視覺的廠商在未來十年內也應該不單純是只提供產品的供應商,而是逐漸向一體化解決方案的系統(tǒng)集成商邁進。隨著中國加工制造業(yè)的發(fā)展,對于機器視覺的需求也逐漸增多。隨著機器視覺產品的增多,技術的提高,國內機器視覺的應用狀況將由初期的低端轉向高端。由于機器視覺的介入,自動化將朝著更智能、更快速的方向發(fā)展。