清華大學人工智慧研究院主任張鈸院士將人工智慧劃分為感知智慧和認知智慧兩個方面。
從感知智慧的角度分析,其涉及的技術範圍主要是各類智慧機器和智慧系統輸入資訊的獲取和認知。在智慧體獲得的資訊中,視覺資訊佔據著十分重要的地位。
按照生物來類比機器,眼睛對各類生物起到了絕對重要的作用,生物的各類感知資訊中,視覺資訊佔到了80%以上,甚至更高。生物依靠視覺為自己定位,識別環境和物體,依靠視覺控制行走、覓食、追蹤和捕獲獵物,依靠視覺與同伴交流等等。
人類一定是先有了視覺,才會產生語言交流,有了語言才產生了文字,最後產生了人類文明和科學。
如果把智慧機器當做一個封閉的資訊處理系統,各類資訊的輸入、獲取、處理、識別和理解,構成了智慧機器系統對外界世界的認知,在這些認知的基礎上將逐步形成智慧機器系統自己的知識體系,進而利用這些知識,來指導智慧機器的執行機構進行各類行動。
對這些輸入資訊的處理、理解和識別所產生的知識體系,基本就可以構成人工智慧的核心知識結構。就像人類一樣,智慧機器系統也需要建立起一套自己的系統對外界輸入進行充分感知後,自己可以學習、吸收、消化、理解、復現、應用的知識表達體系。
從目前人工智慧的發展來看智慧感知,首先,已經解決得比較好的是傳統的感測技術,包括:位移、溫度、壓力、加速度、位置和姿態等方面;對於語音的智慧感知,解決的也相對比較理想,語音識別的應用產品也已經開始進入大眾的生活;但機器的視覺智慧感知相對做得很差,雖然深度學習技術解決了一些場景下的識別問題,但機器的視覺智慧感知距離生物一樣的視覺感知能力,還相差的太遠,還需要有很長的路要走。
目前的視覺智慧感知技術水平,只能解決特定場景下、特定物體的智慧感知問題。拿現有的影象識別來說,識別的影象基本是建立在二維影象的基礎上,無法像生物視覺一樣將物體三維幾何能在特定物體特定場景下做到定性的識別,而且不能實現泛化的識別,增加識別目標就需要重新組織學習;學習時,需要做大量的標註工作,且需要許多的機器學習資源,才能完成新的學習,耗能極高。
目前視覺智慧感知技術,還不足以建立起一套關於視覺智慧感知的知識表達體系。對於人眼能夠輕鬆實現的高速三維成像,對物體三維幾何特徵、視覺特徵、運動特徵的動態識別方面,目前的任何視覺智慧感知系統都難以達到人眼的水平。
按照哲學關於物質和意識關係的學說,是先有物質然後才有意識,物質決定意識,這是對於人類意識來說的。
對於機器智慧,或者也可以叫做機器意識來說,這個關於物質和意識的學說同樣適用。機器的視覺對外界環境和物體的智慧感知,零零落落,模糊不清,那機器也無法按照視覺智慧感知的資訊,來組織有效的視覺認知的知識結構,也就是說,目前的機器視覺智慧感知的能力很差,感知的實踐經驗明顯不足,無法形成有效的機器視覺的 “意識”。
所以,如果拿生物輸入資訊的佔比來做分析,目前在智慧感知領域,還有至少80%以上的工作沒有完成,或者說還沒有進行,特別是對於視覺感知智慧來說更是如此。
如果這個推斷成立的話,那麼現有的機器智慧系統,由於對視覺智慧資訊獲取、處理和理解能力的不足和缺失,將無法建立起智慧系統的有效知識體系,這個問題不解決,未來人工智慧之路將舉步為艱。
再舉個具體的例子來說明以上推斷:假設智慧機器已經形成了對高山、河流、大海、落日的視覺感知和記憶的話,那麼對於王之渙的“白日依山盡,黃河入海流”的詩句就可以在機器的“大腦”中建立起一個鮮活的畫面,如果再加上智慧機器對日出日落、黃河奔流可能的視覺動態感知體驗,那麼對於智慧機器,將會完全可以理解這首詩,並透過顯示螢幕或其它技術手段展示出本詩的場景和意境,如果再結合機器語音識別,機器與人在這方面交流就不會存在障礙。
現有的智慧音箱在使用體驗上,使用者反映效果不佳,核心的問題就在於語音識別言之無物,沒有視覺場景的體驗和共鳴及數字表達的技術支援,缺乏視覺體驗和相關數字解釋的所謂語音,目前,只能是一個個獨立的數字孤島,無法建立有效的語音和視覺之間的溝通和聯結,無法實現對具體場景的視覺註釋以及語音或文字解釋中的視覺解釋,無法建立起在視覺記憶和視覺理解基礎上的視覺聯想和場景復現,使智慧語音對話無法像人類語音溝通一樣,達到順暢的交流。
所以,未來人工智慧發展的核心問題,應該聚焦在視覺智慧感知上面,讓機器能夠感知到的視覺資訊,包括各類物體的幾何拓撲特徵、視覺屬性、視覺特徵、運動特徵、空間位置特徵等,形成視覺資訊知識圖譜和知識網路,這樣的知識結構再與目前的知識圖譜和語音知識圖譜進行有效的結合,那麼,人工智慧時代必將會產生翻天覆地的變化。