————人工智慧是否能真正地理解人類語言?
當前的人工智慧似乎很容易理解資料,但事實證明,設計對機器是否真正“理解”人類語言的測試很困難。2010年,一項人工智慧挑戰活動中來自IBM的Watson人工智慧獲得冠軍,隨後IBM宣稱:“Watson能夠理解人類自然語言的所有歧義和複雜性”。在這十年中,社會各界對人工智慧一片“唱響”,但是計算機科學家們透過長時間的研究發現我們高興的還是太早了!
雖然人工智慧在這十年中在各行業領域都發揮出了巨大的優勢,但是經過十年的發展,人工智慧可能要再次面臨瓶頸期。科學家在隨後尋求“用Watson人工智慧徹底改變醫學”的過程中就慘遭失敗,最近科研人員發現與Watson人工智慧在醫學上失敗一樣,人工智慧對人類語言的處理能力實際上處於“表層理解”與實際理解人類語言並不相同。
自然語言理解長期以來一直是人工智慧研究的主要目標。人工智慧發展初期,研究人員試圖手動程式設計機器需要理解人類的新聞故事、小說或人類可能表達的任何內容。但這種方法是徒勞的——不可能寫下理解文字所需的所有規則和假設,包括成文的和不成文的。
隨著機器神經網路的快速發展,人工智慧建立起語言識別的新模式——透過神經網路讓機器自己學習理解語言,只需為機器訓練大量文字並學習預測單詞即可,這就是目前的建立語言模型基本方法。
基於大型神經網路的人工智慧,比如OpenAI的GPT-3,這樣的模型甚至可以生成不可思議的人類散文和詩歌並且似乎能夠執行復雜的語言推理。
雖然GPT-3對來自數千個網站資料、書籍和百科全書的文字進行訓練,但是GPT-3是否就正在超越了Watson的“表面理解”模式?GPT-3真的理解它生成的語言所代表的推理嗎?目前這是AI研究界存在明顯分歧的話題。
此類討論曾經是哲學家的職權範圍,但在過去十年中,人工智慧已經從學術泡沫中迸發出來,進入了現實世界,它對現實世界缺乏的瞭解可能會產生真實的、甚至是毀滅性的後果。
科幻電影---機械公敵海報
在科研人員對IBM的Watson人工智慧應用於醫療實踐中,發現Watson多次對患者提出極不安全和不正確治療建議,谷歌的機器翻譯系統在為非英語患者翻譯醫療說明時也出現過重大錯誤(事實證明醫療藥品的英文說明不能指望機器翻譯,因為它可能會讓您“吃出毛病”)。
但是我們如何在實踐中確定機器是否可以理解?1950年,計算先驅艾倫圖靈試圖用他著名的“模仿遊戲”來回答這個問題,現在稱為圖靈測試。一臺機器和一個人都隱藏在幕後,僅使用對話的方式讓對面的測試者判斷哪個才是真人。如果測試者無法分辨哪個是人類,那麼,我們應該認為機器正在以人類的方式思考——實際上就是理解人類的語言。
不幸的是,不是圖靈高了機器,而是高估了人類。例如,1960年代的機器心理治療師Eliza是一個很簡單的聊天機器人,它也會欺騙人們,讓人們相信他們正在與正常人類交談,難以理解的是即使人們知道他們對話的夥伴是一臺機器,仍然有很多人相信對面是一個人!
2012年的一篇論文中,計算機科學家提出了一個更客觀的測試,稱之為“威諾格拉德模式挑戰(Winograd)”的模式挑戰。此測試已被AI語言領域廣泛採用,作為評估機器理解能力的一種有效方式,也許是最好的方式——儘管它並不完美。模式由一對句子組成,這些句子僅相差一個詞,每個句子後跟一個問題。
【威諾格拉德模式挑戰:英語:Winograd Schema Challenge,縮寫WSC,是多倫多大學計算機科學家提出的機器智慧測試,該測試是對傳統圖靈測試的改進,在機器不能使用谷歌搜尋(或類似搜尋引擎)來正確回答問題的前提下,透過向機器詢問特別設計的選擇題來檢測其人機互動的智慧水平】
這裡有兩個例子:
例一
第1句:我把瓶子裡的水倒進杯子裡,直到它滿了。
問題:什麼是滿的,瓶子還是杯子?
第2句:我把瓶子裡的水倒進杯子裡,直到杯子空了。
問題:什麼是空的,瓶子還是杯子?
例二
第1句:喬的叔叔在網球上仍然可以擊敗他,儘管他已經 30 歲了。
問題:誰大,喬還是喬的叔叔?
第2句:喬的叔叔在網球上仍然可以擊敗他,即使他比他年輕 30 歲。
問題:誰更年輕,喬還是喬的叔叔?
基於神經網路的語言模型在測試上達到了大約 97% 的準確率,這大致相當於人類的表現。
在每個句子對話中,一個詞的差異可以改變代詞所指的事物或人。正確回答這些問題似乎需要常識性的理解。“威諾格拉德模式挑戰(Winograd)”正是為了測試這種理解而設計的,目的是儘量減少人工智慧對人類語言的誤解和理解上的脆弱性。
隨著大型神經網路語言模型的出現,人工智慧程式解決 Winograd 模式的能力迅速提高。2020年,OpenAI的GPT-3透過Winograd測試的準確率達到90%,在專門針對這些任務進行訓練後,其他語言模型的表現甚至更好。最近的人工智慧語言理解競賽SuperGLUE,某神經網路語言模型達到了約 97% 的準確率,這種準確性接近人類的水平。
這是否意味著神經網路語言模型已經達到了人類的理解水平?
不必然,儘管競賽建立者盡了最大的努力使競賽的問題無法透過谷歌或其他引擎搜尋,但是這些挑戰,就像許多其他當前的人工智慧語言理解測試一樣,對於神經網路在不理解的情況下也能表現良好成績是允許的(高分低能)。
例如,句子“跑車超過郵車因為它開得更快”和“跑車超過郵車因為它開得更慢”。透過龐大英語詞、句語料庫上訓練的語言模型將吸收“跑車”和“快”之間以及“郵車”和“慢”之間的數學相關性。因此,僅僅根據大量資料訓練出來的關聯性不用借鑑任何理解也能正確的回答類似問題。目前各類類似SuperGLUE的比賽中無法排除利用統計相關性作答正確的情況。
當前神經網路語言模型已經變得越來越大,而且它們越大在這種挑戰中的得分就越高。目前最好的神經網路語言模型——已經在TB級文字上進行訓練,然後在數千個WinoGrande(Winograd等增強版本)示例上再進一步訓練——已經能夠接近90% 的正確率(人類獲得大約 94% 的正確率)。這種效能的提高几乎完全是由於神經網路語言模型及其訓練資料大小增加的。
理解語言需要理解世界,而只接觸語言的機器無法獲得這樣的理解。
這些越來越大的神經網路語言模型最終是否達到了人類的常識性理解?部分科研人員認為這不太可能。WinoGrande競賽的結果帶有一些重要的警示意義。例如,由於挑戰賽的句子依賴於人工編寫,因此編寫的質量和連貫性參差不齊。此外,用於剔除“谷歌搜尋”句子的方法可能過於簡單,人工又無法發現大型神經網路所有的統計捷徑。
當前的問題關鍵在於理解語言需要理解世界,而只接觸語言的機器是無法獲得這樣的理解。人類理解“跑車超過郵車因為它開得更慢”的含義相比機器要廣泛和深層的多。“跑車超過郵車因為它開得更慢”的人類理解含義是:開跑車的人嫌郵車開得慢,人的理解是建立在人驅動車的基礎上,而不是跑車與快、郵車與慢的關聯性統計。語言真正代表的是人類思想的表達,而不是當前人工智慧資料關聯性的統計。
人工智慧的機器可以在閱讀測試中擊敗人類,但他們真的明白嗎?
透過最新生物神經學的研究成果,人腦神經網路的複雜程度和工作模式遠遠不是現在的人工智慧比擬的,人類大腦僅僅百萬分之的神經元對映資料就需要1.4 PB(計算機儲存單位1.4 PB=1024TB)計算機儲存空間。人類大腦擁有860 億個神經元,每一個神經元都與其他神經元之間會有數十個至上千的連線,甚至於神經元的連線也有可能拓展至量子領域,計算這種網路結構的複雜性已經不亞於天文學和量子力學的計算量,這也是人類大腦可以用無數種方式做事的根本原因。(關於人類大腦神經網路的最新科研進展,有興趣的讀者可以查閱作者之前釋出的文章“科學家即將揭示人類大腦神經網路結構的奧秘”)
人類神經網路結構
人類神經網路對映
為什麼像AlphaZero這樣的人工智慧在現實世界中遇到諸多麻煩?所有這些機器遇到的問題都是我們人類認為理所當然的常識,但這些常識現在還無法內建到機器中,也沒有可能性寫在任何語言模型的訓練文字中。人類依賴於空間、時間和許多其他先天的、語言之前就具備基本屬性來學習和理解語言。
神經網路使用的是統計捷徑——而不是實際展示對人類語言的理解能力!語言代表的是思想,而解析人類複雜的大腦和看似無限的神經元連線結構是一項極其宏偉的挑戰,考驗著人類和人工智慧的極限。
當前社會的“量子熱”、“人工智慧熱”需要以發展的角度“降降溫”、“去去火”,要知道任何科學技術的突破是都是逐步積累的過程,沒有積累便不會有飛躍。在人類生物神經學和量子計算兩大領域方向沒有取得重大實質性突破前,當前的人工智慧很難產生第三次飛躍,人工智慧領域也將迎來第二次技術沉澱期,當然技術沉澱不代表不進步,目前人工智慧的應用領域還是十分廣闊的,現有的研究成果也足夠促進人類文明前進一大步。