對人工智慧來說,理解資料很簡單,但要設計一個真正能夠檢驗機器理解能力的測試卻很困難。
還記得IBM的人工智慧程式“沃森”(Watson)嗎?2010年的一條宣傳語稱,“沃森能夠理解自然語言的模糊性和複雜性。”然而,正如我們所看到的,沃森後來在“運用人工智慧的醫學革命”探索中遭遇慘敗,表面上的語言能力並不等同於真正理解人類語言。
理解自然語言一直是人工智慧研究的主要目標之一。起初,研究人員試圖手動程式設計機器所需的一切,使其理解新聞故事、小說或其他人類可能編寫的東西。正如沃森所展示的那樣,這種方法是徒勞的,研究人員不可能將理解文字所需的所有不成文的事實、規則和假設都寫下來。
最近,一種新的正規化已經建立起來:與其構建明確的知識,不如讓機器自己學習理解語言,它所要做的,就是吸收大量的書面文字並學會預測單詞。研究人員將此稱為語言模型。2020年,美國舊金山的人工智慧公司OpenAI訓練並開發了一個自迴歸語言模型,稱為“生成型已訓練變換模型3”(Generative Pre-trained Transformer 3,簡稱 GPT-3)。當基於像GPT-3這樣的大型神經網路時,這些模型可以產出令人難以置信的,可與人類散文(和詩歌!)媲美的“作品”,並似乎能執行復雜的語言推理。
GPT-3是用成千上萬的網站、書籍和百科全書的文字訓練出來的,那我們能否說,它已經超越了沃森的“表面功夫”?它真的理解它產生的語言和表面上的推理?在人工智慧研究領域,這個話題存在著嚴重的分歧。
在過去,這樣的討論是哲學家的研究範疇,但在過去十年間,人工智慧已經衝破了學術圈層,進入了現實世界;有人認為,人工智慧對現實世界的缺乏理解可能會產生真實的、甚至是毀滅性的後果。在一項研究中,沃森提出了“許多不安全和不正確的治療建議”。另一項研究表明,谷歌的機器翻譯系統在為非英語患者翻譯醫療說明時,出現了一些重大錯誤。
那麼,我們如何在實踐中確定機器真的具有理解能力?1950年,計算機先驅阿蘭·圖靈試圖用他著名的“模仿遊戲”來回答這個問題,這個遊戲現在被稱為“圖靈測試”。一個機器如果能和一個人展開對話(透過電傳裝置),而不被辨別出誰是人類,誰是機器,那麼我們就應該認為這臺機器具有智慧,即它是能思考的,具有理解能力。
不幸的是,圖靈低估了人類被機器愚弄的傾向。即使是簡單的聊天機器人,比如德裔美國計算機科學家約瑟夫·魏森鮑姆在20世紀60年代發明的人工智慧心理治療師“Eliza”,也會欺騙人們,讓他們相信自己是在和一個善解人意的人交談,即使知道他們的談話物件是一臺機器。
在2012年的一篇論文中,計算機科學家赫克託·萊韋斯克、歐內斯特·戴維斯和萊奧拉·摩根斯坦提出了一個更客觀的機器智慧測試,他們稱之為“威諾格拉德模式挑戰”(Winograd schema challenge,簡稱WSC)。這項測試已經被人工智慧語言社群採用,作為評估機器理解能力的一種方式,也許是最好的方式——儘管目前來看還尚不完美。該測試以斯坦福大學語言研究者和計算機科學家特里·威諾格拉德的名字命名,由兩個句子組成,二者僅有一個單詞不同,然後緊接著一個問題。機器需要識別問題中的前指關係,即指出問題中某一代詞的先行詞。為了正確回答問題,機器需要擁有常識推理的能力。以下是兩個例子:
句子1:我把水從瓶子裡倒進杯子裡,直到它滿為止。
問題:什麼滿了,瓶子還是杯子?
句子2:我把瓶子裡的水倒進杯子裡,直到它空為止。
問題:什麼空了,瓶子還是杯子?
句子1:喬的叔叔打網球仍然能贏他,儘管他大了30歲。
問題:誰更年長,喬還是喬的叔叔?
句子2:喬的叔叔打網球仍然能贏他,儘管他年輕了30歲。
問題:誰更年輕,喬還是喬的叔叔?
對於特定的威諾格拉德模式集,神經網路語言模型達到了約97%的準確率。這大致可以和人類的表現相媲美。
在每一對句子中,一個詞的差異可以改變代詞指的是什麼東西或什麼人。正確回答這些問題需要一定的常識推理能力。威諾格拉德模式的設計正是為了測試這種理解能力,減輕了圖靈測試在不可靠的人類判斷或聊天機器人技巧下的弱點。特別是,該挑戰的作者設計了幾百種他們認為是“無法搜尋”的模式:機器不應該使用谷歌搜尋(或類似的任何東西)來獲得正確的問題答案。
威諾格拉德模式是2016年舉行的一場比賽的主題,在比賽中獲勝的程式只理解對了58%的句子——很難說比瞎猜的結果好多少。人工智慧研究專家奧倫·埃齊奧尼打趣道:“當人工智慧無法確定一個句子中的‘它’指的是什麼時,很難相信它會接管世界。”
然而,由於大型神經網路語言模型的出現,人工智慧程式解決威諾格拉德模式挑戰的能力正迅速提升。OpenAI公司在2020年的一篇論文報告稱,在威諾格拉德模式的基準測試集中,GPT-3在近90%的句子上是正確的。其他的語言模型在經過這些任務的專門訓練後,表現得甚至更好。在撰寫本文時,神經網路語言模型在一組特定的威諾格拉德模式——SuperGLUE基準測試資料集的一部分——上達到了約97%的準確率。如此高的準確性已經大致相當於人類的表現。那麼,這是否意味著神經網路語言模型已經獲得了類似人類的理解能力?
不一定。儘管建立者盡了最大的努力,但這些威諾格拉德模式實際上並不能“免於谷歌搜尋”。這些挑戰,就像目前許多其他人工智慧語言理解測試一樣,有時會允許神經網路在沒有理解的情況下也能很好地執行。例如,考慮以下句子,“跑車超過了郵車,因為它行駛得更快”和“跑車超過了郵車,因為它行駛得更慢”。一個在大量英語句子語料庫上訓練的語言模型會歸納“跑車”和“快”、“郵車”和“慢”之間的相關性,從而可以僅基於這些相關性而不是利用任何理解能力來做出正確回答。結果是,在SuperGLUE測試中,許多威諾格拉德模式允許使用這種型別的統計相關性。
艾倫人工智慧研究所的一組研究人員沒有放棄將威諾格拉德模式作為機器智慧理解能力的測試,而是嘗試解決其存在的一些問題。2019年,他們建立了“WinoGrande”,一個更大的威諾格拉德模式集。WinoGrande包含了多達44000個語句,而不是僅有數百個例子。為了獲得如此大量的語句,研究人員求助於流行的眾包工作平臺“亞馬遜土耳其機器人”(Amazon Mechanical Turk)。在這個平臺上,每個(人類)工作者被要求寫下幾對句子,並加上一些約束,以確保集合中包含不同的主題。不過,現在每對句子中可能會有不止一個單詞的差異。
然後,研究人員試圖將一種相對簡單的人工智慧方法應用到每個句子上,剔除那些過於容易回答的句子,從而消除可能出現的統計捷徑。正如預期的那樣,對機器來說,剩下的句子比最初的威諾格拉德模式集要困難得多。人類的得分仍然很高,但與人類表現相匹配的神經網路語言模型在WinoGrande集合中的得分要低得多。這個新的挑戰似乎彌補了威諾格拉德模式作為常識理解測試的缺陷——只要句子經過仔細篩選,就能確保它們不受“谷歌搜尋”的影響。
然而,一個新的驚喜正在醞釀。在WinoGrande模式集釋出後的近兩年時間裡,神經網路語言模型變得越來越大,它們在這個新挑戰中的得分似乎也越來越高。在撰寫本文時,目前最好的程式——已經在太位元組(TB)級別的文字上進行了訓練,然後在數以千計的WinoGrande示例上進行了進一步的訓練——準確率接近90%(人類的準確率約為94%)。這種表現的提升幾乎完全歸功於神經網路語言模型及其訓練資料規模的增加。
那麼,這些規模越來越大的神經網路最終能獲得像人類一樣的常識理解能力嗎?答案同樣是否定的。WinoGrande的研究結果有一些重要的警示。例如,由於句子依賴於“亞馬遜土耳其機器人”的工作者,寫作的質量和連貫性相當不均衡。同時,在清除“不能免於谷歌搜尋”的句子時,“不夠成熟”的人工智慧方法可能過於簡單,不僅找出了所有可能用於大型神經網路的統計捷徑,而且可能只應用在個別句子上,導致一些餘下的句子最終失去了“孿生語句”。一項後續研究表明,當神經網路語言模型只對兩個“孿生”句子進行測試——並且要求兩個句子都正確——的時候,其準確率要比人類低得多。這意味著,早先準確率接近90%的結果並沒有看上去的那麼顯著。
那麼,我們應該如何看待威諾格拉德模式挑戰?主要的教訓是,我們通常很難從人工智慧系統在特定挑戰中的表現來判斷它們是否真正理解其所處理的語言(或其他資料)。我們現在知道,神經網路經常使用統計捷徑——而不是實際類似於人類的理解能力——以在威諾格拉德模式以及許多最流行的“通用語言理解”基準測試中獲得上佳表現。
問題的關鍵在於,理解語言的前提是理解世界,而只接觸語言的機器無法獲得這樣的理解。例如,讓我們理解一下“跑車超過了郵車,因為它行駛得更快”這句話是什麼意思。首先,你需要知道跑車和郵車分別是什麼,而兩種車之間可以互相“超車”;此外,在更基本的層面上,車輛存在於這個世界上,能與其他事物產生互動,而且由人類駕駛,有著各自的用途。
在我們人類的認知中,所有這些都是理所當然的知識,但它們並沒有內建在機器當中,也不可能明確地記錄在任何語言模型的訓練文字中。一些認知科學家認為,人類依靠先天的、非語言的核心知識來學習和理解語言,這些核心知識包含了空間、時間和其他許多關於世界的基本屬性。如果我們想讓機器同樣掌握人類語言,首先就需要賦予它們人類與生俱來的基本原則。在評估機器的理解能力時,我們應該從評估它們對這些原則的理解開始,這或許可以稱為“嬰兒形而上學”。
與沃森和GPT-3等人工智慧系統的驚人成就相比,訓練和評估嬰兒水平的機器智慧似乎是一個巨大的倒退。但如果我們的目標是讓人工智慧擁有真實可信的理解能力,這可能是唯一的途徑;只有這樣,機器才能真正理解句子中的“它”指的是什麼,同時也理解與“它”有關的其他所有一切。
還記得IBM的人工智慧程式“沃森”(Watson)嗎?2010年的一條宣傳語稱,“沃森能夠理解自然語言的模糊性和複雜性。”然而,正如我們所看到的,沃森後來在“運用人工智慧的醫學革命”探索中遭遇慘敗,表面上的語言能力並不等同於真正理解人類語言。
理解自然語言一直是人工智慧研究的主要目標之一。起初,研究人員試圖手動程式設計機器所需的一切,使其理解新聞故事、小說或其他人類可能編寫的東西。正如沃森所展示的那樣,這種方法是徒勞的,研究人員不可能將理解文字所需的所有不成文的事實、規則和假設都寫下來。
最近,一種新的正規化已經建立起來:與其構建明確的知識,不如讓機器自己學習理解語言,它所要做的,就是吸收大量的書面文字並學會預測單詞。研究人員將此稱為語言模型。2020年,美國舊金山的人工智慧公司OpenAI訓練並開發了一個自迴歸語言模型,稱為“生成型已訓練變換模型3”(Generative Pre-trained Transformer 3,簡稱 GPT-3)。當基於像GPT-3這樣的大型神經網路時,這些模型可以產出令人難以置信的,可與人類散文(和詩歌!)媲美的“作品”,並似乎能執行復雜的語言推理。
GPT-3是用成千上萬的網站、書籍和百科全書的文字訓練出來的,那我們能否說,它已經超越了沃森的“表面功夫”?它真的理解它產生的語言和表面上的推理?在人工智慧研究領域,這個話題存在著嚴重的分歧。
在過去,這樣的討論是哲學家的研究範疇,但在過去十年間,人工智慧已經衝破了學術圈層,進入了現實世界;有人認為,人工智慧對現實世界的缺乏理解可能會產生真實的、甚至是毀滅性的後果。在一項研究中,沃森提出了“許多不安全和不正確的治療建議”。另一項研究表明,谷歌的機器翻譯系統在為非英語患者翻譯醫療說明時,出現了一些重大錯誤。
那麼,我們如何在實踐中確定機器真的具有理解能力?1950年,計算機先驅阿蘭·圖靈試圖用他著名的“模仿遊戲”來回答這個問題,這個遊戲現在被稱為“圖靈測試”。一個機器如果能和一個人展開對話(透過電傳裝置),而不被辨別出誰是人類,誰是機器,那麼我們就應該認為這臺機器具有智慧,即它是能思考的,具有理解能力。
不幸的是,圖靈低估了人類被機器愚弄的傾向。即使是簡單的聊天機器人,比如德裔美國計算機科學家約瑟夫·魏森鮑姆在20世紀60年代發明的人工智慧心理治療師“Eliza”,也會欺騙人們,讓他們相信自己是在和一個善解人意的人交談,即使知道他們的談話物件是一臺機器。
在2012年的一篇論文中,計算機科學家赫克託·萊韋斯克、歐內斯特·戴維斯和萊奧拉·摩根斯坦提出了一個更客觀的機器智慧測試,他們稱之為“威諾格拉德模式挑戰”(Winograd schema challenge,簡稱WSC)。這項測試已經被人工智慧語言社群採用,作為評估機器理解能力的一種方式,也許是最好的方式——儘管目前來看還尚不完美。該測試以斯坦福大學語言研究者和計算機科學家特里·威諾格拉德的名字命名,由兩個句子組成,二者僅有一個單詞不同,然後緊接著一個問題。機器需要識別問題中的前指關係,即指出問題中某一代詞的先行詞。為了正確回答問題,機器需要擁有常識推理的能力。以下是兩個例子:
句子1:我把水從瓶子裡倒進杯子裡,直到它滿為止。
問題:什麼滿了,瓶子還是杯子?
句子2:我把瓶子裡的水倒進杯子裡,直到它空為止。
問題:什麼空了,瓶子還是杯子?
句子1:喬的叔叔打網球仍然能贏他,儘管他大了30歲。
問題:誰更年長,喬還是喬的叔叔?
句子2:喬的叔叔打網球仍然能贏他,儘管他年輕了30歲。
問題:誰更年輕,喬還是喬的叔叔?
對於特定的威諾格拉德模式集,神經網路語言模型達到了約97%的準確率。這大致可以和人類的表現相媲美。
在每一對句子中,一個詞的差異可以改變代詞指的是什麼東西或什麼人。正確回答這些問題需要一定的常識推理能力。威諾格拉德模式的設計正是為了測試這種理解能力,減輕了圖靈測試在不可靠的人類判斷或聊天機器人技巧下的弱點。特別是,該挑戰的作者設計了幾百種他們認為是“無法搜尋”的模式:機器不應該使用谷歌搜尋(或類似的任何東西)來獲得正確的問題答案。
威諾格拉德模式是2016年舉行的一場比賽的主題,在比賽中獲勝的程式只理解對了58%的句子——很難說比瞎猜的結果好多少。人工智慧研究專家奧倫·埃齊奧尼打趣道:“當人工智慧無法確定一個句子中的‘它’指的是什麼時,很難相信它會接管世界。”
然而,由於大型神經網路語言模型的出現,人工智慧程式解決威諾格拉德模式挑戰的能力正迅速提升。OpenAI公司在2020年的一篇論文報告稱,在威諾格拉德模式的基準測試集中,GPT-3在近90%的句子上是正確的。其他的語言模型在經過這些任務的專門訓練後,表現得甚至更好。在撰寫本文時,神經網路語言模型在一組特定的威諾格拉德模式——SuperGLUE基準測試資料集的一部分——上達到了約97%的準確率。如此高的準確性已經大致相當於人類的表現。那麼,這是否意味著神經網路語言模型已經獲得了類似人類的理解能力?
不一定。儘管建立者盡了最大的努力,但這些威諾格拉德模式實際上並不能“免於谷歌搜尋”。這些挑戰,就像目前許多其他人工智慧語言理解測試一樣,有時會允許神經網路在沒有理解的情況下也能很好地執行。例如,考慮以下句子,“跑車超過了郵車,因為它行駛得更快”和“跑車超過了郵車,因為它行駛得更慢”。一個在大量英語句子語料庫上訓練的語言模型會歸納“跑車”和“快”、“郵車”和“慢”之間的相關性,從而可以僅基於這些相關性而不是利用任何理解能力來做出正確回答。結果是,在SuperGLUE測試中,許多威諾格拉德模式允許使用這種型別的統計相關性。
艾倫人工智慧研究所的一組研究人員沒有放棄將威諾格拉德模式作為機器智慧理解能力的測試,而是嘗試解決其存在的一些問題。2019年,他們建立了“WinoGrande”,一個更大的威諾格拉德模式集。WinoGrande包含了多達44000個語句,而不是僅有數百個例子。為了獲得如此大量的語句,研究人員求助於流行的眾包工作平臺“亞馬遜土耳其機器人”(Amazon Mechanical Turk)。在這個平臺上,每個(人類)工作者被要求寫下幾對句子,並加上一些約束,以確保集合中包含不同的主題。不過,現在每對句子中可能會有不止一個單詞的差異。
然後,研究人員試圖將一種相對簡單的人工智慧方法應用到每個句子上,剔除那些過於容易回答的句子,從而消除可能出現的統計捷徑。正如預期的那樣,對機器來說,剩下的句子比最初的威諾格拉德模式集要困難得多。人類的得分仍然很高,但與人類表現相匹配的神經網路語言模型在WinoGrande集合中的得分要低得多。這個新的挑戰似乎彌補了威諾格拉德模式作為常識理解測試的缺陷——只要句子經過仔細篩選,就能確保它們不受“谷歌搜尋”的影響。
然而,一個新的驚喜正在醞釀。在WinoGrande模式集釋出後的近兩年時間裡,神經網路語言模型變得越來越大,它們在這個新挑戰中的得分似乎也越來越高。在撰寫本文時,目前最好的程式——已經在太位元組(TB)級別的文字上進行了訓練,然後在數以千計的WinoGrande示例上進行了進一步的訓練——準確率接近90%(人類的準確率約為94%)。這種表現的提升幾乎完全歸功於神經網路語言模型及其訓練資料規模的增加。
那麼,這些規模越來越大的神經網路最終能獲得像人類一樣的常識理解能力嗎?答案同樣是否定的。WinoGrande的研究結果有一些重要的警示。例如,由於句子依賴於“亞馬遜土耳其機器人”的工作者,寫作的質量和連貫性相當不均衡。同時,在清除“不能免於谷歌搜尋”的句子時,“不夠成熟”的人工智慧方法可能過於簡單,不僅找出了所有可能用於大型神經網路的統計捷徑,而且可能只應用在個別句子上,導致一些餘下的句子最終失去了“孿生語句”。一項後續研究表明,當神經網路語言模型只對兩個“孿生”句子進行測試——並且要求兩個句子都正確——的時候,其準確率要比人類低得多。這意味著,早先準確率接近90%的結果並沒有看上去的那麼顯著。
那麼,我們應該如何看待威諾格拉德模式挑戰?主要的教訓是,我們通常很難從人工智慧系統在特定挑戰中的表現來判斷它們是否真正理解其所處理的語言(或其他資料)。我們現在知道,神經網路經常使用統計捷徑——而不是實際類似於人類的理解能力——以在威諾格拉德模式以及許多最流行的“通用語言理解”基準測試中獲得上佳表現。
問題的關鍵在於,理解語言的前提是理解世界,而只接觸語言的機器無法獲得這樣的理解。例如,讓我們理解一下“跑車超過了郵車,因為它行駛得更快”這句話是什麼意思。首先,你需要知道跑車和郵車分別是什麼,而兩種車之間可以互相“超車”;此外,在更基本的層面上,車輛存在於這個世界上,能與其他事物產生互動,而且由人類駕駛,有著各自的用途。
在我們人類的認知中,所有這些都是理所當然的知識,但它們並沒有內建在機器當中,也不可能明確地記錄在任何語言模型的訓練文字中。一些認知科學家認為,人類依靠先天的、非語言的核心知識來學習和理解語言,這些核心知識包含了空間、時間和其他許多關於世界的基本屬性。如果我們想讓機器同樣掌握人類語言,首先就需要賦予它們人類與生俱來的基本原則。在評估機器的理解能力時,我們應該從評估它們對這些原則的理解開始,這或許可以稱為“嬰兒形而上學”。
與沃森和GPT-3等人工智慧系統的驚人成就相比,訓練和評估嬰兒水平的機器智慧似乎是一個巨大的倒退。但如果我們的目標是讓人工智慧擁有真實可信的理解能力,這可能是唯一的途徑;只有這樣,機器才能真正理解句子中的“它”指的是什麼,同時也理解與“它”有關的其他所有一切。