DeepMind透過擁有2800億個引數的模型來測試大型人工智慧語言系統的極限
該公司新開發的人工智慧語言模型被命名為Gopher
語言生成是目前人工智慧領域的一大熱門。有一類稱為“大型語言模型”(即LLM)的系統能夠實現各種強大的功能,包括改進谷歌搜尋引擎、打造文字介面的奇幻遊戲等。但這些專案也存在嚴重的缺陷,比如會生搬硬套一些涉及性別歧視和種族主義的語言,以及無法透過邏輯推理測試。這就帶來了一大問題:只靠增加資料和算力能否克服這些弱點?或者說,這種技術正規化是否即將遇到瓶頸?
Alphabet的人工智慧實驗室DeepMind在2021年12月8日發表了三篇研究論文,其中就探討了這個課題。該公司得出的結論是,進一步擴大這些系統的規模應該能帶來長足的改進。DeepMind研究科學家告訴記者:“該論文的一項關鍵發現是,大型語言模型仍在進化,其能力仍在增強,這一領域還沒有進入停滯期。”
DeepMind經常將工作成果運用到谷歌產品中。它建立了一個擁有2800億個引數的語言模型,將其命名為Gopher,用來探究這種LLM的能力。引數的多少是衡量一種語言的模型大小和複雜程度的直觀標準。在這方面來說,Gopher比OpenAI的GPT-3(1750億個引數)更大,但不如一些更具實驗性的系統,比如微軟和英偉達的Megatron模型(5300億個引數)。
在人工智慧領域,一般來說是越大越好的,因為更大的模型通常能提供更高的效能。DeepMind的研究證實了這一趨勢,並表明擴大LLM的規模確實能在一些最常見的基準測試(例如情感分析和彙總)中提供更高的效能。然而,研究人員也提醒,要解決語言模型固有的一些問題,不能只依靠資料和計算。
該研究員說:“我認為目前看來,這個模型肯定會以各種方式失敗。其中一部分因素在於,模型無法充分理解它所讀取的內容,而且我感覺,對於這一類問題,我們只是寄希望於透過更多的資料和更大的規模來改善效能。”
但他又補充說,還存在“其他類別的問題,比如模型沒能擺脫老一套的偏見,或者模型被欺騙而給出不實資訊。而對於這些問題,DeepMind認為擴大規模也不是解決辦法。”他指出,在這些情況下,語言模型將需要“額外的訓練程式”,比如來自真人使用者的反饋。
為了得出這些結論,DeepMind的研究人員針對152項語言任務或基準測試,評估了一系列不同大小的語言模型。他們發現在一般情況下,模型越大,能提供的結果就越好。而在科學家選擇的大約80%的測試中,Gopher具有最先進的效能。
在另一篇論文中,該公司還調查了與部署LLM相關的各種潛在危害。舉例而言,系統可能使用有毒語言、分享錯誤資訊、被用於惡意目的(例如分享垃圾郵件或廣告宣傳)。隨著人工智慧語言模型的部署範圍越發廣泛(例如作為聊天機器人和銷售代理),上述所有問題都會顯得越發重要。
但值得注意的是,在評估機器學習系統時,基準測試的效能並不是終極標準。在最近的一篇論文中,一些人工智慧研究人員(其中兩人來自谷歌)探討了基準測試的侷限性。他們指出,這些資料集的範圍終歸是有限的,無法與現實世界的複雜性相提並論。要測試這些系統,唯一可靠的方法就是看實際應用中的表現——新技術都不外乎如是。而藉助大型語言模型,我們將很快看到更多這樣的應用。
稿件來源:https://www.theverge.com/2021/12/8/22822199/large-language-models-ai-deepmind-scaling-gopher
該公司新開發的人工智慧語言模型被命名為Gopher
語言生成是目前人工智慧領域的一大熱門。有一類稱為“大型語言模型”(即LLM)的系統能夠實現各種強大的功能,包括改進谷歌搜尋引擎、打造文字介面的奇幻遊戲等。但這些專案也存在嚴重的缺陷,比如會生搬硬套一些涉及性別歧視和種族主義的語言,以及無法透過邏輯推理測試。這就帶來了一大問題:只靠增加資料和算力能否克服這些弱點?或者說,這種技術正規化是否即將遇到瓶頸?
Alphabet的人工智慧實驗室DeepMind在2021年12月8日發表了三篇研究論文,其中就探討了這個課題。該公司得出的結論是,進一步擴大這些系統的規模應該能帶來長足的改進。DeepMind研究科學家告訴記者:“該論文的一項關鍵發現是,大型語言模型仍在進化,其能力仍在增強,這一領域還沒有進入停滯期。”
DeepMind經常將工作成果運用到谷歌產品中。它建立了一個擁有2800億個引數的語言模型,將其命名為Gopher,用來探究這種LLM的能力。引數的多少是衡量一種語言的模型大小和複雜程度的直觀標準。在這方面來說,Gopher比OpenAI的GPT-3(1750億個引數)更大,但不如一些更具實驗性的系統,比如微軟和英偉達的Megatron模型(5300億個引數)。
在人工智慧領域,一般來說是越大越好的,因為更大的模型通常能提供更高的效能。DeepMind的研究證實了這一趨勢,並表明擴大LLM的規模確實能在一些最常見的基準測試(例如情感分析和彙總)中提供更高的效能。然而,研究人員也提醒,要解決語言模型固有的一些問題,不能只依靠資料和計算。
該研究員說:“我認為目前看來,這個模型肯定會以各種方式失敗。其中一部分因素在於,模型無法充分理解它所讀取的內容,而且我感覺,對於這一類問題,我們只是寄希望於透過更多的資料和更大的規模來改善效能。”
但他又補充說,還存在“其他類別的問題,比如模型沒能擺脫老一套的偏見,或者模型被欺騙而給出不實資訊。而對於這些問題,DeepMind認為擴大規模也不是解決辦法。”他指出,在這些情況下,語言模型將需要“額外的訓練程式”,比如來自真人使用者的反饋。
為了得出這些結論,DeepMind的研究人員針對152項語言任務或基準測試,評估了一系列不同大小的語言模型。他們發現在一般情況下,模型越大,能提供的結果就越好。而在科學家選擇的大約80%的測試中,Gopher具有最先進的效能。
在另一篇論文中,該公司還調查了與部署LLM相關的各種潛在危害。舉例而言,系統可能使用有毒語言、分享錯誤資訊、被用於惡意目的(例如分享垃圾郵件或廣告宣傳)。隨著人工智慧語言模型的部署範圍越發廣泛(例如作為聊天機器人和銷售代理),上述所有問題都會顯得越發重要。
但值得注意的是,在評估機器學習系統時,基準測試的效能並不是終極標準。在最近的一篇論文中,一些人工智慧研究人員(其中兩人來自谷歌)探討了基準測試的侷限性。他們指出,這些資料集的範圍終歸是有限的,無法與現實世界的複雜性相提並論。要測試這些系統,唯一可靠的方法就是看實際應用中的表現——新技術都不外乎如是。而藉助大型語言模型,我們將很快看到更多這樣的應用。
稿件來源:https://www.theverge.com/2021/12/8/22822199/large-language-models-ai-deepmind-scaling-gopher