21世紀經濟報道記者楊清清 北京報道
作為當前人工智慧發展的重要方向,預訓練大模型已成為AI領域的技術新高地。
據不完全統計,目前AI大模型已經吸引了包括谷歌、微軟、英偉達、華為、百度、阿里等科技巨頭以及多個科研機構參與其中,各家大模型的引數量級也從千億、萬億,迅速提升至10萬億級別。
不過,在AI大模型熱度持續攀升的過程中,各家的佈局重點有所不同。近日,鵬城實驗室與百度聯合召開發佈會,正式釋出雙方共同研發的鵬城-百度·文心(模型版本號:ERNIE 3.0 Titan)。據介紹,該模型引數規模達到2600億,是目前全球最大中文單體模型,也是全球首個知識增強千億大模型。
“如果將這個模型的特點總結為一條,就是知識增強。”在接受包括21世紀經濟報道在內的媒體採訪時,百度集團副總裁吳甜分析稱,“同時,在融入知識的基礎上,該模型也會進行跨語言學習、跨模態學習,從而體現出學習效率更高、學習能力更強的優勢。”
知識增強大模型
鵬城-百度·文心知識增強大模型的最大特點,在於其在學習過程中融入知識,進而實現將海量知識與海量資料進行同時融合的學習。
在吳甜看來,知識帶來的優勢在於學習效率更高。據介紹,鵬城-百度·文心知識增強大模型在包括機器閱讀理解、文字分類、語義相似度計算等60多項任務上取得最好效果,並在30餘項小樣本和零樣本任務上重新整理基準。
“這說明模型本身的效果足夠好。”吳甜分析稱,“我們看到那60多個任務是各種各樣的不同任務,體現出模型具備較好的通用性。同時在30多項小樣本、零樣本學習上,模型也取得了更好效果,意味著它的泛化能力更強,在看到不同場景和任務的時候可以透過少量資料標記就能實現良好效果。”
需要注意的是,早在今年1月,谷歌便釋出了全球首個萬億級模型Switch Transformer,引數規模達到1.6萬億。11月,阿里巴巴達摩院公佈的多模態大模型M6的引數規模更是躍升至10萬億級別,成為全球最大的AI預訓練模型。
相較之下,鵬城-百度·文心知識增強大模型的引數規模僅2600億,如何看待這樣的規模量級?
吳甜解釋稱,當前AI預訓練大模型分為“單體模型”和“混合專家模型”兩類。所謂單體模型也是稠密模型,具備稠密引數,將所有資料中習得的規律都記錄在一張網路內,使用時網路上的任何點位都會被計算到,鵬城-百度·文心知識增強大模型正屬於此類。
“混合專家模型”則是稀疏模型,是由多個不同網路透過門控機制整合在一起,在單次計算中可能只會使用部分子網路的引數。目前,兩類大模型也代表了不同的AI預訓練的技術方向。
“目前來說,我們能看到最大發布的單體模型是千億量級的,市面上的萬億、十萬億等都是混合專家模型。”吳甜表示,“到現在還沒有公開研究表明,萬億乃至十萬億的混合專家模型效果能夠媲美千億的單體模型,這個問題本身還值得進一步繼續研究。”
降低AI應用門檻
大模型近年來受到追捧,並非沒有原因。
本輪的第三次人工智慧浪潮中,伴隨著高效能計算機、因特網、大資料、感測器的普及,以及計算成本的下降,“機器學習”隨之興起。所謂機器學習(Machine leaning),是指讓計算機大量學習資料,使它可以像人類一樣辨識聲音及影像,或是針對問題做出合適的判斷。
其中,最受關注的莫過於深度學習,亦即透過模仿人腦的“類神經網路”(Neural network)來學習大量資料的手法。深度學習的演進與發展則源自大資料、大算力、大模型三大支撐。
在吳甜看來,從某種程度而言,這三大支撐要素也構成了深度學習及人工智慧技術的瓶頸所在,包括大量的資料標註背後高昂的成本、資料標註本身的天花板等都是難題所在。與之相對應的,預訓練技術則解決了讓演算法在海量無標記資料中進行自監督學習,從而帶來技術上的突破與變化。
“隨著預訓練技術的突破,幾乎可以認為所有任務現在都是基於預訓練機制實現全面的效果提升。”吳甜解釋稱,“而透過大算力平臺支撐,實現時間、模型體積、引數規模的增長,進而便形成當前一系列大模型的誕生。”
從這個角度而言,預訓練大模型具備相當的價值。“大模型對於產業而言,其意義在於降低了AI應用門檻。”吳甜表示。
在吳甜看來,目前行業內的AI技術應用存在兩大困難。首先在於資料標註非常昂貴,甚至在特定場景內無法完成大批次批註,另一方面在行業應用中,行業自身的知識積累至關重要。預訓練大模型的推出,則能夠在不具備大量資料標註的同時保證了技術基礎底座,疊加行業“基本功”便能夠實現AI技術的快速落地。
據介紹,目前百度文心透過百度飛槳平臺陸續對外開源開放,並已大規模應用於百度搜索、資訊流、智慧音箱等網際網路產品,同時透過百度智慧雲賦能工業、能源、金融、通訊、媒體、教育等各行各業。
更多內容請下載21財經APP