“小樣本學習”(Few-Shot Learner)系統只需極少量的樣本即可識別出問題帖子,而且支援100多種語言。
最近從臉書洩露的一批檔案表明,這家社交網路公司正致力於在矽谷以外的地區遏制有害內容散播。臉書擔心針對巴基斯坦和衣索比亞使用語言的內容稽核演算法不夠完善,而且該公司也缺乏足夠的訓練資料來最佳化系統以適應阿拉伯語的不同方言。
臉書的母公司Meta Platforms Inc表示,已針對部分任務上線了一個新的人工智慧稽核系統,該系統相比早期系統只需要極少量的樣本資料,因而能更快地適應新的稽核規則。臉書表示“小樣本學習”系統支援100多種語言,不僅可以處理文字,還可以處理影象。
“小樣本學習”系統將新稽核規則實現自動執行所需的時間從六個月左右縮短為六個星期左右。該系統有助於執行9月出臺的一條規則,即封禁所有煽動人們拒絕接種新冠疫苗的帖子。臉書還表示,“小樣本學習”系統在今年年初上線後到今年10月,全球範圍內仇恨言論的傳播率較2020年年中呈下降趨勢,但臉書並未透露新系統的效能資料。
新系統並不能解決臉書在內容稽核上面臨的所有挑戰,但這開啟了臉書藉助人工智慧技術來應對這些挑戰的先河。一方面臉書的全球使用者不斷增長,另一方面它也滋生了仇恨、騷擾和種族歧視言論。據聯合國稱,針對緬甸羅興亞穆斯林的種族滅絕言論在臉書上非常盛行。臉書一直強調人工智慧是監控臉書龐大網路的唯一可行的方法。雖然最近取得了一些進步,但要理解人類語言交流的微妙之處,這項技術還有很長的路要走。臉書已支援100多種語言,但其已有的自動化系統僅能識別50多種語言的仇恨言論和恐怖主義內容,難以滿足需求。
“小樣本學習”是更強大、更復雜的新一代人工智慧系統的典範。此類系統問世後迅速受到科技公司和人工智慧研究人員的青睞,但也引起了公眾對偏見等負面影響的擔憂。
像“小樣本學習”這樣的模型可以先透過大量原始未標註的樣本資料進行預訓練,然後只需極少量經過仔細標記的樣本資料,便可提煉出一些基本規律,進而調整系統以適應特定型別的任務。
谷歌利用BERT系統改進了搜尋引擎,因為它發現透過對來自網路和書籍的數十億個單詞進行預訓練後,該系統具備更強大的文字處理能力。該公司的兩位人工智慧專家後來因一篇敦促人們謹慎對待此類系統的論文引發爭議而被公司開除。微軟投資的人工智慧公司OpenAI表示,其自研的大型語言模型GPT-3可以生成流暢的文字和程式程式碼。
“小樣本學習”基於100多種語言數十億計的帖子和圖片進行了預訓練。該系統利用這些資料來建立臉書內容統計模式的內部感知。用先前稽核內容時標記的帖子和影象資料進行附加訓練,並簡化對這些帖子所違反規則的描述,從而調整系統以匹配內容稽核場景。
臉書負責人工智慧輔助內容稽核的產品經理Cornelia Carapcea表示,在準備工作完成後,該系統可以識別新型別的內容,比如執行新的稽核規則或擴充套件識別一種新語言,而這比以前的稽核模式要輕鬆得多。
她說,傳統的稽核系統在上線之前可能需要數十萬乃至數百萬個樣本帖子。而“小樣本學習”系統顧名思義,只需要幾十個樣本,結合簡單的描述或有關新規則的提示,就可以投入工作。
Cornelia Carapcea說:“‘小樣本學習’系統已經識別了足夠的資料,因此能更快地識別新問題、學習新規則。在暴力、仇恨和煽動性言論等有害內容問題上,我們一直難以獲得足夠多的標記資料,而新系統讓我們能快速做出反應。”
“小樣本學習”系統不需要任何樣本資料,只需要給系統提供對於新規則的文字描述,就可以直接識別內容型別,這種與AI系統互動的方式異常簡單。Cornelia Carapcea說,雖然這種方法的結果不算可靠,但是可以快速識別出新規則下要清理掉的內容,或者識別能夠被用來進一步訓練系統的帖子。
像“小樣本學習”這樣的大型人工智慧系統具有如此令人矚目的能力(其中許多尚不為世人所知),這促使斯坦福大學的研究人員新成立了一個專門研究此類系統的中心。研究人員將這類系統稱為“基礎模型”,因為它們將成為許多科技專案的基礎。大型機器學習模型正在研發之中,這些模型不僅可用於社交網路和搜尋引擎,還可用於金融和醫療等行業。
斯坦福大學研究中心主任Percy Liang表示,透過臉書的系統可以看到這類新模型強大的能力,但新模型也有弱點。Percy Liang認為,臉書稱只需要一些書面文字就可以透過新的內容規則來指導人工智慧系統去識別想要識別的內容,如此強大的能力自然令人興奮,但人們對這種能力還不甚瞭解。“這更像是一門藝術,而不是一門科學。”
此外,Percy Liang表示“小樣本學習”在速度方面也可能有缺憾。在工程師不必管理那麼多的訓練資料之後,某種程度上會減弱他們對系統功能的控制與瞭解。Percy Liang說:“這樣風險很大,因為工具的自動化程度越高,人的控制力就越弱。”
Cornelia Carapcea表示,臉書在開發新稽核系統的同時,還建立了一些方法來檢查系統在內容稽核上是否準確或帶有偏見。
稿件來源:https://www.wired.com/story/facebook-says-new-ai-identify-more-problems-faster/