sponsored links

牛津大學最新調研:AI面臨基準危機,NLP集中“攻關”推理測試



作者 | 維克多

人工智慧(AI)基準為模型提供了衡量和比較的路徑,超越基準,達到SOTA,經常成為頂會論文的標配。同時,有些基準確實推動了AI的發展,例如ImageNet 基準測試對近幾年的熱潮功不可沒。

如今,ImageNet 基準仍然在研究中發揮核心作用,一些新模型,例如谷歌的Vision Transformer在論文中仍然與ImageNet方法進行比較。

但,如果某一基準的分數一直佔據榜首,後續沒有高質量基準引入,那麼這種依靠基準推動發展的“路子”就有問題。



近日,維也納醫科大學和牛津大學的研究人員對AI基準圖譜進行了調查,共統計了2013年以來CV和NLP領域的406項任務的1688項基準。發現:很大一部分基準迅速趨於接近飽和,還有一部分基準被擱置;同時,在NLP領域,從2020年開始,新基準的建立減少,方向轉向推理或推理相關的高階任務上。

在文中,作者呼籲,未來的工作應該著重於大規模的社群合作,以及將基準效能與現實世界效用和影響相聯絡。

1 33%的AI基準被“擱置”



從單個基準出發,如上圖可以看出基準上的SOTA有三種狀態:穩定增長,停滯或飽和,以及停滯後的飛躍。其中,穩定增長代表技術穩定;停滯背後代表缺乏技術進步的能力;而爆發是指技術出現突破。

事實上,近年來,關鍵領域,如NLP,有相當一部分新基準迅速趨於飽和,或者設計針對特定基準特徵過度最佳化的模型,而這些模型往往無法泛化到其他資料中。



目前,這些現象已經蔓延到相同領域的不同基準中,例如上圖,CIFAR-10和CIFAR-100的狀態。

同時,數量方面也出現了尷尬的局面,例如《2021年的人工智慧指數報告》指出,CV基準數量或許能滿足日益增長的任務需求;而NLP模型的增長速度正在超過現有的問答和自然語言理解基準。

Martínez-Plumed等學者分析了 CIFAR-100 和 SQuAD1.1 等 25 個流行 AI 基準背後“故事”,他們發現“SOTA 前沿”由某些長期協作的社群主導,例如美國或亞洲大學與科技公司共同合作的組織。

此外,其他學者分析了大量 AI 基準測試工作中資料集使用和再利用的趨勢,他們發現,很大一部分“知名”資料集是由少數高知名度的組織提出,其中一些資料集被越來越多地重新用於新的任務。NLP是個例外,它對新的、特定任務的基準的引入和使用超過了平均水平。

在這項研究中,維也納醫科大學和牛津大學的研究人員表明:飽和和擱置非常常見。總體看來有以下幾個趨勢:

1.缺乏研究興趣是導致停滯不前的原因之一;

2.所有基準中的大多數很快就會達到技術停滯或飽和;

3.在某些情況下,會出現持續增長,例如在 ImageNet 基準測試中;

4.效能改進的動態變化並不遵循一個清晰可辨的模式:在某些情況下,停滯階段之後是不可預測的飛躍。

圖注:基準有三種發展趨勢:穩定增長,停滯或飽和,以及停滯後的飛躍。

此外,在1688個基準中,只有66%的基準充分被利用,換言之33%的基準被擱置。同時,基準測試的另一個趨勢是:被某些既定機構和公司的資料集主導。

2 NLP基準正面向高難度的任務

過去幾年,CV領域的基準佔據主導地位,但NLP也開始了蓬勃發展。2020年,新基準的數量有所下降,越來越多地集中在難度較高的任務上,例如測試推理的任務,例如BIG-bench和NetHack,前者屬於谷歌,後者來自Facebook。



上圖是NLP的基準生命週期展示,可以清晰看出,大多數任務的幾個主流基準是在2011~2015年間建立的,這期間,也只有少數幾個SOTA出現。2016年之後,新基準的建立速度大大加快,在翻譯和自然語言建模方面表現最為突出;2018和2019年,分別都針對各種任務建立了大量的基準;2020年是個轉折點,新基準的建立減少,方向轉向推理或推理相關的高階任務上。

整體來說,當前AI基準的趨勢是:來自既定機構(包括工業界)的基準的趨勢引起了人們對基準的偏見和代表性的關注;許多基準並不能完全將AI效能與現實世界相匹配,因此,開發少量但有質量保證,涵蓋多種AI能力、場景的基準可能是可取的。

最後,研究人員展望,在未來,新的基準應該由來自許多機構、知識領域的大型合作團隊開發,如此才能確保建立高質量的基準。

參考連結

https://mixed-news.com/en/are-we-running-out-of-ai-benchmarks/

https://arxiv.org/ftp/arxiv/papers/2203/2203.04592.pdf

牛津大學最新調研:AI面臨基準危機,NLP集中“攻關”推理測試

分類: 健康
時間: 2022-04-10

相關文章

美國流行病學家:久坐也會加劇打呼嚕

美國流行病學家:久坐也會加劇打呼嚕
來源:生命時報 美國布萊根婦女醫院的流行病學家考察了積極生活方式與阻塞性睡眠呼吸暫停(OSA)風險之間的關係.研究人員在10~18年的隨訪期間調查大約13萬名參與者,發現體育活動多.久坐時間少與患OS ...

老年痴呆該如何才能預防?有些幾點建議

老年痴呆該如何才能預防?有些幾點建議
談到老年痴呆症,幾乎所有人都認為這種病離我們很遠,其實不然.由於我國老年人患老年痴呆的機率越來越大,目前已發展成為世界流行病之一,那麼如何預防老年痴呆呢? 1.多做智力活動 相信很多人在日常生活中都聽 ...

慢性支氣管炎危害大,如何正確預防呢?

慢性支氣管炎危害大,如何正確預防呢?
慢性支氣管炎是指氣管.支氣管粘膜及其周圍組織的慢性炎症.咳嗽.咳痰或伴有喘息反覆發作為主要症狀,冬季易發作,嚴重時可併發慢性阻塞性肺氣腫甚至肺心病.以中老年人為多見,男性比女性多見. 慢性支氣管炎的危 ...

英國《醫學快訊》:肥胖基因的發現可能促使產生預防體重增加的藥
[英國<醫學快訊>2021年9月20日文章]題:肥胖基因的發現可能促使產生預防體重增加的藥物. 美國弗吉尼亞大學科學家在研發肥胖症治療藥物上的進展振奮人心,發表在<公共科學圖書館·遺 ...

科普 | @感染艾滋病的高風險人群,暴露前預防(PrEP)瞭解一下!

科普 | @感染艾滋病的高風險人群,暴露前預防(PrEP)瞭解一下!
HIV暴露前預防 艾滋病是一種全球性的流行病 至今已有超過3000萬人死於此病 據中國疾控中心評估 截至2018年底 我國估計存活艾滋病感染者約125萬 面對如此龐大的數字 不免會讓人心生恐懼 好在艾 ...

喝骨頭湯不補鈣!再次強調:多吃4種補鈣食物,預防骨質疏鬆

喝骨頭湯不補鈣!再次強調:多吃4種補鈣食物,預防骨質疏鬆
你想過存糧防災 想過存錢防老 可有想過存骨頭防骨折? 如果你已經二三十歲了 那麼留給你的時間不多了 骨骼每天都在變 雖然你已經長不高了 但在我們看不見的微觀世界 每天都上演著骨的死與新生 分佈在骨膜. ...

老年人預防腦梗,補充葉酸很重要,如何補才正確?總結3個要點

老年人預防腦梗,補充葉酸很重要,如何補才正確?總結3個要點
"爺爺,你懷小寶寶了嗎"坐著一旁的爸爸大吃一驚,連忙把圖圖拉到自己面前,問他為什麼覺得爺爺懷小寶寶了. "媽媽懷妹妹就吃的爺爺吃的小丸子,媽媽還告訴我是為了肚子裡的妹妹長 ...

吃鹹魚吃出鼻咽癌?這4大致病因素不可不防!早知道早預防

吃鹹魚吃出鼻咽癌?這4大致病因素不可不防!早知道早預防
在我國鼻咽癌的發生機率比較高,而且患病之後患者要承受巨大的痛苦,因為鼻咽癌引發的症狀比較讓人難以承受,常見的症狀有呼吸困難.鼻子經常出血.聽力下降等等.想要避免鼻咽癌給人帶來沉重的負擔,就要找到可能引 ...

尿酸高的人,多吃蔬菜?提醒:預防痛風發作,4種蔬菜或不宜多吃

尿酸高的人,多吃蔬菜?提醒:預防痛風發作,4種蔬菜或不宜多吃
導語:高尿酸,一直影響著人的身體疾病,因為人體沒有辦法及時的進行排毒,所以,高尿酸對於人的危害是非常巨大的,當一個人長期患有高尿酸的疾病,就會導致自身尿酸值升高,身體內會含有大量的毒素,垃圾,嚴重的還 ...

每天堅持走路鍛鍊好嗎?醫生:好處多多,能預防6種常見病

每天堅持走路鍛鍊好嗎?醫生:好處多多,能預防6種常見病
隨著城市化的加深,越來越多的人從農村搬到了城市中,這讓人們享受了便利的交通.乾淨的生活圈子.五花八門的商業,但是也讓人們失去了鍛鍊.現在的人長期呆在床上,坐在電腦.手機前. 因此,現代人的素質和骨骼硬 ...

如何預防肌肉衰減?幾個方法提升肌肉含量,保持旺盛的基礎代謝

如何預防肌肉衰減?幾個方法提升肌肉含量,保持旺盛的基礎代謝
原創內容,擅自搬運者必究! 肌肉是身體重要的組織,也是耗能物質,肌肉可以保護器官跟骨骼,保持身體旺盛的代謝水平. 過了30歲後我們的肌肉會開始流失,10年會消耗掉7.8斤的肌肉,身體基礎代謝水平也會有 ...

預防大白菜發生乾燒心,苗期就要做好這兩點,才能確保不發生
白菜乾燒心,也被一些農民稱為是焦邊病.夾皮爛.幹心病,是大白菜生產上最常發生的四大病害之一,尤其在白菜結球期發生嚴重,對大白菜的產量和品質影響巨大.大白菜乾燒心是什麼原因引起的,又該如何預防呢? 危害 ...

農村哪裡蜱蟲多,被蜱蟲叮咬該怎麼處置,三招可有效預防

農村哪裡蜱蟲多,被蜱蟲叮咬該怎麼處置,三招可有效預防
蜱蟲又叫"爬子"."扁蝨"."狗豆子",是一種很令人生厭的害蟲.首先,蜱蟲分佈範圍廣,在我國絕大多數地方都存在,尤其是丘陵和山區,更是常見, ...

農村建房牆面為何會返鹼?搞清楚返鹼原因,三個方法可預防

農村建房牆面為何會返鹼?搞清楚返鹼原因,三個方法可預防
農村對於建房子是非常重視的,往往提前一二年就開始設計.謀劃,因為房子是農民的根,一處房子落成後,下一代人還要入住,所以建房要舉全家之力,怎麼小心都不為過,可是房子建成後,牆面還是很容易出現一層白色的物 ...

狗狗白內障4大徵兆,高發犬種要注意,因為眼藥水不能預防治療

狗狗白內障4大徵兆,高發犬種要注意,因為眼藥水不能預防治療
人類大多因為年紀大,晶體退化混濁而有白內障,但不少狗狗在年幼時已經有白內障.有些狗一出生就已經患上白內障,一些狗狗則是在成長的過程中患病.因為狗狗沒法說話,主人難以察覺到狗狗白內障的早期症狀.當狗主人 ...

植物招蟲怎麼救?預防最重要,4招快速解決

植物招蟲怎麼救?預防最重要,4招快速解決
炎熱的夏天到了,不管是家裡的水果.蔬菜,還是花友們養護的綠植,都開始進入了招各種小蟲子的季節.高溫讓小蟲子們繁殖速度加快,花友們在養護植物時如果之前一直沒注意的話,等到發現蟲子就不止一兩隻了. 在解決 ...

研究:減少包裝食品中的糖分可以預防百萬起心臟病

研究:減少包裝食品中的糖分可以預防百萬起心臟病
據外媒報道,發表在<Circulation>上的一項研究報告稱,在美國,將包裝食品中的含糖量減少20%.將飲料中的含糖量減少40%可以在成年人口的一生中預防248萬起心血管疾病事件如中風. ...

預防訓練傷⑥|舒緩下肢壓力 讓運動變得更輕鬆

預防訓練傷⑥|舒緩下肢壓力 讓運動變得更輕鬆
來源:國防線上·解放軍新聞傳播中心融媒體 作者:閆坤鵬 朱國成 向鴻 楊常嶽 下肢應力骨折,即"疲勞性骨折",多是由於長時間進行單一動作的反覆訓練或超負荷訓練所導致的.這種訓練傷沒 ...

純電動福特F150 Lightning皮卡首批次產車型下線 或2022年春季發售

純電動福特F150 Lightning皮卡首批次產車型下線 或2022年春季發售
[佰咖汽車·進口新車資訊]近日,我們從外媒處獲悉,純電動福特F150 Lightning皮卡首批次產車型下線,計劃於2022年春季發售.據悉,目前新車預定訂單已經超過150,000 份,起售價格約40 ...

提醒:秋天很容易變成“白粉妹”的4種花,早預防早受益

提醒:秋天很容易變成“白粉妹”的4種花,早預防早受益
秋天天氣涼爽以後,花草常見的一些病蟲害也開始活躍了,一不小心就可能中招.其實秋天病蟲害預防的好,大部分花草的長勢都是非常不錯的,有些還能開出一波漂亮的花來.秋天花草容易得白粉病,尤其某些品種要提前預防 ...