牛津大學最新調研：AI面臨基準危機，NLP集中“攻關”推理測試

作者 | 維克多

人工智慧（AI）基準為模型提供了衡量和比較的路徑，超越基準，達到SOTA，經常成為頂會論文的標配。同時，有些基準確實推動了AI的發展，例如ImageNet 基準測試對近幾年的熱潮功不可沒。

如今，ImageNet 基準仍然在研究中發揮核心作用，一些新模型，例如谷歌的Vision Transformer在論文中仍然與ImageNet方法進行比較。

但，如果某一基準的分數一直佔據榜首，後續沒有高質量基準引入，那麼這種依靠基準推動發展的“路子”就有問題。

近日，維也納醫科大學和牛津大學的研究人員對AI基準圖譜進行了調查，共統計了2013年以來CV和NLP領域的406項任務的1688項基準。發現：很大一部分基準迅速趨於接近飽和，還有一部分基準被擱置；同時，在NLP領域，從2020年開始，新基準的建立減少，方向轉向推理或推理相關的高階任務上。

在文中，作者呼籲，未來的工作應該著重於大規模的社群合作，以及將基準效能與現實世界效用和影響相聯絡。

1 33%的AI基準被“擱置”

從單個基準出發，如上圖可以看出基準上的SOTA有三種狀態：穩定增長，停滯或飽和，以及停滯後的飛躍。其中，穩定增長代表技術穩定；停滯背後代表缺乏技術進步的能力；而爆發是指技術出現突破。

事實上，近年來，關鍵領域，如NLP，有相當一部分新基準迅速趨於飽和，或者設計針對特定基準特徵過度最佳化的模型，而這些模型往往無法泛化到其他資料中。

目前，這些現象已經蔓延到相同領域的不同基準中，例如上圖，CIFAR-10和CIFAR-100的狀態。

同時，數量方面也出現了尷尬的局面，例如《2021年的人工智慧指數報告》指出，CV基準數量或許能滿足日益增長的任務需求；而NLP模型的增長速度正在超過現有的問答和自然語言理解基準。

Martínez-Plumed等學者分析了 CIFAR-100 和 SQuAD1.1 等 25 個流行 AI 基準背後“故事”，他們發現“SOTA 前沿”由某些長期協作的社群主導，例如美國或亞洲大學與科技公司共同合作的組織。

此外，其他學者分析了大量 AI 基準測試工作中資料集使用和再利用的趨勢，他們發現，很大一部分“知名”資料集是由少數高知名度的組織提出，其中一些資料集被越來越多地重新用於新的任務。NLP是個例外，它對新的、特定任務的基準的引入和使用超過了平均水平。

在這項研究中，維也納醫科大學和牛津大學的研究人員表明：飽和和擱置非常常見。總體看來有以下幾個趨勢：

1.缺乏研究興趣是導致停滯不前的原因之一；

2.所有基準中的大多數很快就會達到技術停滯或飽和；

3.在某些情況下，會出現持續增長，例如在 ImageNet 基準測試中；

4.效能改進的動態變化並不遵循一個清晰可辨的模式：在某些情況下，停滯階段之後是不可預測的飛躍。

圖注：基準有三種發展趨勢：穩定增長，停滯或飽和，以及停滯後的飛躍。

此外，在1688個基準中，只有66%的基準充分被利用，換言之33%的基準被擱置。同時，基準測試的另一個趨勢是：被某些既定機構和公司的資料集主導。

2 NLP基準正面向高難度的任務

過去幾年，CV領域的基準佔據主導地位，但NLP也開始了蓬勃發展。2020年，新基準的數量有所下降，越來越多地集中在難度較高的任務上，例如測試推理的任務，例如BIG-bench和NetHack，前者屬於谷歌，後者來自Facebook。

上圖是NLP的基準生命週期展示，可以清晰看出，大多數任務的幾個主流基準是在2011~2015年間建立的，這期間，也只有少數幾個SOTA出現。2016年之後，新基準的建立速度大大加快，在翻譯和自然語言建模方面表現最為突出；2018和2019年，分別都針對各種任務建立了大量的基準；2020年是個轉折點，新基準的建立減少，方向轉向推理或推理相關的高階任務上。

整體來說，當前AI基準的趨勢是：來自既定機構（包括工業界）的基準的趨勢引起了人們對基準的偏見和代表性的關注；許多基準並不能完全將AI效能與現實世界相匹配，因此，開發少量但有質量保證，涵蓋多種AI能力、場景的基準可能是可取的。

最後，研究人員展望，在未來，新的基準應該由來自許多機構、知識領域的大型合作團隊開發，如此才能確保建立高質量的基準。

參考連結

https://mixed-news.com/en/are-we-running-out-of-ai-benchmarks/

https://arxiv.org/ftp/arxiv/papers/2203/2203.04592.pdf