近日,清華大學人工智慧研究院知識智慧研究中心、北京智譜華章科技有限公司聯合釋出了《2020 年人工智慧幾個重點領域頂級國際學術會議分析報告》(以下簡稱《報告》)。依託於科技情報大資料探勘與服務系統平臺 AMiner,《報告》主要從論文、作者、國家、機構等多個維度,詳細展示了 2020 年機器學習、計算機視覺等人工智慧幾個重點領域頂級國際學術會議的前沿研究成果及其特徵。
來源 清華大學人工智慧研究院知識智慧研究中心
原標題:
《2020 年人工智慧幾個重點領域 頂級國際學術會議分析報告》
作者:張淼 等
一、AI頂會NeurIPS、CVPR 與 ECCV 論文前三
報告所研究的人工智慧這幾個重點領域的國際頂會在 2020 年共計收到42683 篇論文投稿,具體分佈情況如下圖所示。從單個會議投稿量看,神經資訊處理系統年會 NeurIPS 在這 10 個會議中所接收到的論文投稿量最多,為 9454篇論文,同時也在機器學習領域三個會議中居首。
其次是計算機視覺與模式識別會議 CVPR 和歐洲計算機視覺會議 ECCV,分別收到 6656 篇和 5025 篇論文投稿。相比而言,知識發現和資料探勘會議 KDD 和資訊檢索特別興趣小組 SIGIR所收到的論文投稿量較少,均不足 2000 篇。從子領域來看,機器學習、計算機視覺、自然語言處理三個子領域會議收到的論文投稿總量較多,反映出這些領域的論文研究成果豐碩。
人工智慧幾個重點子領域頂級國際學術會議 2020 年的投稿量情況
錄取率方面,報告所研究的人工智慧這幾個重點領域 10 個國際頂會的論文平均錄取率 為 22.1%。各個會議的具體論文收錄情況如下圖所示。
從論文錄取數量來看,機器學習領域 NeurIPS 會議的論文收錄數量最多,為1900 篇;計算機視覺領域的 CVPR 和 ECCV 的論文收錄數量次之,分別位於第二、第三位。這反映出,計算機視覺和機器學習領域高質量研究成果數量較多。
從論文收錄率來看,資訊檢索領域的會議SIGIR 論文錄取率最高,該會議論文錄取率為 28.8%。相比而言,作為人工智慧領域的首個國際學術性會議,經典 AI 領域的國際人工智慧聯合會議IJCAI 的論文錄取率在 2020 年的這 10 個國 際頂會之中最低,為 12.50%,且相比 IJCAI 2019 年的 17.9%錄取率大幅下降,同時也是 IJCAI 會議自 2013 年以來的最低論文接受率,由此可見,隨著 IJCAI論文審稿愈來愈嚴格,論文被該會議接受變得越來越難。
在機器學習領域,NeurIPS 會議的論文接受量雖然最多,但是該會議的論文收錄率卻最低。在計算機視覺領域,CVPR 會議論文的收錄率低於 ECCV。在自然語言處理領域,ACL 與 EMNLP 兩個會議的收錄率差別不大;值得一提的是,在 EMNLP2020 會議中,中國的論文接受率只有 13.2%,遠低於大會的平均水平,而英國、新加坡和丹麥在該會議中有超過 30%的接受率,美國也有 27%的接受率,可見中國學者論文的接受率還有待提高。
人工智慧幾個重點子領域頂級國際學術會議 2020 年的論文錄取情況
二、深度學習熱度高,GNN、RNN演算法最火爆
基於上文所述的人工智慧幾個重點領域 10 個頂級國際學術會議所收錄的論文,透過對會議論文的標題、摘要和自帶關鍵詞進行統計分析和文字聚類,運用TF-IDF 演算法對所研究時段內的主題相關論文數量進行計算,獲取論文數量 TOP20 的熱點關鍵詞並製作詞雲圖,得到人工智慧幾個重點領域的近五年(2015-2020年)來的主題研究熱點。
1、機器學習
綜合機器學習領域三個頂級會議(ICLR、NeurIPS、ICML)的論文研究點,發現近年來機器學習最熱門的研究技術點是深度學習(Deep Learning)或深度神經網路(Deep Neural Networks)、強化學習(Reinforcement Learning)、深度強化學習(Deep Reinforcement Learning),尤其是深度學習中的生成式對抗網路(GAN,Generative Adversarial Networks)與迴圈神經網路(Recurrent Neural Network, RNN))兩大演算法模型,相關論文量佔比達 14.8%。此外,還都較多涉及了梯度下降(Gradient Descent )方法。
除了以上共同的研究熱點,ICLR 與 ICML 都較多研究了深度學習中的對抗樣本(Adversarial Examples)問題。ICLR 與 NeurIPS 會議論文都較多研究了深度學習中的卷積神經網路(Convolutional Neural Networks,CNN)演算法。而 ICML和 NeurIPS 兩個會議的論文都較多研究了貝葉斯最佳化 (Bayesian Optimization)、變分推斷(Variational Inference)、高斯過程(Gaussian Process, GP)、主動學習(Active Learning)、線上學習(Online Learning)等技術點。
就單個會議而言,ICLR 會議論文還較多研究了學習表徵(Learning Representations)、遷移學習(Transfer Learning)、無監督學習(UnsupervisedLearning)等方法。ICML 會議論文還涉及了少量的差分隱私(Differential Privacy)、非凸最佳化(Nonconvex Optimization)方法,以及結構化預測(Structured Prediction)問題;NeurIPS 會議論文還較多研究了樣本複雜度(Sample Complexity)等問題。
機器學習三大頂會會議論文近年研究熱點詞雲圖
2、計算機視覺
綜合分析 CVPR、ECCV 兩個計算機視覺領域頂級國際會議的研究點發現,目標檢測(Object Detection)與語義分割(Semantic Segmentation)是計算機視覺領域近五年(2015-2020)的最熱門研究點,相關論文量佔比 8%。此外較熱門的研究點還有行為識別(Action Recognition)、行人重識別(Person Re-Identification)、人體姿態估計(Human Pose Estimation)、影象分類(Image Classification)等問題,所採用的手段較多是深度學習(Deep Learning)及其代表演算法之一卷積神經網路(Convolutional Neural Networks)等。
相對而言,CVPR 會議論文還較多研究了視覺問答(Visual Question Answering)、人臉識別(Face Recognition)等問題,以及生成式對抗網路(Generative Adversarial Networks)的模型演算法;ECCV 會議論文還較多研究了人臉對齊(Face Alignment)、影片分類(Video Classification)、影象描述(ImageCaptioning)、無監督領域自適應(Unsupervised Domain Adaptation)等技術問題,以及無監督學習(Unsupervised Learning)方式。
計算機視覺頂會 CVPR 與 ECCV 會議論文近年研究熱點詞雲圖
3、自然語言處理
綜合分析自然語言處理領域兩個國際頂會 ACL 和 EMNLP 的論文研究熱點可知,神經機器翻譯(Neural Machine Translation)在自然語言處理領域 2015-2020年的研究熱度遙遙領先,其他較熱的研究問題還有詞嵌入(Word Embeddings)、智慧問答(QuestionAnswering)、語義解析(Semantic Parsing)、實體識別(EntityRecognition)、文字分類(Text Classification)、關係抽取(Relation Extraction)、自然語言推理(Natural Language Inference)等技術點,較熱門的研究物件是社會媒體(Social Media)。
除此之外,就單個會議而言,ACL 會議論文還較多研究了統計機器翻譯(Statistical Machine Translation)、領域自適應(Domain Adaptation)、依存分析(Dependency Parsing)等問題,較熱門的研究方法是深度學習(Deep Learning)以及深度學習之中的迴圈神經網路(Recurrent Neural Network)演算法等。EMNLP會議論文還較多研究了包括語言模型(Language Modeling)、語義角色(Semantic Role)、語義分析(Semantic Analysis)等問題,方法較多是關於深度強化學習(DeepReinforcement Learning)的。
自然語言處理頂會 ACL 與 EMNLP 論文近年研究熱點詞雲圖
4、經典 AI 領域
透過分析國際頂會 IJCAI 論文發現,經典 AI 領域 2015-2020 年會議論文之中最熱門的研究技術點主要為強化學習(Reinforcement Learning)、深度學習(Deep Learning)及其中的卷積神經網路(Convolutional Neural Networks)與迴圈神經網路(Recurrent Neural Network)演算法,以及遷移學習(Transfer Learning)等,較多涉及了問答集程式設計(Answer Set Programming)、詞嵌入(Word Embeddings)、矩陣分解(Matrix factorization)等研究問題,而社交網路(Social Networks)是這些論文較熱門的研究物件。
經典 AI 領域國際頂會 IJCAI 近五年會議論文研究熱點詞雲圖
5、資料探勘
人工智慧資料探勘領域知名的國際頂級會議是 KDD。透過分析 KDD 會議論文資料,發現數據挖掘領域研究熱點近年來主要是以大資料(Big Data)、社交網路(Social Networks)、社交媒體(Social Media)、異構資訊網路(Heterogeneousinformation network)等為研究物件,透過採用機器學習(Machine Learning)之中的深度學習(Deep Learning)、多工學習(Multi-Task Learning)、主動學習(Active Learning)等方法,關注涉及了資料科學(Data Science)、推薦系統(Recommendation Systems)、異常檢測(Anomaly Detection)、顯示廣告(Display Advertising)、點選率預測(Click-Through Rate Prediction)、高效演算法(EfficientAlgorithm)等問題。
6、資訊檢索與推薦領域
據信息檢索與推薦領域國際頂級會議 SIGIR 論文資料顯示,該領域近五年(2015-2020)科研論文主要是針對社交媒體(Social Media)、電商搜尋(eCommerce Search)、社會網路(Social Networks)等研究物件,研究關於資訊抽取(Information Retrieval)、網路搜尋(Web Search)、問答(QuestionAnswering)、推薦系統(Recommendation Systems)、查詢效能預測(Query PerformancePrediction)等熱點問題,所採用的較熱門技術方法包括知識圖譜(KnowledgeGraphs)、知識庫(Knowledge Bases)、主動學習(Active Learning)、弱監督(Weak Supervision)等技術點。
資訊檢索與推薦領域國際頂會 SIGIR 近五年會議論文研究熱點詞雲圖
二、最佳論文,美國一騎絕塵,中國第三
本年度人工智慧幾個重點領域國際頂會共計評選出 13 篇最佳論文,截至本報告時段總引用量達到 999 次。透過命名消歧和資訊抽取等大資料分析和挖掘技術,分析發現這些頂會最佳論文具有如下特徵:
在 2020 年人工智慧會議中,獲得最佳論文獎項的論文共計 13 篇,參與作者共計 51 人。從所屬國家來看,最佳論文的作者分別來自美國、中國、英國、意 大利、新加坡以及以色列。其中美國獲得會議最佳論文的作者有 35 位,佔比最高,達到 68.6%,分別來自於斯坦福大學、加州大學伯克利分校、普林斯頓大學等高校以及 OpenAI、谷歌研究等企業研究部門,數量遠超其他國家。其次是中國獲得頂級學術會議最佳論文的作者數量佔比達 9.8%,位於第三。
本年度人工智慧幾個重點領域頂會最佳論文呈現出跨國跨機構多位作者合 作的特徵:在被授予的 13 篇最佳論文中,沒有論文是由單一作者獨立完成,全部都是由不同國家或不同機構的多位學者合作而完成的。在這些合作論文之中,論文作者數量最少為 2 位,最多達 31 位,詳細資訊如表 5 所示。例如,中國北京理工大學碩士生 Kaixuan Wei 為一作的論文Tuning-free Plug-and-Play Proximal Algorithm for Inverse Imaging Problems 是他與本校計算機學院教授 Ying Fu(付瑩)、Hua Huang(黃華),以及劍橋大學博士後 Jingwei Liang(梁經緯)、Aviles Rivero Angelica 等 6 位學者合作完成的。
告所研究會議論文的釋出方主要以各個國家和地區的大學為領先機構。例如,在今年 CVPR論文作者量排名前十的機構之中,中國高校佔據了七席,包括清華大學、上海交通大學、北京大學、浙江大學、中科大、北航、西安電子科技大學,其中,來自清華大學的作者高達 340 位,位列第一。
在機器學習領域,2020 年的 ICLR、ICML、NeurIPS 三大國際頂級會議中,論文收錄總量 TOP10 的機構是谷歌、麻省理工學院、斯坦福大學、加州伯克利大學、微軟、卡內基梅隆大學、Deep Mind 、普林斯頓大學、清華大學以及牛津大學,如下圖 所示。其中,谷歌被收錄論文總數最多,為 347 篇,位居榜首。其次是麻省理工學院,論文被收錄 197 篇,斯坦福大學論文被收錄量排名第三,為185 篇。國內清華大學論文被收錄 86 篇,位居第九,也是唯一上榜的中國機構。
機器學習國際三大頂會 2020 年論文被收錄總量 TOP10 機構
從單個會議看,ICLR、ICML 和 NeurIPS 論文收錄最多的機構都是以谷歌居首,並且除了中國的清華大學在 ICLR 會議的論文收錄量位於第三之外,其他 AI頂會的前三席位幾乎都被美國頂尖機構佔據。這反映出美國機構在人工智慧機器學習領域具備全球領先的創新實力。
具體而言,在 NeurIPS 2020 會議上,谷歌、麻省理工學院和斯坦福大學分別以 202、109 和 104 篇論文成為論文被收錄量最多的前三機構,清華大學位列第七,有 63 篇,北京大學有 37 篇入選,排在第 20 位。
在經典 AI 領域的國際頂會 IJCAI 2020 上,就被收錄論文的所屬機構而言,中國科學院位居榜首,有 42 篇論文入選;中國科學院大學以 34 篇論文排名第二;浙江大學入選 26 篇論文,排名第三。在論文收錄機構前 15 名中,中國機構佔據 12 席,
智東西認為,頂級國際學術會議是全球人工智慧學術交流和最高成果展示的平臺。中國人工智慧學者及其成果頻頻出現在這些頂會的背後,體現出中國 AI 技術實力的不斷提升。作為業界頂會的重要參與者,我國在人工智慧學術領域與美國等強國之間的差距逐漸縮小,中國 AI 學者正不斷提升在國際學術圈中的影響力和話語權,這也將為我國人工智慧發展帶來新的機遇。