sponsored links

投稿人就是AI頂會最好的「審稿人」!中國學者提出同行評審新機制

作者:董婉萍 溫剛

編輯:好睏

【新智元導讀】近年來,機器學習頂會論文數目井噴,審稿壓力巨大,其同行評審制度備受質疑。賓大教授針對此挑戰提出了由論文作者協助的新型同行評審機制。

你是否已經受夠了NeurIPS,ICLR,ICML等會議的審稿意見?

你是否有過最好的論文被拒稿,但是相對差的論文反而被接收的經歷?

相信對眾多機器學習、人工智慧領域的從業者來說,這種現象已經見怪不怪了。

投稿人就是AI頂會最好的「審稿人」!中國學者提出同行評審新機制

人工智慧專家Ian Goodfellow在Twitter上抱怨同行評審(peer review)

機器學習的成功依賴於大型會議,這一領域發展非常迅速。而期刊審稿週期相對較長,因此大部分最新的工作都首先發表在會議上,像NeurIPS,ICLR,ICML等,這對機器學習的發展壯大起了很重要的作用。

一般來說,學術會議會邀請某一領域的專家審稿 - 即透過同行評審制度 - 決定論文是否值得發表。可以說,頂會現在的成功,很大程度上也要歸功於同行評審制度。

反之,如果研究工作不經過可靠的同行評審就發表,可能會帶來許多問題:大多數人,即非專家,無法分辨研究結果的好壞對錯;也會對研究造成混亂,後人可能會引用錯誤的結果、結論,這無疑也會阻礙機器學習領域研究的進步。

因此,隨著研究人員及論文的數量成倍增加,同行評審的可靠性在今天變得更加重要。對這一制度可靠性的分析和相關的改進方法,也漸漸成為一個熱門話題,並引起學術界和業界的關注。

如何改進同行評審的機制,提高審稿流程的可靠性呢?

近日,賓夕法尼亞大學沃頓商學院和計算機系的蘇煒傑教授在今年NeurIPS上發表的一篇文章為改進同行評審提供了新的思路,提出一個簡單實用的方法,結合了統計和最佳化的思想。

該研究認為,既然增加審稿人數,或給每個審稿人分配更多的論文不現實,那我們可以要求投稿作者提供資訊來協助我們決策,「人盡其才,物盡其用」。然而,又要保證投稿人不會為了自身利益提供不實資訊。 那麼, 應該如何設計這一機制呢?

投稿人就是AI頂會最好的「審稿人」!中國學者提出同行評審新機制

論文地址:https://arxiv.org/abs/2110.14802

蘇煒傑教授針對性地提出了一種新機制:保序機制(Isotonic Mechanism),並從理論上保證了該機制既能激勵投稿人提供真實的資訊,又能增加審稿結果的可靠性。

背景

正所謂「成也蕭何,敗也蕭何」,同行評審本應是高質量、高影響力研究的過濾器。然而,隨著近年來人工智慧和機器學習會議大火,投稿數量激增,同行評審制度似乎有一點變味了。

例如,在2014年著名的NeurIPS實驗中,人們觀察到評審分數具有驚人的高度隨意性。從理論上講,如果重新審稿,NeurIPS 2014年錄用的一半以上的文章將被拒稿!

投稿人就是AI頂會最好的「審稿人」!中國學者提出同行評審新機制

2014NeurIPS實驗中第二組委員會對第一組委員會評審意見的結果,

隨機選擇的被第一組接受的論文中,50.9%被第二組拒絕

究其原因,是海量的投稿導致專業審稿人員數量不足,會議不得不讓很多沒發過論文的新手來審。以及人均審稿數目增加,使得審稿人員在每篇論文上花費的時間大大減少,一篇論文往往幾分鐘時間就被判了死刑!

像NeurIPS這一機器學習頂會的投稿量已經從2014年的1673篇增長到今年的9122篇,很多研究人員個人就提交了10篇甚至更多,然而合格的審稿人增長數量根本不可能這麼快。

這導致同行評審的質量直線下降,飽受詬病,無法達到它的初衷。如果不改革同行評審制度,從長遠來看,勢必會削弱公眾對機器學習的信心,也會阻礙人工智慧的發展。

投稿人就是AI頂會最好的「審稿人」!中國學者提出同行評審新機制

ML/AI會議論文的爆炸式增長

海報地址:http://www-stat.wharton.upenn.edu/~suw/paper/iso_poster.pdf

當然,學術界早已注意到同行評審制度的相關缺陷,也提出了一些改進的舉措:從志願審稿改為僱傭審稿,或者更加公開的評審(如ICLR在OpenReview上進行審稿),等等。然而,它們要麼不切實際,要麼會帶來新的問題。

同行評審仍然是「可用的最差系統」。

保序機制(Isotonic Mechanism)簡介

假設投稿人投出了n篇論文,其真實分數為R1, R2, …, Rn,假設投稿人知道這些真實分數的排序(數學上表示為1, 2, …, n的置換)。

那麼,機制要求投稿人彙報自己對這n篇論文打分的排序π,再結合審稿人給出的原始平均分數y1, y2, …, yn,解一個凸問題並給出最終分數。

形式上,這個凸最佳化問題為:

投稿人就是AI頂會最好的「審稿人」!中國學者提出同行評審新機制

另外,該機制還假設投稿人是理性的。即投稿人彙報排序π的最終目的是讓自己的利益最大化。數學上,表現為投稿人希望機制得出的最終分數可以最大化如下效用函式:

投稿人就是AI頂會最好的「審稿人」!中國學者提出同行評審新機制

這裡假設U是一個不減凸函式。

保序機制的理論保證

我們先將對假設的介紹和對合理性的討論稍稍後放,以便於突出文章的主要結果,也就是保序機制相對於原始分數在理論上的優越性:

投稿人就是AI頂會最好的「審稿人」!中國學者提出同行評審新機制

1. 投稿人的最佳策略是如實報告他/她的論文原始分數的真實排序;甚至在投稿人不能完全確定所有真實分數排序時,報告所知道的所有真實資訊也是其最優選擇。

投稿人就是AI頂會最好的「審稿人」!中國學者提出同行評審新機制

2. 機制所提供的調整後的最終分數確實嚴格地比審稿人提供的原始分數要準確。

僅僅是彙報分數的排序,就會提高準確度,其實用性不言而喻。不僅如此,文章作者還進一步對更一般的情況做了推廣,文章對投稿人只知道真實分數的分塊排序、機制的穩健性(魯棒性)、效用函式不能表示成n個論文各自效用之和的三種情況進行拓展討論,充分的展示了保序機制強大的校正功能,以及豐富的現實意義。

到這裡,我們再回頭看一下假設。除了對函式U的要求,還要求投稿人自己對真實資訊必須有一定的瞭解(這樣才能進行協助),以及審稿人打分相對真實分數的噪聲在置換下的分佈是不變的(可交換性)。這些假設也都是比較實際的。

需要格外注意函式U是凸的假設,對以上結論的成立是至關重要的。這似乎與傳統經濟學理論中的邊際效益遞減矛盾。但這裡效用衡量的不是「量」的大小,而是決定了論文是否會被作為海報、口頭報告,甚至是全會報告的分數。對很多研究者,追求會議論文更大的影響力反映了他們真實的需求,因此效用函式的凸性有其合理性。

保序機制的提出背景

保序機制(Isotonic Mechanism)命名的由來是因為對應的凸問題正是統計學中「保序迴歸(Isotonic Regression)」的問題形式。

保序迴歸在觀念上是尋找一組非遞減的片段連續線性函式,即保序函式,使其與樣本儘可能的接近。

保序迴歸:https://en.wikipedia.org/wiki/Isotonic_regression

另一方面,這篇文章寫完提交NeurlPS後不久,大會組織者要求所有作者對他們的文章做一個質量排序,這與保序機制不謀而合。這篇文章非常「及時」,儘管最後並沒有用它在今年NeurIPS來做決定。

投稿人就是AI頂會最好的「審稿人」!中國學者提出同行評審新機制

文章與NeurIPS 2021會議的巧合

值得注意的是,提出該機制的蘇煒傑教授差不多有半數文章發表在統計、最佳化和資訊理論等領域的期刊,也有大量論文發表在機器學習頂會上,對二者的審稿質量以及錄用文章質量的差異深有體會。

一般來說,擁有巨量投稿數量的機器學習頂會的錄用文章平均質量要比期刊差很多。同時機器學習的一個特點是一個作者或研究組經常一次提交多篇論文,比如強化學習研究員Sergey Levine向ICLR 2020一次就提交了32篇論文!而保序機制的理論也表明文章數目n越大,提升也越大。

值得注意的是,保序機制的理論證明用到了凸函式和優超不等式等不少數學技巧,熟悉數學競賽的同學想必不會陌生。

總結與展望

本文提出了透過利用投稿人提供的資訊改進同行評審制度的「保序機制」,即激勵投稿人報告真實的排序,從而獲得更好的決策。

該機制便於實施,且具有理論的最優性保證,如果能在現實中使用該機制,很有希望在一定程度上緩解當前的機器學習頂會的低質量評審問題。

然而,利用額外的作者資訊來改善同行評審是一個新型的研究方向,在投入實際應用前還需要一定的努力。對保序機制而言,未來還有一些工作需要完成:

  1. 雖然效用函式為凸一定程度上符合研究者的偏好,但是對於一些追求中稿數量的研究者,效用函式可能是一些特殊的非凸函式(例如階梯狀的函式)。如何改進技巧應用到這種問題上?
  2. 當前改進同行評審已經有一些初見成效的工作,如何將他們結合進來?
  3. 保序機制的準確性是使用L2誤差來衡量的。有沒有更符合實際情況的誤差函式?
  4. 如何應對投稿人策略性地利用保序機制,例如故意提交低質量論文變相抬高分數?
  5. 在跨學科評審和多個審稿人多個作者的情況下,如何保證噪聲的可交換性,如何對應修改保序機制?
  6. 保序機制要求提供論文質量的排序是否有附帶好處?比如要求作者對自身論文質量有更清楚的認識,或許會減少會議論文常見的「guest authorship」。

無論如何,該機制針對的是一個有關機器學習領域前途的重大問題。如果該問題能解決,將產生巨大的影響力,甚至可以將這種評級制度出圈應用到各種評價環節,具有十分重大的現實意義。

作者簡介

文章作者蘇煒傑是賓夕法尼亞大學沃頓商學院統計與資料科學系和工學院計算機系助理教授。任賓大機器學習研究中心聯合主任。分別於北京大學和斯坦福大學獲得本科和博士學位。曾獲得NSF CAREER Award和斯隆研究獎。

參考資料:

https://arxiv.org/pdf/2110.14802.pdf

https://www.toutiao.com/i7039916197835506209/?timestamp=1639147753&app=news_article&group_id=7039916197835506209&use_new_style=1&req_id=202112102249130101310380762754C599&wid=1639647590857

https://arxiv.org/pdf/2109.09774.pdf

https://www.reddit.com/r/MachineLearning/comments/r24rp7/d_peer_review_is_still_broken_the_neurips_2021/

https://hub.baai.ac.cn/view/10481

https://zhuanlan.zhihu.com/p/90666675

https://cloud.tencent.com/developer/article/1172713

http://eprints.rclis.org/39332/

分類: 娛樂
時間: 2021-10-13

相關文章

幕後揭秘!歷時861天,“哈利·波特的魔法世界”是怎樣誕生的

幕後揭秘!歷時861天,“哈利·波特的魔法世界”是怎樣誕生的
9月20日,北京環球度假區正式開園.哈利·波特的魔法世界是最受歡迎的主題景區之一,試執行期間最長排隊時間已達120分鐘.這裡的每處細節都還原了哈利·波特系列電影中的場景,值得遊客和"哈迷&q ...

《哈利·波特》:如果哈利及時用魔法治療多比,他還會死嗎?

《哈利·波特》:如果哈利及時用魔法治療多比,他還會死嗎?
在<死亡聖器>中,家養小精靈多比的死,不知道讓多少粉絲流下了傷心的眼淚. 我們假設一下,如果哈利及時對多比使用治療魔法的話,多比是否還會死呢? 畢竟,當初哈利和德拉科在盥洗室對決時,就因為 ...

偉大的電影需要偉大的汽車 10部電影中的科爾維特

偉大的電影需要偉大的汽車 10部電影中的科爾維特
偉大的電影需要以同樣偉大的汽車來襯托,如雪佛蘭科爾維特. 眾多電影都將汽車作為商業合作的重要部分,如<速度與激情>和<007>等電影透過在故事中加入一些最迷人的汽車而賺取了巨大 ...

潘長江女兒,與靳東搭檔演劇後,又跑新電影中演大女主,能否翻紅

潘長江女兒,與靳東搭檔演劇後,又跑新電影中演大女主,能否翻紅
潘陽身為表演藝術家潘長江的女兒,將"子承父業"貫徹得相當到位,出道至今一直沒在資源方面發過愁,但是接觸的幾乎都是鄉土劇,受眾還是較少,所以一直都沒有大爆. 而潘陽自己也逐漸意識到了 ...

去“百年包袋藝術收藏首展”,看《了不起的蓋茨比》電影中那些包的故事

去“百年包袋藝術收藏首展”,看《了不起的蓋茨比》電影中那些包的故事
圖說:展覽現場 主辦方供圖 這個中秋,<致優雅時袋>百年包袋藝術收藏全國首展在尚嘉中心啟幕.本次展覽以時序展出橫跨00年代至90年代的復古手袋,20件具有時代特徵的古董級藏品從歐洲遠道而來 ...

開園僅3小時,哈利·波特城堡旁遍地垃圾

開園僅3小時,哈利·波特城堡旁遍地垃圾
來源 | 新聞晨報綜合報道 今天 原定12點正式開園的北京環球度假區, 於11點10分提前開門迎客, 最受遊客們歡迎的是"哈利·波特"園區, 許多人徑直往園區奔跑. 然而,僅過了三 ...

30個好萊塢電影中被人忽視的驚人細節!這就是差距啊…

30個好萊塢電影中被人忽視的驚人細節!這就是差距啊…
話說,看電影已經是當代人不可或缺的一種娛樂方式,每個人看過的影片都不少,然而大部分都是走馬觀花- 在reddit網站上有一個"電影細節"的版塊,匯聚了許多列文虎克般的資深影迷!他們 ...

最新007電影中,主角為什麼用諾基亞手機,而不是蘋果手機?

最新007電影中,主角為什麼用諾基亞手機,而不是蘋果手機?
最新的007電影--<無暇赴死>(Mourir peut attendre)上映了,這是丹尼爾·克雷格(Daniel Craig)最後一次扮演特工詹姆斯·邦德(James Bond). 這 ...

曝光電影中那些不為人知的細節,你發現了嗎?

曝光電影中那些不為人知的細節,你發現了嗎?
電影<星際穿越>中,導演克里斯托弗·諾蘭(Christopher Nolan)為了電影種植了 500 英畝的玉米,因為他不想使用 CGI .拍完之後,他轉身賣掉了玉米,賺回了預算的利潤. ...

在電影中飾演自己本人,吳君如很開心丨夜問
海報劇照來自電影<媽媽的神奇小子> 答案:<煎餅俠>. 吳君如,中國香港演員.導演.16歲進入無線電視藝員訓練班,畢業之後在TVB參演電視劇,1988年參演王晶執導的<霸 ...

雨中鏖戰遺憾失利 全運會北京女足首戰不敵山東

雨中鏖戰遺憾失利 全運會北京女足首戰不敵山東
第十四屆全運會女足成年組的比賽在9月16號下午打響.陝西西安的午後下起了綿綿細雨,北京女足在雨中經過90分鐘苦戰,以0-2不敵山東隊,首戰失利. 主教練於允賽後總結道:"拋開這個比分的話,我 ...

問世間情為何物:金庸小說中四段遺憾而悽美的愛情

問世間情為何物:金庸小說中四段遺憾而悽美的愛情
一.楊康與穆念慈.楊康壞事做絕,但穆念慈就是愛他,愛情這種事沒道理可講.穆念慈對楊康一見鍾情後就認定了他,之後再也沒有改變,穆念慈明明武功不高,卻多次冒著生命危險營救楊康.既便知道楊康金國小王子的身份 ...

真實盤點《西遊記》中天庭排行前十位的隱世高手
眾所周知,孫悟空大鬧天宮時,把天庭天將打得一塌糊塗,把天庭攪的昏天地暗,一片狼藉.甚至玉帝都被嚇得躲到桌子底下,狼狽不堪.讓人們感嘆天庭著實窩囊無用,連一個跟孫悟空對打的像樣的高手都沒有. 但實際上堂 ...

北京環球影城十一開園時間延長至晚10點
功夫藏和平山谷 熊貓護智慧仙桃 北京 環球影城 嗨現場地點:北京環球影城 功夫熊貓蓋世之地主題景區 最佳遊覽時間:中午 昨天是國慶假期第一天.6時許,北京環球度假區城市大道上已經有不少遊客.監測到人流 ...

哈迷回家,羅姨數錢:一筆價值322億美元的魔法生意

哈迷回家,羅姨數錢:一筆價值322億美元的魔法生意
深響原創 · 作者|祖楊 經過三個月的內部測試.20天的試運營,北京環球影城於今日正式開園."中國限定"."全球首創"的名號加持下,環球影城首日門票在開票一分鐘 ...

北京環球影城正式開園 全球首家“功夫熊貓”主題景區亮相京城

北京環球影城正式開園 全球首家“功夫熊貓”主題景區亮相京城
◆ 文 | 媒體老梁 北京環球度假主題樂園昨日(9月20日)正式迎客.這裡匯聚了全世界環球主題公園經典的娛樂體驗,並糅合中國文化元素,為中國及全球遊客帶來如電影大片般的沉浸式娛樂體驗,為北京這座世界歷 ...

除了笑聲,兒童文學還應帶給孩子些什麼
[熱點觀察] 作者:張生珍(北京語言大學教授.博士生導師) 走進很多實體書店,兒童文學書架前駐足觀看的人往往最多.在各種圖書熱銷榜上,兒童文學類圖書基本都名列前茅.有關統計顯示,中國的少兒類圖書是近幾 ...

霍格沃茨&quot;開網課&quot;,入學第一天就能學黑魔法?伏地魔:這盛世如我所願

霍格沃茨&quot;開網課&quot;,入學第一天就能學黑魔法?伏地魔:這盛世如我所願
"你接到霍格沃茨的電話了嗎?" 最近,你的朋友圈是否被一封來自霍格沃茨魔法學院的入學通知刷屏? A Harry Potter-themed mobile phone game ha ...

國外父母喜歡用小說人物給孩子起名,《哈利波特》的盧娜最受歡迎

國外父母喜歡用小說人物給孩子起名,《哈利波特》的盧娜最受歡迎
國外的父母們很喜歡用"名人"的名字給自家的孩子起名,尤其是那些經典小說中的人物. 可能,這也是歪果仁"撞名"機率如此之高的原因之一吧. 國外的"the ...

NBA無冠最遺憾,最強無冕之王大盤點,選出你心中的第一人

NBA無冠最遺憾,最強無冕之王大盤點,選出你心中的第一人
麥迪 麥迪可惜嗎,其實也不可惜,畢竟先天性脊柱側彎讓他的職業生涯不可能像他打過的那樣長久,麥迪也可惜,以他的天賦不說成長為神一樣的存在,也能欲與天公試比高. 然而,命運創造一切的時候總喜歡在完美的事物 ...