博雯 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
現在的AI已經開始參與論文打假了!
就像是這樣,經過旋轉、拉伸和縮放之後的圖片,人眼或許無法辨認,但AI能看到數百個相似的特徵:
即使透過高超的“影象處理手段”把一張完整影象中的區域性畫面挪到自己的影象裡,也能一眼分辨:
對於AI來說,這可能是秒認的活兒,甚至就算是一篇影象繁雜的完整論文,也不過花費一兩分鐘。
但對於人眼可就沒那麼簡單了,比如知名學術打假人Elisabeth Bik為了尋找不同論文中使用相同圖片展示各自不同的實驗結果的例子,曾花費了整整2年時間。
而對於出版商們來說,刊登又撤稿中間的損失就更大了……
因此,最近幾年,AI打假員愈發頻繁地被引入了論文審查,尤其是影象問題中。
比如,自今年1月份開始,世界上最大、最古老的癌症研究專業協會,美國癌症協會(AACR)就已經開始使用AI軟體來評審旗下期刊文章裡的圖片造假或重複問題了。
官方網站上也已經寫明:提交手稿中的所有影象都需要透過AI軟體進行篩選。
不僅是AACR,世界第五大出版商SAGE、老牌經典醫學期刊JCI、 JCI Insight都已經用上了這種方法。
自動影象校對
這些期刊和出版商們所使用的是一個由以色列公司Proofig開發的同名軟體。
Proofig軟體基於AI技術和影象處理技術,面向各種科學文稿中的影象,包括所有型別的顯微鏡照片(光學、電學、共聚焦)、載玻片、蛋白免疫印跡(Western blot)、生物體內和體外影象、植物影象等等。
軟體會從論文中識別影象,然後提取它們共同的特徵進行比較。
這些“共同的特徵”包括對影象整體的縮放或旋轉、部分重複或重疊、還有一些方位上的不同。
除此之外,軟體也能額外檢測到一些問題,比如高解析度的原始資料被壓縮到更小的檔案中時,可能出現的壓縮失真或壓縮偽影(Compression artifact)情況。
一篇普通的論文通常在2分鐘以內可以檢查完畢,最多不超過10分鐘。
對於很多出版商來說,一篇已刊登的科學文稿裡如果出現影象剽竊這種學術不端的現象,那麼從調查、撤稿到後續的法律費用,平均每篇文章可能要損失百萬美元。
因此,很多出版商都樂意引入價效比較高的AI來和人工審查組一起工作。
AACR的一位期刊運營總監就表示:
很多作者也很高興能在出版前注意到一些“無意中的”影象複製錯誤。
而對於我們來說,嚴謹的資料是我們期刊的一個顯著的標誌,因此,這(Proofig)絕對是值得投入的時間和金錢。
出版商們聯合起來
其實,科學文稿中的影象重複或剽竊的現象已經是屢見不鮮了。
2016年,Nature上就有一篇文章對約2萬篇生物醫學論文進行人工分析後發現,其中4%的論文都可能包含上述問題。
而通常每年只有1%的文稿得到更正,因此撤回的文章就更少了。
因此,去年5月份,一些出版商聯合起來成立了一個為解決論文中影象問題的小組,其中包括荷蘭出版業巨頭愛思唯爾(Elsevier)、Wiley、Springer Nature和Taylor & Francis。
愛思唯爾表示,小組最終的目標是“創造一個能夠幫助我們自動識別影象變化的環境。”
還有很多出版商試圖自己解決問題,比如瑞士出版商Frontiers開發了自己的論文影象檢查軟體,作為自動檢查系統AIRA的一部分。
Frontiers內部的一位發言人表示,軟體自2020年8月投入使用,標記的大多數論文都沒有問題, 只有大約10%的論文需要人工檢查小組的跟蹤處理。
而有些尚未引入AI手段的出版商也展現出了對這種方法的懷疑:
在可靠性上,AI檢查還沒有大規模地投入使用。比如愛思唯爾的軟體目前的進度還是“正在測試中“,只對部分期刊開放使用。
在成本上,AI軟體偶爾的“誤殺”依舊需要人工參與,甚至會引起其他的糾紛。
不過有人從另一個角度提出了問題:
如果所有的論文都是開放存取的,那麼影象誤用/重複問題將更容易得到審查,訓練AI也會更有效率。
參考連結:
[1]https://www.nature.com/articles/d41586-021-03807-6
[2]https://www.nature.com/articles/nature.2016.19802
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態