編輯:小鹹魚
【新智元導讀】GitHub上,有一位小哥放出了「2021年充滿驚喜的人工智慧論文綜述」這個專案。目前,裡面總結了33篇今年必看論文,堪稱「良心寶藏」。這個專案仍在更新中,收藏一波,繼續追更!
現如今,AI技術突飛猛進,每年都會誕生很多優秀的論文。
想知道2021年有哪些paper是你不能錯過的嗎?
這不,在GitHub上,有一位小哥放出了這樣一個專案,目前,裡面總結了33篇今年必看論文,堪稱「良心寶藏」。
https://github.com/louisfb01/best_AI_papers_2021
這個專案的名稱是「2021年充滿驚喜的人工智慧論文綜述」,作者是Louis-François Bouchard(GitHub名為louisfb01),上線一天就收穫314個star(持續上漲中)。
Louis-François Bouchard來自加拿大蒙特利爾,我目前在École de Technologie Supérieure攻讀人工智慧-計算機視覺碩士學位,同時在designstripe兼職做首席人工智慧研究科學家。
值得一提的是,Louis還在YouTube上有自己的頻道「What's AI」。
What's AI主頁:https://www.louisbouchard.ai/
Louis之所以在YouTube上做「What's AI」這個頻道,是希望用簡單的語言分享和解釋人工智慧,為大家分享新的研究和應用。
YouTube What's AI 頻道:https://www.youtube.com/c/WhatsAI/featured
Louis想為所有人揭開人工智慧「黑匣子」的神秘面紗,讓人們意識到使用它的風險。
Louis是一個很有分享精神的人,喜歡學習和分享他所學到的東西。他寫了不少文章,也在自己的頻道更新影片,在GitHub上也正在做一些有趣的專案。
其實,「2021年充滿驚喜的AI論文綜述」已經是Louis更新「AI論文綜述」系列的第二年了。
在2020年,Louis也上線了「2020年充滿驚喜的AI論文綜述」專案,裡面是按釋出日期排列的AI最新突破的精選列表,帶有清晰的影片解釋,更深入文章的連結和原始碼。
https://github.com/louisfb01/Best_AI_paper_2020
下面,就來看看「2021年充滿驚喜的AI論文綜述」裡面到底有哪些讓人驚喜的AI最新研究成果吧!
2021年充滿驚喜的AI論文綜述
儘管世界仍在慢慢復甦,但研究並沒有放緩其步伐,尤其是在人工智慧領域。
此外,2021年還強調了許多重要的方面,如道德方面、重視偏見、治理、透明度等等。
人工智慧和我們對人腦的理解及其與AI的聯絡正在不斷髮展,在不久的將來,也許有希望改善我們的生活質量。
精彩論文節選
1、DALL-E:Zero-Shot Text-to-Image Generation,來自OpenAI
論文地址:https://arxiv.org/pdf/2102.12092.pdf
一個Emoji的小企鵝,帶著藍帽子,紅手套,穿著黃褲子示例
論文介紹:
GPT-3表明,語言可以用來指導大型神經網路執行各種文字生成任務。
而Image GPT表明,同樣型別的神經網路也可以用來生成高保真度的影象。這個突破說明透過文字語言來操縱視覺概念現在已經觸手可及。
OpenAI成功地訓練了一個能夠從文字標題生成影象的網路。它非常類似於GPT-3和Image GPT,併產生了驚人的結果。
和GPT-3一樣,DALL-E也是一個Transformer語言模型。它同時接收文字和影象作為單一資料流,其中包含多達1280個token,並使用最大似然估計來進行訓練,以一個接一個地生成所有的token。
這個訓練過程不僅允許DALL-E可以從頭開始生成影象,而且還可以重新生成現有影象的任何矩形區域,與文字提示內容基本一致。
利用DALL·E生成企鵝抱枕
2、Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
論文地址:https://arxiv.org/pdf/2103.14030.pdf
論文介紹:
這篇文章介紹了一種新的、可以應用於計算機視覺裡的Transformer,Swin Transformer。
Transformer解決計算機視覺問題的挑戰主要來自兩個領域:影象的比例差異很大,而且影象具有很高的解析度,在有些視覺任務和如語義分割中,畫素級的密集預測對於Transformer來說是難以處理的,因為其self-attention的計算複雜度與影象大小成二次關係。
為了克服這些問題,Swin Transformer構建了分層Transformer特徵圖,並採用移位視窗計算。移位視窗方案透過將self-attention計算限制在不重疊的區域性視窗(用紅色標出),同時還允許跨視窗連線,帶來了更高的效率。
Swin Transformer透過從小尺寸的面片(用灰色勾勒)開始,並逐漸合併更深的Transformer層中的相鄰面片來構建分層表示。這種分層體系結構可以靈活地在各種尺度上建模,並且在影象大小方面具有線性計算複雜度。線性計算複雜度是透過在分割影象的非重疊視窗(用紅色標出)內區域性計算自我注意來實現的。 每個視窗中的面片數量是固定的,因此複雜度與影象大小成線性關係。
Swin Transformer在影象分類、目標檢測和語義分割等識別任務上取得了很好的效能,在三個任務中,Swin Transformer的時間延遲與ViT,DeiT和ResNeXt模型相似,但效能卻得到了大幅提升:COCO test-dev 58.7 box AP和51.1 mask AP,力壓之前的最先進結果2.7 box AP和2.6 mask AP。 在ADE20K語義分割任務中,Swin Transformer在驗證集上獲得了53.5 mIoU,比以前的最先進水平(SETR)提高了3.2 mIoU。 在ImageNet-1K影象分類中,它也達到了87.3%的最高精度,充分展現Transformer模型作為新視覺backbone的潛力。
該論文一作劉澤是中科大的學生,在微軟亞洲研究院實習。他於2019年獲中國科技大學學士學位,並以最高榮譽獲得郭沫若獎學金。
個人主頁介紹,其2篇論文和1篇Oral被ICCV2021接收。
個人主頁:https://zeliu98.github.io/
3、StyleCLIP: Text-driven manipulation of StyleGAN imagery
論文地址:https://arxiv.org/pdf/2103.17249.pdf
論文介紹:
這是一項來自以色列的研究人員的工作StyleCLIP,可以使用基於人工智慧的生成對抗性網路對照片進行超逼真的修改,並且只需要讓使用者輸入他們想要的東西的描述即可,無需輸入特定的圖片。
這個模型也會產生一些非常搞笑的結果。例如可以給Facebook 的CEO馬克 · 扎克伯格的臉隨意修改,例如讓他看起來禿頂,戴上眼鏡,或者在下巴上紮上山羊鬍。
這個「火星人」的臉上似乎也有了一點人類的感覺。
StyleCLIP模型主要由StyleGAN和CLIP模型組成。
StyleGAN可以在不同領域(domain)生成高度真實影象,最近也有大量的工作都集中在理解如何使用StyleGAN的隱空間來處理生成的和真實的影象。
但發現語義上潛在有意義的操作通常需要對多個自由度進行細緻的檢查,這需要耗費大量的人工操作,或者需要為每個期望的風格建立一個帶註釋的影象集合。
既然基於註釋,那多模態模型CLIP(Contrastive Language-Image Pre-training)的能力是否就可以利用上,來開發一個不需要手動操作的基於文字的StyleGAN影象處理。
例如輸入可愛的貓(cute cat),眯眼睛的貓就被放大了眼睛,獲取了所有可愛小貓的特徵,還可以老虎變獅子等等。
4、GitHub Copilot & Codex: Evaluating Large Language Models Trained on Code
論文地址:https://arxiv.org/pdf/2107.03374.pdf
論文介紹:
OpenAI在2020年,曾推出1750億引數的GPT-3,引數規模直逼人類神經元的數量。
GPT-3使用了在2019年之前的網際網路上的幾乎所有公開的書面文字進行訓練,所以它對於自然語言是有一定理解能力的,能作詩、聊天、生成文字等等。
今年夏天,OpenAI 釋出了 Codex。
Codex基於GPT-3進行訓練,接受了從GitHub中提取的TB級公開程式碼以及英語語言示例的訓練。
只要你對Codex發號施令,它就會將英語翻譯成程式碼。
隨後,你的雙手離開鍵盤,Codex會自動程式設計,火箭就自己動起來了。
而Copilot正是建立在OpenAI強大的Codex演算法之上,獲得了「海納百川」的程式碼積累和前所未有的程式碼生產能力。
Copilot不僅僅可以模仿它見過的程式碼,而且還會分析利用函式名、方法名、類名和註釋的上下文來生成和合成程式碼,為開發人員提供編輯器中整行程式碼或函式的建議。
它能減少工程師透過API文件做苦工的時間,還能幫忙編寫測試程式碼。
5、Skillful Precipitation Nowcasting using Deep Generative Models of Radar
論文地址:https://www.nature.com/articles/s41586-021-03854-z
論文介紹:
今天的天氣預測是由強大的數值天氣預報(NWP)系統驅動的。透過解決物理方程,數值天氣預報系統可以提前數天得到地球尺度的預測。然而,它們很難在兩小時內產生高解析度的預測。
即時預報填補了這一關鍵時間區間的效能空白。氣象感測的進步使高解析度雷達可以高頻地(在1公里解析度下每5分鐘)提供測量出的地面降水量資料。
過去20分鐘的觀測雷達被用來提供未來90分鐘的機率預測
已有的短期預測方法,如STEPS和PySTEPS,沿用NWP的方法來考慮不確定性,但按照帶有雷達資訊的平流方程對降水進行建模。
基於深度學習的方法則不需要對平流方程的依賴,但現有方法側重於特定地點的預測,而不是對整個降水場的機率預測,這使其無法在多個空間和時間集合中同時提供一致的預測結果,限制了實用性。
為此,DeepMind使用深度生成模型(DGMR)為機率預報開發了一種觀測驅動的方法。DGMR是學習資料機率分佈的統計模型,可以從學習到的分佈中輕鬆生成樣本。由於生成模型從根本上是機率性的,可以從給定的歷史雷達的條件分佈中模擬許多樣本,生成預測集合。此外,DGMR既能從觀測資料中學習,又能表示多個空間和時間尺度上的不確定性。
結果表明,DeepMind的深度生成模型可以提供更好的預測質量、預測一致性和預測價值。模型在1,536公里×1,280公里的區域內產生了逼真且時空一致的預測,提前期為5-90分鐘。
DGMR能更好地預測較長時段的空間覆蓋和對流,同時不會高估強度
透過50多位氣象專家的系統評估,與其他兩種競爭方法相比,DeepMind的生成模型以89%的絕對優勢在準確性和實用性兩方面排名第一。
其他有意思的論文都可以在Louis的GitHub主頁上找到,目前這個專案仍在更新中,收藏一波,繼續追更!
參考資料:
https://github.com/louisfb01/best_AI_papers_2021