sponsored links

縮小規模,OpenAI文字生成影象新模型GLIDE用35億引數媲美DALL-E

機器之心報道

編輯:陳萍、小舟

模型的引數規模並不需要那麼大。

從年初 OpenAI 刷屏社群的 DALL-E 到英偉達生成逼真攝影的 GauGAN2,文字生成影象可謂是今年大火的一個研究方向。現在 OpenAI 又有了新的進展——35 億引數的新模型 GLIDE。

如下圖 1 所示,GLIDE 通常會生成逼真的陰影和反射,以及高質量的紋理。此外,該模型還能夠組合多個概念(例如柯基犬、領結和生日帽),同時將屬性(例如顏色)繫結到這些物件。

縮小規模,OpenAI文字生成影象新模型GLIDE用35億引數媲美DALL-E

除了從文字生成影象,GLIDE 還有影象編輯功能——使用文字 prompt 修改現有影象,在必要時插入新物件、陰影和反射,如下圖 2 所示。例如,在草坪上新增斑馬:

縮小規模,OpenAI文字生成影象新模型GLIDE用35億引數媲美DALL-E

如下圖 3 所示,GLIDE 的零樣本生成和修復複雜場景的能力也很強。

縮小規模,OpenAI文字生成影象新模型GLIDE用35億引數媲美DALL-E

GLIDE 還能夠將草圖轉換為逼真的影象編輯。例如下圖中「一隻戴著領結和生日帽的柯基犬」從塗鴉草圖轉換成了逼真的影象。

縮小規模,OpenAI文字生成影象新模型GLIDE用35億引數媲美DALL-E

上述功能是怎樣實現的呢?在新模型 GLIDE 中,OpenAI 將指導擴散(guided diffusion)應用於文字生成影象的問題。首先該研究訓練了一個 35 億引數的擴散模型,使用文字編碼器以自然語言描述為條件,然後比較了兩種指導擴散模型至文字 prompt 的方法:CLIP 指導和無分類器指導。透過人工和自動評估,該研究發現無分類器指導能夠產生更高質量的影象。

縮小規模,OpenAI文字生成影象新模型GLIDE用35億引數媲美DALL-E

  • 論文地址:https://arxiv.org/pdf/2112.10741.pdf
  • 專案地址:https://github.com/openai/glide-text2im

該研究發現使用無分類器指導模型生成的樣本既逼真又反映了廣泛的現實知識。人類評估的結果表明,GLIDE 的生成結果優於 DALL-E。

此外,值得注意的是,DALL-E 的引數量是 120 億,而 GLIDE 僅有 35 億引數,卻實現了更優的效能。我們來具體看一下 GLIDE 的模型細節。

具有 35 億引數的文字條件擴散模型:GLIDE

OpenAI 以 64 × 64 的影象解析度訓練了一個具有 35 億引數的文字條件擴散模型(text-conditional diffusion model ),以及一個具有 15 億引數的文字條件上取樣擴散模型(text-conditional upsampling diffusion model),該模型將影象解析度提高到 256 × 256。對於 CLIP 指導(CLIP guidance),OpenAI 還訓練了一個噪聲感知 64 × 64 ViT-L CLIP 模型。

文字條件擴散模型

OpenAI 採用 Dhariwal & Nichol (2021) 提出的 ADM 模型架構,但使用文字條件資訊對其進行了擴充。對於每個噪聲影象 x_t 和相應的文字說明(text caption),模型對 p(xt−1|xt, caption) 進行預測。為了以文字為條件,OpenAI 首先將文字編碼為 K 個 token 序列,然後將這些 token 輸入到 Transformer 模型中(Vaswani 等,2017)。這個 transformer 的輸出有兩種用途:

  • 首先,使用最終的 token 嵌入代替 ADM 模型中的類嵌入;
  • 其次,最後一層的 token 嵌入(K 個特徵向量序列)分別投影到 ADM 模型中每個注意力層,然後連線到每一層的注意力上下文。

OpenAI 採用與 DALL-E 完全相同的資料集訓練模型,並且使用與 Dhariwal & Nichol (2021) 提出的 ImageNet 64 × 64 模型相同的模型架構,模型通道為 512 ,從而為模型的視覺部分生成大約 23 億個引數。對於文字編碼 Transformer,OpenAI 使用 24 個殘差塊,產生大約 12 億個引數。

此外,OpenAI 還訓練了一個具有 15 億引數的上取樣擴散模型,影象解析度從 64 × 64 增加到 256 × 256 。該模型同樣以文字為條件,但使用寬度為 1024 較小的文字編碼器(而不是 2048 )。

無分類器指導的微調

模型初始訓練完成之後,可以微調基本模型以支援無條件影象生成。訓練過程與預訓練完全相同,只是 20% 的文字 token 序列被替換為空序列。透過這種方式,模型保留了生成文字條件輸出的能力,同時也可以無條件地生成影象。

影象修復與編輯

以前的影象修復工作存在一個缺點,即模型在取樣過程中無法看到整個上下文資訊。為了獲得更好的生成效果,OpenAI 對模型進行了微調:微調時,隨機擦除訓練樣本一些區域,其餘部分與掩碼通道一起作為附加條件資訊輸入模型。OpenAI 對模型架構進行了修改,增加了四個額外的輸入通道:第二組 RGB 通道和一個掩碼通道。在微調之前,OpenAI 將這些新通道的相應輸入權重初始化為零。對於上取樣模型,OpenAI 提供了完整的低解析度影象,但對於未掩碼的區域提供高解析度影象。

CLIP 指導擴散

鑑於分類器指導和 CLIP 指導的相似性,應用 CLIP 來提高文字條件擴散模型的生成質量似乎很自然。為了更好地匹配 Dhariwal & Nichol (2021) 的分類器指導技術,OpenAI 使用影象編碼器訓練噪聲感知 CLIP 模型,該影象編碼器接收噪聲影象,以 64 × 64 的解析度訓練模型。

實驗結果

該研究將 GLIDE 與之前的 SOTA 模型進行了定性比較,結果如下圖 5 所示。GLIDE 生成了更逼真的影象,並且無需 CLIP 重排序或挑選。

縮小規模,OpenAI文字生成影象新模型GLIDE用35億引數媲美DALL-E

定量結果

該研究首先透過檢視影象質量保真度權衡的帕累託前沿來評估無分類器指導和 CLIP 指導之間的差異。下圖 6 在 64 × 64 解析度下評估了這兩種方法的零樣本 MS-COCO 生成。

縮小規模,OpenAI文字生成影象新模型GLIDE用35億引數媲美DALL-E

該研究設定的人類評估實驗如下:

讓人們觀察兩個 256 × 256 的影象,並按如下兩條標準選出一個更優的影象:要麼更好地匹配給定的標題,要麼看起來更逼真。評估結果如下圖 7 所示。

縮小規模,OpenAI文字生成影象新模型GLIDE用35億引數媲美DALL-E

並將人類評估的結果和下表 1 的結果進行比較,然後該研究發現人類和 CLIP 指導給出的分數不一致,因此無分類器指導能夠產生與人類認知一致的更高質量生成結果。

縮小規模,OpenAI文字生成影象新模型GLIDE用35億引數媲美DALL-E

此外,研究者還將 GLIDE 與其他文字生成影象模型進行了比較,結果如下表 2 所示。GLIDE 在 MS-COCO 上獲得有競爭力的 FID。

縮小規模,OpenAI文字生成影象新模型GLIDE用35億引數媲美DALL-E

最後,該研究使用上述人類評估實驗設定比較了 GLIDE 和 DALL-E ,結果如下表 3 所示。注意到 GLIDE 的訓練使用與 DALL-E 大致相同的訓練計算,但模型要小得多(35 億引數 VS120 億引數),所需取樣延遲更少,並且不需要 CLIP 重排序。

縮小規模,OpenAI文字生成影象新模型GLIDE用35億引數媲美DALL-E

分類: 娛樂
時間: 2021-12-21

相關文章

奧運會上每個國家最強的團體專案,國乒全勝,韓國射箭隊最長連勝

奧運會上每個國家最強的團體專案,國乒全勝,韓國射箭隊最長連勝
一個國家在一個專案有沒有絕對優勢,不僅是看在單項上的成績,團體的冠軍更能代表該國的整體實力如同劉國樑說的一樣,單項的比賽我們可以大意失荊州,但團體專案絕對不能輸,一次也不行,因為這是代表國家隊整體的實 ...

帝國的隕落,揭秘春蘭空調的沉浮興衰

帝國的隕落,揭秘春蘭空調的沉浮興衰
"北春蘭,南華寶",作為上世紀的國內空調雙雄,80年代的華寶和90年代的春蘭統治了國內空調行業近20年,它們的輝煌過往曾驚豔整個家電行業,而它們沒落也令無數人唏噓感慨,如果說華寶的 ...

中國歷史上那些讓人感覺十分遺憾的事情

中國歷史上那些讓人感覺十分遺憾的事情
當大家回望中國五千年的歷史時,那些英雄傳記,王朝更替,讓人回望無窮,在這期間也總有那麼一些事情讓人感覺十分的遺憾,如果這些事情的結局不同,中國很可能走向不一樣的歷史. 今天就來聊聊那些歷史上讓人覺得十 ...

郭焱的故事:從未參加過奧運會,甘做最悲情的女乒隊長

郭焱的故事:從未參加過奧運會,甘做最悲情的女乒隊長
她天賦異稟,師從"大滿貫教主"李隼: 曾做王楠.張怡寧光環下的"配角",遊離於邊緣地帶: 熬走兩位"大魔王",終於當上女乒隊長,卻仍不被重用 ...

陳夢的意外輸球說明了什麼?

陳夢的意外輸球說明了什麼?
乒乓球女子團體小組賽山東隊與黑龍江隊的較量中,作為奧運冠軍.山東隊的第一單打陳夢0:3意外輸給了國家隊隊友.黑龍江隊第一單打王曼昱,雖然有點出乎預料,但也並不是一件壞事,起碼反映了一個現實問題,誰都不 ...

被三國演義誤導了,這才是歷史上真實的“五虎上將”
首先解釋下正史中蜀國並沒有"五虎上將"的說法,劉備漢中稱王時分封了關羽.張飛.馬超.黃忠四人,沒有趙雲.關羽為前將軍,假節鉞,都荊州事:張飛為右將軍,假節,章武元年遷車騎將軍,領司 ...

趙露思或成下一個鞠婧禕?

趙露思或成下一個鞠婧禕?
最近發現一個神奇的現象,每當有關於當紅小花或大花的文章,下面總有一些關於趙露思的評論,例如"xxx再漂亮又如何?比不上我家露思","不覺得美,還是我家露思好看" ...

北愛延期資格賽,周躍龍前三局自挖大坑奇蹟未現,丁俊暉後車之鑑

北愛延期資格賽,周躍龍前三局自挖大坑奇蹟未現,丁俊暉後車之鑑
北京時間10月10日凌晨2時,國際臺聯北愛爾蘭公開賽延期資格賽終於開杆,今日凌晨將有三場比賽,由中國小將高陽.周躍龍分別對陣克利福德.吉米-羅伯遜,另一場由麥克吉爾對陣李-沃克,三場比賽,中國球迷自然 ...

雪藏陳雨菲仍5:0完勝!國羽首秀狀態不凡,下輪或開始遇真正挑戰

雪藏陳雨菲仍5:0完勝!國羽首秀狀態不凡,下輪或開始遇真正挑戰
原本兩年一度的尤伯杯(世界女子羽毛球團體最高賽事),由於疫情的影響被推遲到了今年.上屆賽事,作為十四冠王中國女羽大意失荊州,在半決賽中意外被泰國淘汰.此番遠征丹麥,中國隊目標只有一個,那便是成功問鼎十 ...

一個真正的三國

一個真正的三國
曹丕篡漢 三國時期(220年-280年)是上承東漢下啟西晉的一段歷史時期.220年,曹丕篡漢稱帝,國號"魏",史稱曹魏,三國曆史正式開始.次年劉備在成都延續漢朝,史稱蜀漢.222年 ...

廖榮標巧妙伏擊,打死日軍12人,事後才知:其中有個旅團長

廖榮標巧妙伏擊,打死日軍12人,事後才知:其中有個旅團長
百年百將166:廖榮標 作者:相忘於江湖 抗戰時期的山東根據地,成為解放戰爭最重要的一塊跳板. 全面抗戰初期的魯中山區,活躍著兩支抗日起義隊伍:泰山東北黑鐵山起義的五支隊,泰山東南徂徠山起義的四支隊. ...

人在旅途停車場丟包
2010年10月12日,我是潘富,今天我們準備去往丹東方向,沿本桓公路出發,途經草河掌鎮一瀑布比較狀觀 ,瀑布旁就是陡峭的高聳巖壁,岩石上就長滿了頑強的松柏.瀑布下一深潭清可見底,水中還有小魚遊動,瀑 ...

今天的兔子是在作什麼妖?
我付出,我有喊停的權利,你索取,你沒有要求我繼續的能力. 兔子因為自信過頭,偷偷地睡了一覺,結果輸了比賽,不服氣的她又來了. "本兔子總結了一下,昨天是我大意失荊州,我承認是我門縫裡瞧人了, ...

從毛驢身上掉下來之後,孩子應該知道什麼?

從毛驢身上掉下來之後,孩子應該知道什麼?
我有一頭小毛驢我從來也不騎,有一天我騎它去趕集,我手裡拿著小皮鞭,我心裡正得意,不知怎麼嘩啦啦摔了我一身泥. 這是一首從小唱到大的兒歌,人們只是會唱這支兒歌,小孩子也比較喜歡它的旋律,可是有誰想過,當 ...

五虎上將:誰是被高估的那一個?看《演義》和正史的對比就知道

五虎上將:誰是被高估的那一個?看《演義》和正史的對比就知道
在通行本里,為了情節與可讀性,五人皆被演義,只是被演義的程度不同.沒有具體引數估計很難服眾,不妨來做個系列:五虎上將TOP5最被高估.設定戰績係數.評價係數與綜合係數.滿分10分. TOP5:關羽.正 ...

民間故事:窮小子怒罵財神

民間故事:窮小子怒罵財神
很久以前,有一個名叫羊野亭的年輕人,獨自奉養著老母親.羊家家徒四壁,一貧如洗,祖上除了留下幾間舊屋外,沒有留下一件值錢的東西.不過,羊野亭並不灰心,他認為只要勤勞肯幹,靠著他的雙手,照樣可以過上好生活 ...

大學生別亂籤“三方協議”,容易丟失應屆生身份,以免自找麻煩

大學生別亂籤“三方協議”,容易丟失應屆生身份,以免自找麻煩
大學階段是學生們不斷提升自我的關鍵階段,學生們在大學裡揮灑青春的同時,也收穫許多人生經驗與道理,還有更加深奧的知識,都在不斷豐富自身的能力. 對於學生而言,升學和畢業的過程更像是一個"輪迴& ...

多讀書,讀好書,那就從這些經典書籍開始吧

多讀書,讀好書,那就從這些經典書籍開始吧
好讀書,讀好書 一說起好讀書,讀好書,那可是自古至今文人雅士們不變的理念啊!對於中國人來說,經典,那可非四大名著莫屬了,可是要說好看,那可不一定是四大名著拔得頭籌哦!不過,真的非要說找出個好看書籍to ...

三國時期人才輩出,撇開我們熟知的名字,讓我們來看這五位萬人敵

三國時期人才輩出,撇開我們熟知的名字,讓我們來看這五位萬人敵
三國戰爭年代,人才輩出.許多當時可能非常有名.家喻戶曉的武將,由於歷史的原因逐漸陌生,他們的事蹟自然可以與抗日戰爭中那些受人尊敬的人物相媲美.那麼,讓我們拋開關羽和趙雲,讓我們來看看三國時期未知的 & ...

生下3胎的8個明星家庭:有人5年內連生3娃,有人46歲了還敢產子

生下3胎的8個明星家庭:有人5年內連生3娃,有人46歲了還敢產子
在孩子們治癒一切的笑容面前,無論是觀眾還是明星,都很難不"淪陷"進去. 而在演藝圈裡,就有不少明星為了放大這股親子之樂,而選擇多次生子. 這其中有不少人更是生下了三胎,快樂翻倍了, ...