sponsored links

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

OpenAI剛剛推出了一個新的文字生成影象模型,名叫GLIDE

相比今年年初誕生的大哥DALL·E,它只有35億引數(DALL·E有120億)。

規模雖然小了,質量卻不賴。

大家仔細看這效果,“使用計算器的刺蝟”、“星空下的狐狸”、“彩色玻璃窗風格的熊貓吃竹子”、“太空升降艙蠟筆畫”:

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

是不是很像樣兒?

一位碼農兼藝術家的網友則形容它“和真的難以區分”

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

GLIDE在人類評估員的打分中,確實PK掉了使用CLIP給圖片排序的DALL·E。

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

最有趣的是,這個GLIDE似乎具有“智力”——會否決你畫出八條腿的貓的主意,也不認為老鼠可以捕食獅子。

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

OpenAI歲末新作GLIDE

GLIDE全稱Guided Language to Image Diffusion for Generation and Editing,是一種擴散模型 (diffusion model)。

擴散模型最早於2015提出,它定義了一個馬爾可夫鏈,用於在擴散步驟中緩慢地向資料新增隨機噪聲,然後透過學習逆轉擴散過程從噪聲中構建所需的資料樣本。

相比GAN、VAE和基於流的生成模型,擴散模型在效能上有不錯的權衡,最近已被證明在影象生成方面有很大的潛力,尤其是與引導結合來兼得保真度和多樣性。



△擴散模型與其他三種生成模型的對比

研究人員訓練了一個64×64解析度的文字條件擴散模型,引數35億;以及一個256×256解析度的文字條件上取樣擴散模型,引數15億。

模型有兩種引導形式來獲得更好的生成效果:無分類器引導(classifier-free guidance)和CLIP引導。

對於CLIP引導,他們還訓練了一個噪聲感知的64×64 ViT-L CLIP模型 (vit)。

模型採用了SOTA論文《Improved Denoising Diffusion Probabilistic Models》(改進的去噪擴散機率模型)的架構,使用文字條件資訊對其進行增強。

對於每個帶噪影象xt和相應的提示文字caption,該模型預測出p(xt-1|xt,caption)。

為了對文字進行條件處理,模型還將文字編碼為K個token的序列,並將這些token饋送到Transformer中,此Transformer的輸出有兩個用處:

1、在ADM模型中使用最終token embedding來代替class embedding;

2、token embedding的最後一層在整個ADM模型中分別對映每個注意層的維度,然後連線到每個層的注意上下文。

研究人員在與DALL·E相同的資料集上訓練GLIDE,batch size為2048,共經過250萬次迭代;對於上取樣模型,則進行了batch size為512的160萬次迭代。

這些模型訓練穩定,總訓練計算量大致等於DALL·E。

在初始訓練完成之後,研究人員還微調了基礎模型以支援無條件影象生成。

訓練過程與預訓練完全一樣,只是將20%的文字token序列替換為空序列。這樣模型就能既保留文字條件生成的能力,也可以無條件生成。

為了讓GLIDE在影象編輯任務中產生不必要的偽影,研究人員在微調時將GLIDE訓練樣本的隨機區域擦除,其餘部分與掩碼通道一起作為附加條件資訊輸入模型。

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

相比DALL·E,GLIDE的效果更逼真

  • 定性實驗

研究人員首先比較了GLIDE兩種不同的引導策略:CLIP引導和無分類器引導。

分別用XMC-GAN、DALL·E(使用CLIP重排256個樣本,從中選擇最佳結果)和CLIDE模型(CLIP引導/無分類器引導)在相同的文字條件下生成了一些結果。

CLIDE模型的結果未經挑選。

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

可以發現,無分類器引導的樣本通常比CLIP引導的看起來更逼真,當然,兩者都勝過了DALL·E。

對於複雜的場景,CLIDE可以使用修復功能進行迭代生成:比如下圖就是先生成一個普通客廳,再加畫、加茶几、加花瓶……

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

此外,CLIDE還可以在SDedit模型上利用草圖與文字相結合的方式,對影象進行更多受控修改。

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

  • 定量實驗

研究人員首先透過衡量質量和保真度的帕累託邊界(Pareto frontier)來評估無分類引導和CLIP引導之間的差異。

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

在前兩組曲線中,可以發現無分類器引導幾乎都是最優的——不管是在準確率/召回率上,還是在IS/FID距離上。

而在繪製CLIP分數與FID的關係時,出現了完全相反的趨勢。

研究人員假設這是CLIP引導正在為評估CLIP模型尋找對抗性示例,而並非真正優於無分類器引導。為了驗證這一假設,他們聘請了人工評估員來判斷生成影象的質量。

在這個過程中,人類評估者會看到兩個256×256的影象,選擇哪個樣本更好地匹配給定文字或看起來更逼真。如果實在分辨不出,每個模型各得一半分數。

結果如下:

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

無分類器引導產生了更符合相應提示的高質量樣本。

同時,研究人員也將CLIDE與其他生成模型的質量進行了評估:CLIDE獲得了最有競爭力的FID分數。

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

再將GLIDE與DALL-E進行人工評估。

包含三種比法:兩種模型都不使用CLIP重排序;僅對DALL·E使用CLIP重排序;對DALL-E使用CLIP重排序,並透過DALL-E使用的離散VAE對映GLIDE樣本。

結果是不管哪種配置,人類評估員都更傾向於GLIDE的結果(每項第一行代表GLIDE)。

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

當然,說這麼多,GLIDE也有它的不足,就如開頭的例子,它沒法畫出不合常理的“八條腿的貓”,也就是有智力但缺乏想象力

此外,未最佳化的GLIDE需要15秒才能在單張A100 GPU上生成一張影象,這比GAN慢多了。

最後,po一張我們在官方釋出的Colab連結上親手試的一張效果,還湊合(an illustration of a rabbit,demo上的模型比較小):

OpenAI又出一文字生成影象模型,引數比DALL·E少85億,質量更真

論文地址:
https://arxiv.org/abs/2112.10741

GitHub地址(是一個在過濾後的資料集上訓練的小模型):
https://github.com/openai/glide-text2im

Colab試玩:
https://colab.research.google.com/github/openai/glide-text2im/blob/main/notebooks/text2im.ipynb#scrollTo=iuqVCDzbP1F0

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

分類: 親子
時間: 2021-12-24

相關文章

這種信念越多,越強大,孩子就越難做自己

這種信念越多,越強大,孩子就越難做自己
文/霓裳 今天來說一個對孩子人生非常重要的概念:毀滅性信念. 毀滅性信念,是指在舊有的生活中學到的一些負面的經驗,一直控制著我們的人生.一旦有了這樣的信念,就會給生命平添一些不必要的麻煩和困惑. 比如 ...

女人生孩子,“孃家人”來有什麼用?幾種情況離得再遠都得請過來

女人生孩子,“孃家人”來有什麼用?幾種情況離得再遠都得請過來
本文由護芽媽媽原創,歡迎個人轉發和分享 要說女人什麼最脆弱?無外乎是生孩子的時候,心理上的煎熬再加上生理上的疼痛,著實會讓人很崩潰. 而這個時候,如果生理上的疼痛無法緩解,那麼心理上的一絲安慰都讓女性 ...

有這三個特徵的孩子,腦部都很發達,父母要多加栽培

有這三個特徵的孩子,腦部都很發達,父母要多加栽培
導語:智商高的人一般大腦更加發達,學習和工作能力也會更強,日後的人生髮展也會更容易成功.每個父母都希望自己的孩子擁有高智商,處理問題也更加靈活,以後工作生活都有更好的保障.一個人智商是不是高,在小的時 ...

為什麼全世界都不想生孩子了?
這是篇隨筆,我在出差的飛機上隨手寫的,隨便聊聊. 生育率現在成了全世界大部分國家都頭疼的問題. 按最新的全球生育率統計,全球倒數第一的韓國是0.84,倒數第二波多黎各(想不到吧!)是1.03,倒數第三 ...

各國元首如何評價毛主席?艾森豪威爾:很難對付,恐嚇威脅都沒用

各國元首如何評價毛主席?艾森豪威爾:很難對付,恐嚇威脅都沒用
1976年9月9日,中國人民的偉大領袖.導師毛澤東主席在京逝世. 訊息傳出後,立馬在全世界引起了巨大的轟動,一場規模空前的悼念活動就此正式拉開序幕. 各國元首的唁電.唁函如雪片般飛往北京,大量外國元首 ...

“謝大腳”和“香妃”是同班同學,兩人都死於車禍,都沒生孩子

“謝大腳”和“香妃”是同班同學,兩人都死於車禍,都沒生孩子
2021年8月9日,"謝大腳"的扮演者於月仙因車禍去世,讓無數人嘆息. 8月9日凌晨3點多,於月仙乘坐SUV車趕往拍戲片場,因車速過快,撞上了路邊行走的駱駝.兩頭駱駝當場死亡,車上 ...

多少人都搞錯了:人民醫院是治病的,婦幼保健院才是生孩子的?

多少人都搞錯了:人民醫院是治病的,婦幼保健院才是生孩子的?
受疫情影響,孕媽們發個燒,感個冒都非常不容易.正當熟睡時,發熱門診的催命符又雙叒叕來了! "患者是個30周孕的孕婦,考慮上呼吸道感染,有發熱,體溫最高38.4℃,現在不發燒了.有鼻塞流涕的症 ...

“新型啃老”開始了,家長很難察覺,還以為學生很努力很孝順

“新型啃老”開始了,家長很難察覺,還以為學生很努力很孝順
導語: 當今社會,很多的大學生在大一大二的時候天真爛漫,心裡面只有學習和快樂,覺得生活是那麼的美好和順利.那麼走到大三大四,面臨著實習和即將畢業,大學生們能有幾個不彷徨不惆悵的呢? 隨著社會的發展趨勢 ...

為啥老人認為冬天生孩子比夏天好?並非全是迷信,冬天生娃有優勢

為啥老人認為冬天生孩子比夏天好?並非全是迷信,冬天生娃有優勢
十月懷胎一朝分娩,對於媽媽們來說,這是一個艱難且漫長的過程.這段時期內,孕婦需要在諸多方面加以注意,一面要關注寶寶的動態,另一面也要多加關心自身的身體變化.老一輩的一些說法,也要多加考慮,不可不知. ...

看見,就是療愈的開始:孩子做噩夢的時候,父母的反應很重要

看見,就是療愈的開始:孩子做噩夢的時候,父母的反應很重要
#情感點評大賞# 最近幾天,大兒子糖糖經常半夜從睡夢中驚坐起來,手裡胡亂揮舞一通,嘴裡咕噥著幾句聽不清楚的話:小兒子豆豆,這幾天因為跟著哥哥看<植物大戰殭屍>,也有時說夢話,偶爾還會抽抽嗒 ...

為什麼有人一動就出汗,而有的人卻很難出汗?來聽聽醫生怎麼說的

為什麼有人一動就出汗,而有的人卻很難出汗?來聽聽醫生怎麼說的
導語:炎熱的夏天已經過去了,迎來的是涼爽的秋天雖然在秋天的時候天氣非常的涼爽,但是在這個季節的交換處晝夜溫差也是比較大的,在白天的時候依舊非常的炎熱,而到了晚上之後天氣又變得涼爽了,這個時候很容易出現 ...

家長常給孩子做的“無效早餐”,不頂餓、沒營養,每道都很經典

家長常給孩子做的“無效早餐”,不頂餓、沒營養,每道都很經典
孩子升入小學了,家長們是否適應給娃做早飯的生活節奏了嗎? "早餐要吃好"這句話大家都聽過,但具體怎樣才算吃好,家長卻經常做錯,甚至一輩輩傳下來的經典早餐搭配,只是"無效早 ...

農曆生日是幾月,人的人生道路是平坦的,選擇任何行業都做得很好
農曆的生日是幾月?人的人生道路是平坦的,選擇任何行業都做得很好,年輕又成功. 生活順利,事業發展容易錦上添花.有許多人需要在職業領域長期努力,才能逐漸取得成功.但是,有些人經常會遇到好運,或者有傑出的 ...

為什麼孩子會第一次說“髒話”?家長的反應很重要

為什麼孩子會第一次說“髒話”?家長的反應很重要
很多家長在處理孩子第一次冷不丁說出的一句髒話,第一反應就是制止教育,之後很快就會升級到"武力"解決.畢竟"說髒話"會讓人覺得很不舒服,並且孩子說髒話,一定程度上 ...

美國總統都怎麼評價毛主席?艾森豪威爾:難對付,恐嚇威脅都沒用

美國總統都怎麼評價毛主席?艾森豪威爾:難對付,恐嚇威脅都沒用
"武器是戰爭的重要的因素,但不是決定的因素,決定的因素是人不是物." ------毛澤東<論持久戰> 中國只有兩部軍事著作被美國西點軍校列為必讀的書,一部是孫武的< ...

2021年,居然還有人生孩子

2021年,居然還有人生孩子
2020年11月,我懷孕了. 懷孕的喜悅保持了兩天,後續持續了為期10個月的擔心. 孕期注意事項★ 定期產檢.產檢綠燈,說明寶寶才健康,有問題及時解決. 合理飲食.我就是中期胃口太好,沒有節制的吃,體 ...

悽苦女人:做孩子時,離開母親,做母親時,離開孩子,臨終難如願

悽苦女人:做孩子時,離開母親,做母親時,離開孩子,臨終難如願
1920年2月23日,曲阜衍聖公府,軍警林立,省長與將軍同時坐鎮,顏.曾.孟三氏奉祀官無一人敢缺席.如此陣勢只為等一個嬰兒的降世.此時,嬰兒的父親30代衍聖公孔令貽已去世3個多月.嬰兒註定是一個遺腹子 ...

寶馬帶孩子工作太難了,有什麼方法可以賺錢又能照顧好寶寶的
前幾天發生了一件很難過的事,因為小甜甜每天都是跟著我上班,因為我的疏忽忙工作沒照看到小甜甜,導致她跑出去玩的時候被電動車撞到了,把孩子給嚇的發抖,一個勁的哭,看到孩子委屈的樣子哭的那麼傷心可憐我也忍不 ...

激勵孩子的良言妙語,請家長每天都說一說

激勵孩子的良言妙語,請家長每天都說一說
作者:蜉蝣來源:育才家園(ID: edu683) 凡是孩子自己能做的,讓他自己做. 看過一句話:"每一個孩子,都是站在父母的舌尖上舞蹈." 父母說什麼話,決定了孩子以後將走怎樣的路 ...

6歲前若不給孩子立規矩,再好的教育都是無用的

6歲前若不給孩子立規矩,再好的教育都是無用的
從小立好的家規,對孩子來說,這些規矩會成為習慣,而不是束縛. 作者 | 夏天 無意中刷到一段小影片,看後很是憂心. 一個6歲的小女孩在飯桌上七扭八歪地坐著,媽媽催促她趕緊吃飯,她開啟雙臂,齜牙咧嘴地對 ...