sponsored links

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

機器之心釋出

機器之心編輯部

在文字生成影象上,文心 ERNIE-ViLG 可以根據使用者輸入的文字,自動創作影象,生成的影象不僅符合文字描述,而且達到了非常逼真的效果。在影象到文字的生成上,文心 ERNIE-ViLG 能夠理解畫面,用簡潔的語言描述畫面的內容,還能夠根據圖片中的場景回答相關的問題。

前不久,百度產業級知識增強大模型 “文心” 全景圖亮相,近日,其中的跨模態生成模型 ERNIE-ViLG 在百度文心官網開放體驗入口,並放出了論文:

體驗連結:https://wenxin.baidu.com/wenxin/ernie-vilg

論文連結:https://arxiv.org/pdf/2112.15283.pdf

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

據悉,文心 ERNIE-ViLG 引數規模達到 100 億,是目前為止全球最大規模中文跨模態生成模型,該模型首次透過自迴歸演算法將影象生成和文字生成統一建模,增強模型的跨模態語義對齊能力,顯著提升圖文生成效果。

小編帶你體驗文心 ERNIE-ViLG “影象創作”能力:

在文字生成影象上,文心 ERNIE-ViLG 可以根據使用者輸入的文字,自動創作影象,生成的影象不僅符合文字描述,而且達到了非常逼真的效果。

注意!以下圖片都是全新生成,並非可直接搜尋到的原圖。

文心 ERNIE-ViLG 不僅能創作建築、動物等單個物體:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

還可以創作包含多個物體的複雜場景:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

甚至能根據使用者輸入的文字要求腦洞大開:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

對於具有無限想象力的古詩詞,文心 ERNIE-ViLG 也能生成恰如其分的畫面,並根據不同的圖畫風格也有所調整:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

油畫風格

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

中國畫風格

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

水彩畫風格

此外,還能根據文字提示對圖片進行補全:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

而在影象到文字的生成上,文心 ERNIE-ViLG 能夠理解畫面,用簡潔的語言描述畫面的內容:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

不僅如此,文心 ERNIE-ViLG 還能夠根據圖片中的場景回答相關的問題:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

目前文心 ERNIE-ViLG 在百度文心官網開放體驗的文字生影象 demo 能夠根據古詩詞進行作畫,增強詩詞的畫面感。

在這些能力的背後,究竟蘊含著怎樣的 AI 技術秘密?

跨模態生成:AI 領域極具挑戰性的一道“難題”

跨模態生成,指的是將一種模態 (文字、影象、語音) 轉換成另一種模態,同時保持模態之間的語義一致性。

圖文生成是跨模態生成的挑戰之一。以圖片生成文字為例,文字描述概括性強,根據文字生成圖片,需要考慮大量文字中未涵蓋的細節資訊,具有極高的挑戰性。例如詩句“春江水暖鴨先知”,僅僅描述了江水、鴨子兩個物體和春天這個季節,但沒有具體描述鴨子的顏色、江邊的桃花以及圖中物體之間的位置關係。

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

春江水暖鴨先知

近些年來,基於生成對抗網路 (GAN) 的方法在人臉、風景等受限領域的文字到影象生成任務上已取得了不錯的效果;DALL-E 透過超大規模的自迴歸生成模型,在影象片段之間建立了前後依賴的關係,從而具備多樣性生成的建模能力,在多樣性更強、難度更大的開放領域文字到影象生成上取得了亮眼的效果。

百度文心 ERNIE-ViLG 模型則進一步提出統一的跨模態雙向生成模型,透過自迴歸生成模式對影象生成和文字生成任務進行統一建模,更好地捕捉模態間的語義對齊關係,從而同時提升圖文雙向生成任務的效果。文心 ERNIE-ViLG 在文字生成影象的權威公開資料集 MS-COCO 上,圖片質量評估指標 FID(Fréchet Inception Distance)遠超 OpenAI 的 DALL-E 等同類模型,並重新整理了影象描述多項任務的最好效果。此外,文心 ERNIE-ViLG 還憑藉強大的跨模態理解能力,在生成式視覺問答任務上也取得了領先成績。

文心 ERNIE-ViLG 技術原理解讀:圖文雙向生成統一建模

百度文心 ERNIE-ViLG 使用編碼器 - 解碼器引數共享的 Transformer 作為自迴歸生成的主幹網路,同時學習文字生成影象、影象生成文字生成兩個任務。

基於影象向量量化技術,文心 ERNIE-ViLG 把影象表示成離散的序列,從而將文字和影象進行統一的序列自迴歸生成建模。在文字生成影象時, 文心 ERNIE-ViLG 模型的輸入是文字 token 序列,輸出是影象 token 序列;影象生成文字時則根據輸入的影象序列預測文字內容。兩個方向的生成任務使用同一個 Transformer 模型。視覺和語言兩個模態在相同模型引數下進行相同模式的生成,能夠促進模型建立更好的跨模態語義對齊。

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

文心 ERNIE-ViLG 圖文雙向生成統一建模框架

已有基於影象離散表示的文字生成影象模型主要採用兩階段訓練,文字生成視覺序列和根據視覺序列重建影象兩個階段獨立訓練,文心 ERNIE-ViLG 提出了端到端的訓練方法,將序列生成過程中 Transformer 模型輸出的隱層影象表示連線到重建模型中進行影象還原,為重建模型提供語義更豐富的特徵;對於生成模型,可以同時接收自身的抽象監督訊號和來自重建模型的原始監督訊號,有助於更好地學習影象表示。

文心 ERNIE-ViLG 構建了包含 1.45 億高質量中文文字 - 影象對的大規模跨模態對齊資料集,並基於百度飛槳深度學習平臺在該資料集上訓練了百億引數模型,在文字生成影象、影象描述等跨模態生成任務上評估了該模型的效果。

文字生成影象(Text-to-image Synthesis)任務效果

文心 ERNIE-ViLG 文字生成影象的能力在開放領域公開資料集 MS-COCO 上進行了驗證。評估指標使用 FID(該指標數值越低效果越好), 在 zero-shot 和 finetune 兩種方式下,文心 ERNIE-ViLG 都取得了最佳成績,效果遠超 OpenAI 釋出的 DALL-E 等模型。

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

文心 ERNIE-ViLG 在 MS-COCO 資料集上的效果

影象描述(Image Captioning)任務效果

影象生成文字能力上,文心 ERNIE-ViLG 在 COCO-CN、AIC-ICC 兩個公開中文圖片標題生成資料集上, 都取得了最好成績。

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

文心 ERNIE-ViLG 在 AIC-ICC 資料集上的效果

生成式視覺問答(Generative VQA)任務效果

在生成式視覺問答方面,文心 ERNIE-ViLG 也展示了不俗的實力。生成式視覺問答要求模型根據影象內容和對應的問題生成答案,模型需要具備深度的視覺內容理解能力和跨模態的語義對齊能力,並需要生成簡短的答案文字,難度極高。文心 ERNIE-ViLG 在 FMIQA 資料集上取得了最好的效果,圖靈測試的透過率達到了 78.5%,優於當前最好方法 14 個百分點。

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

文心 ERNIE-ViLG 在 FMIQA 資料集上的效果

結語

讓機器具備跨模態生成能力是人工智慧的重要目標之一。在藝術創作、虛擬現實、影象編輯、AI 輔助設計、虛擬數字人等領域,文心 ERNIE-ViLG 這類跨模態大模型有著廣泛的應用前景,也為這些領域未來的發展提供了無限的創意和可能。作為百度 “文心” 大模型全景圖中的重要一員,文心 ERNIE-ViLG 也代表著百度文心在跨模態大模型領域邁出堅實步伐,從技術自主創新和加速產業應用方面持續推動中國 AI 發展。

分類: 體育
時間: 2022-01-06

相關文章

一個微信群一張軍訓照,美澳相繼對中國公民出手?汪文斌鮮明發聲

一個微信群一張軍訓照,美澳相繼對中國公民出手?汪文斌鮮明發聲
據<環球時報>報道,澳大利亞廣播公司ABC日前以<中國學者指責澳大利亞政府對取消簽證不透明>為題報道稱,中國華東師範大學澳大利亞研究中心主任陳弘被澳政府以"對澳國家安 ...

中國科學院微生物研究所杜文斌團隊在微流控液滴超高通量皮升注射技術方面取得新進展
每經AI快訊,近日,國際分析化學領域著名期刊<AnalyticalChemistry>線上發表了中國科學院微生物研究所杜文斌團隊的最新研究成果"可控且無交叉汙染的微流控階梯式注射 ...

王毅外長訪韓前兩天,美邀請韓加入五眼聯盟,文在寅回應不出所料

王毅外長訪韓前兩天,美邀請韓加入五眼聯盟,文在寅回應不出所料
前不久,外交部發言人汪文斌在舉行例行記者會的時候宣佈,應多國邀請,我國務委員兼外交部長王毅於9月10日至15日,對越南.柬埔寨.新加坡.韓國進行訪問.15日當天,正在韓國訪問的王毅外長同韓外長鄭義溶會 ...

德國駐華大使突然去世,國際社會捕風捉影,德外交部:與中國無關

德國駐華大使突然去世,國際社會捕風捉影,德外交部:與中國無關
據環球網報道,德國外交部在當地時間9月6日凌晨釋出訊息稱,德國駐華大使賀巖去世.德國外交部網站發文悼念,並表示:"獲悉德國駐華大使突然離世,我們深感悲痛和震驚.在這一時刻,我們心繫他的家人和 ...

塔利班高層都是美國特工?

塔利班高層都是美國特工?
在塔利班控制阿富汗政府正式入駐喀布林之後,就像在真相外圍佈下了重重疑雲,各國政府和國際關係研究者都是霧裡看花,對這些問題各自展開了深入的研究.例如塔利班是怎麼輕鬆攻入喀布林的,美國為什麼掌控了喀布林的 ...

加拿大“缺席”AUKUS,大選對手以“不夠反華”圍剿特魯多:他不被盟友重視

加拿大“缺席”AUKUS,大選對手以“不夠反華”圍剿特魯多:他不被盟友重視
大選在即,特魯多面臨著政治對手的"圍剿".而在加拿大被美國領導的軍事聯盟排除在外後,"不夠反華"也成了其競選對手的批評說辭. (特魯多資料圖) 澳大利亞.英國和 ...

共計簽署380項協議 價值超過3.6萬億盧布,俄東方經濟論壇成果斐然

共計簽署380項協議 價值超過3.6萬億盧布,俄東方經濟論壇成果斐然
來源:環球時報 [環球時報綜合報道]第六屆東方經濟論壇日前在俄羅斯符拉迪沃斯託克舉行,主題為"世界變局背景下的遠東新機遇".俄羅斯總統普京在論壇全體會議上說,各國對俄遠東地區發展表 ...

日教科書刪改“從軍慰安婦”“強徵”表述,日市民團體怒批:日政府利用強權干涉歷史

日教科書刪改“從軍慰安婦”“強徵”表述,日市民團體怒批:日政府利用強權干涉歷史
來源:環球網 [環球網報道記者 林澤宇]圍繞日本教科書刪除或修改"從軍慰安婦"與"強徵"表述一事,日本有關市民團體17日召開記者會,痛斥這件事情中"日 ...

新冠溯源塵埃落定?中方24小時2次發聲,譚德塞這回徹底捂不住了

新冠溯源塵埃落定?中方24小時2次發聲,譚德塞這回徹底捂不住了
新冠疫情發展到目前,也有兩年了,再回首去看那些在疫情最嚴重的時候的圖片和人物事蹟,我們還是會很有感觸.然而,疫情並沒有徹底結束,反反覆覆的疫情讓我們的生活,與口罩等防護用品聯絡得更加緊密.我們也在疫情 ...

歐美聯合抵制北京冬奧會,普京仗義挺身而出,將準時出席參加

歐美聯合抵制北京冬奧會,普京仗義挺身而出,將準時出席參加
當前,中國正在緊鑼密鼓地籌辦於明年2月份舉辦的北京冬奧會,各項準備工作正在順利開展中,然而在中國即將舉辦這一體育賽事時,有歐美國家卻發出了許多不友好的聲音.部分歐美政客公開表示,因考慮到中國所謂的&q ...

一週外交觀察:“像親戚一樣常來常往,像鄰里一樣有商有量”,王毅出訪周邊四國有何深意?

一週外交觀察:“像親戚一樣常來常往,像鄰里一樣有商有量”,王毅出訪周邊四國有何深意?
9月10日起,外長王毅正式訪問越南.柬埔寨.新加坡.韓國四國.16日,在塔吉克杜尚別,王毅密集與亞洲多國政要會見,同時,中俄巴伊四國外長在上合組織和集安組織峰會期間舉行會晤,討論阿富汗局勢. 這是王毅 ...

莫里森後悔莫及,又一在華市場被美擠走,美國用的這招太高明

莫里森後悔莫及,又一在華市場被美擠走,美國用的這招太高明
自新中國成立以來不論是對內的人民優先政策亦或是對外的共同發展戰略,以及在世界局勢上的和平發展策略,總體來說都是溫和的.親人的.尤其在"一帶一路"的總體大綱下,各個與中國達成協議的國 ...

運-20接南海島礁老兵回家!首次公開上島,還是低可視塗裝版本

運-20接南海島礁老兵回家!首次公開上島,還是低可視塗裝版本
圖片說明:運-20接南海島礁老兵回家 南海艦隊圖 東方網·演兵場9月18日報道:據"南海艦隊"官方微訊號訊息,9月16日,空軍新型運輸機分別從永暑礁.渚碧礁.美濟礁機場搭載著南沙守 ...

美英德亂給中國扣帽子,基本誠意都沒有,中國不會答應他們的請求

美英德亂給中國扣帽子,基本誠意都沒有,中國不會答應他們的請求
據中國生態環境部門官方訊息,應中方邀請,美英兩國氣候方面的高階官員於 9 月初一前一後應邀訪華.而此次訪華主要議題就是商討<聯合國氣候變化框架公約>第26次締約方大會的相關內容和意見等. ...

美日澳印聯合演習,出動航母是要假戲真做?俄軍在日本海同時軍演

美日澳印聯合演習,出動航母是要假戲真做?俄軍在日本海同時軍演
近日,美日印澳四個四方安全對話機制(Quad)成員國,於8月26日到29日四天時間,在菲律賓海舉行四國聯合海上軍演,又於10月12日在孟加拉灣執行第二次海上聯合軍演.而俄羅斯則派遣了兩艘軍艦,前往日本 ...

頸椎問題,微創幫您解除困擾!
頸椎病是一類由於頸椎間盤退變等引起的常見疾病,表現為頸肩疼痛.上肢麻木和放射痛.步態不穩和踩棉感等,且有"年輕化"的趨勢,給很多人的工作和生活帶來了嚴重困擾.頸椎病是一類疾病的統稱 ...

全球唯一零感染新冠的朝鮮,卻被取消參賽資格,無緣北京冬奧會?

全球唯一零感染新冠的朝鮮,卻被取消參賽資格,無緣北京冬奧會?
據<環球時報>報道,國際奧委會公佈的一則訊息,因為之前朝鮮單方面做出決定,打算不參加2020年的東京奧運會,奧委會也做出了相應的判決,表示會對對方的參賽資格進行限制,這個限制一直維持到20 ...

1948年,吳化文在濟南戰役中起義,手下2萬多人去了哪裡?

1948年,吳化文在濟南戰役中起義,手下2萬多人去了哪裡?
"知己知彼,百戰不殆",戰爭中不僅要對自己的優勢瞭如指掌,更要知曉對方的優缺點,1948年9月19日,吳化文率領兩萬餘人在濟南戰役中起義. 吳化文將控制的飛機場完完整整地交給瞭解放 ...

沈從文為追求張兆和,4年寫500多封情書,為何婚後一年就出軌?

沈從文為追求張兆和,4年寫500多封情書,為何婚後一年就出軌?
溫柔又多情的文人沈從文依靠著情書追求到了他年輕時代的白月光,在他的眼中,愛情是風花雪月,是琴瑟和鳴,是妻子溫婉美麗也是伴侶的靈魂契合.然而在熱烈的愛情也抵不過生活的磨難. 當現實的打擊讓妻子張兆和的美 ...

民國第一狂人劉文典,蔣介石打他兩耳光,他一腳踢在老蔣的肚子上

民國第一狂人劉文典,蔣介石打他兩耳光,他一腳踢在老蔣的肚子上
"劉文典,你看看自己像個什麼東西?"身為國民黨的最高領袖,蔣介石如今卻是再也顧不上什麼領袖風範,指著安徽大學的校長劉文典大罵起來.面對眼前手握重兵的中國最大軍閥,劉文典不甘示弱與之 ...