猶記得兩年前,英偉達首次推出了旗下全新的互動應用GauGAN,能夠透過人工智慧技術把小學生水平的簡筆畫瞬間轉換成絕美風景圖。
比如用幾堆色塊,一條豎槓就能生成疑是銀河落九天的美景。隨手畫個圈,就能實時生成一汪水潭,倒映出綠樹和天空四時不同的顏色。
一時間,GauGAN名聲大噪,大家都對這種神奇的技術嘖嘖稱奇,稱GauGAN為當代“神筆馬良”之筆,感嘆著只有小學生繪畫水平的自己終於也可以做藝術家了。
就在幾天前,英偉達宣佈更新GauGAN的2.0版本,在此前塗鴉畫的基礎上,增加了文字識別功能。簡單來說,就是現在你連畫都不用畫了,直接把你腦海中想象的畫面用文字輸入,系統就能為你立馬生成影象,幫把你模糊的設想變成現實。
矽星人一聽,立馬就來了興趣。這牛啊,這不意味著人工智慧學會了讀心術,讓你腦子裡的奇思妙想一秒變成藝術大作嗎?於是,趁著感恩節假期,矽星人決定親自上手這個“神奇畫布”,看看究竟能跟AI合作出什麼作品出來。
經過2個小時的倒騰之後,此次矽星人體驗的心路歷程可以用“哇!-咦?-呃……-哦”來形容。那麼,究竟是怎麼回事呢?
只需一句話,還你一幅大作
GauGAN是一款比較類似於Photoshop的圖片類軟體。它的特點是基於生成對抗網路 (GAN)技術而開發,能夠根據使用者需求自動生成個性化的高質量圖片。
英偉達開發GauGAN的目的,是想為未來的設計師、遊戲開發者等各型別群體提供建立虛擬世界的強大工具,讓人們能很快地將自己的靈感轉化為原型並能便捷的修改它。此前,GauGAN 1.0 實現了讓簡筆塗鴉秒變大片,而這次GauGAN 2.0則能讓文字一秒變大片。
那麼,此次的GauGAN 2.0的文字轉化功能有多強大呢?舉個例子,當你輸入“海浪打在岩石上”這句話時,畫布上的圖片會隨著你輸入的文字而實時變動,先出現平靜的海,再出現岩石,最後精準呈現海浪拍岩石的畫面。
當你輸入“Sunshine in a tall tree forest”,系統會根據你逐漸細化的形容來實時更改圖片,最後呈現一幅陽光透過森林的圖片。
當然,除了透過文字生成之外,GauGAN 2.0同樣也支援1.0版本的使用塗鴉、和匯入圖片生成的方式,而且還支援幾種方式的混合使用。
在透過文字生成了圖片之後,你可以進一步使用塗鴉功能對細節進行調整。比如你先用文字生成了一張沙漠裡的太陽的圖片,你想將其衍生呈現出《星球大戰》裡沙漠裡升起兩個太陽的場景,那麼,你只需要在已生成圖片的基礎上再畫一個小圓圈,圖片裡就會升起兩個太陽。
再比如,你先匯入一張海邊風景的圖片,然後使用快速擦除的功能擦去不想要的部分。接著,你再輸入文字“極光”,AI就會自動給你加上特效,一張由你創作的極光大片就此產生。
英偉達表示,GauGAN 2.0背後的AI模型使用了NVIDIA Selene 超級計算機對超過1000萬張高質量風景影象進行了訓練,從而讓AI理解單詞以及單詞之間的聯絡,並進一步將自然語言描述成風景影象。
同時GauGAN還是是多模式軟體,也就是說,即便是你和別人輸入了同樣的塗鴉或文字,軟體中內建的隨機數也能確保你們最終的生成的作品是不同的。因此,每個人所產出的圖片都是獨一無二的。
GauGAN 2 “魔法”之初體驗
雖然英偉達把GauGAN 2的能力宣傳得如此神奇,但本著對科學負責任的態度,矽星人還是決定要親自上手“驗驗貨”。
此次英偉達免費為大眾開放了一個GauGAN 2的體驗平臺。整個平臺的構成很簡單:左邊是繪畫區,右邊是圖片生成區,上方是文字輸入欄和繪畫工具欄。開啟該平臺後,會有一個簡單的使用指南,教你如何使用文字和繪畫工具生成和修飾圖片。
一開始,矽星人的體驗還是非常順利的,一度為AI創作出來的效果而驚歎。
矽星人首先嚐試使用了簡筆塗鴉轉換圖片的功能。目前GauGAN系統內提供了建築、土地、景觀和植物四大類別的塗鴉選擇,每個大類下設定了一些子類。
矽星人以先“海山礁石”為主題來做了一幅畫,分別選擇了“海”、“石頭”的選項,然後在畫布上塗鴉畫了一通。
點選生成後,左側就立馬出現了一幅跟畫布上格局一樣的風景畫,同時還生成了落日、星空等不同種類的天空背景選項。接著,矽星人在天上畫了一塊雲,在海上畫了一顆樹。左側就立馬生成了令人驚歎的雲彩效果和一顆棕櫚樹。
接著,矽星人嘗試在文字區域分別嘗試輸入了Rainy的天氣描述,令人驚喜的是,整個畫面也會瞬間變成陰雨天。
在體驗了塗鴉功能後,矽星人也單獨嘗試了此次重點更新的文字輸入功能。
在輸入“Endless tall mountains in a sunny day(晴天下連綿的高山)”之後,左側立刻就生成了符合文字描述的景象。
自此,矽星人的整個體驗都處於“哇”的狀態。但就在矽星人準備將GauGAN稱之為魔法之時,隨著更多的嘗試,畫風開始逐漸走偏。
AI也有翻車的時候
在按照英偉達給出的範例、測試了最簡單的轉換之後,矽星人嘗試按照自己的想法,輸入比描述性短句更加複雜的文字。而這時,返回的作品就開始凌亂了。
當矽星人在文字框輸入“一座坐落在寧靜湖邊的房子(A house near the peaceful lake)”時,系統並沒有返回正常的湖泊或者房子的影象,而是呈現了一些非常抽象的圖。
這是啥?黑暗城堡、長在天上的樹,還是雲端的戰艦?怎麼看都跟湖邊小屋沒啥關係。
此外,矽星人還發現,目前GauGAN 2的文字識別好像是隻侷限在建築、土地、景觀和植物這四大類之中。比如,當我們輸入“一頓感恩節火雞大餐(A Thanksgiving turkey dinner)”時,系統返回的影象彷彿是什麼外星來物,跟火雞、甚至晚餐根本都不沾邊。
輸入單詞“沙發(Sofa)”時,返回來的圖是這樣的。如果有人看懂了這跟沙發之間的關係,麻煩留言解釋一下。
輸入單詞“聖誕樹(Chritmas tree)”時,返回的圖片是這樣的。感覺不像是聖誕樹,倒有點中國春節燈會的感覺。
而除了文字轉換,塗鴉模式也在接下來的體驗中屢屢翻車。比如矽星人想畫一個“小河邊一座房子,房旁立著一顆樹”的情景,在使用各種類別的畫筆在畫不上畫出佈局之後,生成的影象裡就沒有小河,畫風也非常詭異,完全跟想要呈現的寧靜畫面大相徑庭。
想畫“兩山之間一座橋”的情景,返回的畫風也是十分灰暗。雖然矽星人也承認自己是靈魂畫手,但也沒有必要這麼“靈魂”吧?
而在多次嘗試和摸索後,矽星人終於總結出了一個用GauGAN 2返回正常畫作的規律。
首先,在文字生成部分,輸入的文字最好都跟自然景觀相關,且形容詞越簡單越好,像大海、湖泊、山、岩石、樹這些關鍵詞都能比較準確返回結果。在塗鴉部分,儘量不要給畫布留白,比如在畫河流或湖泊時,周邊也要畫上土地或者草地,在塗鴉時也要儘量精細,這樣系統會更容易理解你想要的感覺。
這背後的原因則是因為目前用於訓練GauGAN 2的影象大部分都是風景類的,導致模型結果存在偏差。此前,英偉達也公開表示,GauGAN 2模型有超過 1 億的引數,但目前訓練時間還處於初始階段。訓練影象幾乎都來自專有的風景影象資料集,因此係統識別目前也只專注於風景。
雖然GauGAN 2仍然還在Demo階段,自己的作品也都大部分翻車了。但矽星人也發現很多大神已經使用GauGAN 2創作出了很多有趣的作品。
https://www.nvidia.com/en-us/research/ai-demos/
期待看到你們的大作!