此前,青亭網曾報道過一款用語音創作3D動畫,加速3D和VR敘事內容創作的外掛Anything World。該外掛的概念足夠簡單,即透過AI演算法實時識別語音指令,並生成對應的3D動畫,比如動物、汽車等等。應用於VR遊戲中,這樣的技術可以為低門檻的沙盒體驗帶來可能。
實際上,隨著AR/VR技術發展,對於3D內容創作的需求也越來越大,而低門檻、簡易的3D創作工具,將有望吸引更多普通使用者來創作3D內容,形成UGC生態。為了進一步探索自然語言生成3D圖形的技術,谷歌科研人員研發了一款基於NeRF 3D場景技術,以及OpenAI文字生成模型DALL·E、CLIP的3D生成系統:Dream Fields。
據青亭網瞭解,Dream Fields的特點是無需照片樣本就能生成3D影象,透過自然語言描述就可以合成全新的3D視角,還可以生成多種物品組合成的複合結構。谷歌科研人員稱,Dream Fields效果媲美3D數字背景,或是ArtStation平臺的內容。
結合OpenAI技術
在這項研究中,科研人員利用神經輻射場(NeRF)引數來代表3D圖形,而神經輻射場的特點則是可分別渲染場景,場景中包含具有色彩和密度引數的多層感知器。
通常,透過NeRF方案生成3D場景需要多張3D照片,比如一組3D架子鼓可能合成了100張照片,來實現360°視覺重建。相比之下,Dream Fields不需要用照片來生成3D模型,而且可以生成全新的3D內容。實際上,Dream Fields演算法在深度神經網路指導下,可以根據使用者對3D物件的文字描述,以及一些簡單的調整,即可顯示幾何結構和顏色資訊。此外,還可以生成3D圖形的全新視角,視覺效果足夠連貫。
今年初,OpenAI釋出了兩大基於自然語言處理的影象生成模型DALL·E和CLIP,前者可透過文字生成影象(也就是可以讀取文字來畫畫),而後者則可透過文字來分類圖片。
據悉,DALL·E和CLIP也被看作是多模態影象版GPT-3(生成型預訓練變換模型),這兩種模型的AI演算法使用影象與影象描述訓練而成,因此可以評估文字描述是否與影象內容恰當匹配。而這的區別在於,OpenAI可透過CLIP來分類DALL·E生成的影象,提升影象生成的準確性。一些科研人員將也CLIP與VQGAN、BigGAN、StylGAN等生成模型結合,來實現根據文字描述生成影象的效果。
相比之下,谷歌的Dream Fields利用AI識別文字並生成3D影象,結合了CLIP和NeRF技術,可透過神經網路來儲存3D模型。細節方面,Dream Fields的CLIP視覺轉換架構是透過成對的2D照片和文字說明來訓練的,未使用額外的多視角資料或3D模型。為了提升3D影象的視覺質量,Dream Fields還為其生成隨機背景,並提升渲染影象的透光性。
在訓練Dream Fields演算法時,將需要多角度2D照片,完成訓練後便可生成3D模型、合成新視角。而CLIP的作用,依然是評估文字生成影象的準確性。文字輸入至Dream Fields後,未訓練的NeRF模型會從單個視角生成隨機檢視,然後透過CLIP來評估生成影象的準確性。也就是說,CLIP可以用來糾正和訓練NeRF模型生成影象。這個過程將從不同的視角重複2萬次,直到生成符合文字描述的3D模型。
除了3D圖形外,Dream Fields還生成深度圖,效果看起來可信度高。Dream Fields的文字生成3D圖形演算法使用多樣化的網路資料訓練,因此可以識別和生成多種型別的物體。甚至可以合成物體,比如將扶手椅、茶壺以不同的風格和材質結合,或是生成大腦、珊瑚和木芙蓉的集合體等等。
3D領域的DALL·E方案
為了提升3D影象生成的效果,Dream Fields僅生成3D模型本身,而背景則採用隨機合成影象。目前,Dream Fields可合成的物體包括船、花瓶、公共汽車、食物、傢俱等等。或是將牛油果和椅子合成,用大蒜扮演且,用皮卡丘做成牛油果椅子、茶壺等有趣的3D效果。
科研人員表示:透過Dream Fields,我們希望加速藝術內容和多媒體應用開發。
谷歌表示:由於缺少多樣化、帶文字描述的3D資料,此前方案能生成的3D內容類別有限。相比之下,Dream Fields透過預先訓練的影象文字模型來生成3D影象,訓練採用的資料來自於網路。
隨著3D渲染技術發展,越來越多的媒體內容開始採用3D形式。在遊戲、VR應用、電影中,開發者們需要手動創作數千個3D模型,耗費大量時間和精力,成本相當高。
此前,開發者利用3D資料來合成點雲、立體畫素網格、三角形網格,以及基於GAN模型的隱函式。不過,由於有標記的3D形狀資料有限,所以3D資料僅能合成少數的物體型別。相比之下,Dream Fields不需要額外的3D訓練資料,使用自然語言和簡潔的創作介面即可合成3D圖形。
同時,Dream Fields還證明了語言的合成/組成特性可提升3D創作的靈活性,更容易選擇形狀、色彩和風格。除了自然語言識別外,Dream Fields還採用NeRF 3D技術來合成新視角,重建3D立體影象。經過NeRF平滑插幀效果,3D圖形具有足夠高的空間解析度,效果比立體畫素、點雲更好。此外,還比網格等明確的3D幾何結構更容易最佳化,不受拓撲結構限制。參考:Google