(映維網 2021年12月21日)在名為《Mixture of Volumetric Primitives for Efficient Neural Rendering》的論文中,Meta為體三維3D內容提出了一種MVP動態渲染技術,其結合了體元和基於體元的方法的優點,可實現高效能解碼和高效渲染。日前,Meta旗下Reality Labs的研究科學家史蒂芬·隆巴迪(Stephen Lombardi)接受了SIGGRAPH的專訪,並進一步介紹了相關研究。
延伸閱讀:Facebook為體三維3D內容提出MVP動態渲染,實現高效能解碼和高效渲染
在神經體三維方面,團隊提出了一種僅在給定多檢視影象資料的情況下根據新檢視實時重建和渲染運動物件的方法。這是一個非常令人興奮的研究領域,因為它將在虛擬現實和增強現實中實現引人注目的互動式內容。
神經體三維背後的主要思想是,用體三維表示法對場景進行建模。體三維表示法包括空間中每個點的RGB顏色和不透明度值。在那篇論文中,團隊探索了一種基於體素的體三維表示法。基於體素的方法有一系列的優點。首先,可以使用3D卷積實時生成體素網格,從而為動態場景建模。其次,可以使用三線性插值快速取樣體三維的顏色和不透明度值。所述優點使得‘Neural Volumes’模型能夠實時呈現。然而,‘Neural Volumes’在場景的三維範圍內均勻分佈體素,這使得難以對高解析度物件建模。
為了解決這個問題,團隊提出了‘Mixture of Volumetric Primitives(MVP)’。不是使用一個大型三維體素網格對場景建模,而是使用一組更小的移動體素網格對場景建模。透過允許模型更好地控制場景不同部分的體素密度,並使用原語的運動對場景的運動進行建模,MVP能夠以比‘Neural Volumes’更高的解析度和更快的幀速率對動態場景進行建模。
建立移動體三維原語的集合涉及兩個主要部分:原語的初始化和從多檢視影片資料訓練系統的學習框架。
對於初始化,使用了經典的人臉建模技術(例如關鍵點檢測、三維重建、混合形狀追蹤)生成人臉的動態三角形網格。要初始化原語,只需將它們放置在三角形網格的表面之上,均勻分佈在人臉網格的UV空間中。這種初始化對於獲得真正高質量的結果非常重要,因為在訓練期間,學習框架可能會陷入區域性最小值。透過將原語初始化為均勻分佈在人臉表面之上,可以確保使用所有原語,並且整個人臉模型解析度大致相似。
儘管初始化為眾多體三維原語(尤其是面部)提供了合適的初始位置,但對於其他區域(如頭髮和肩部),初始化通常是錯誤的。為了解決這個問題,訓練模型生成基本位置、方向和內容,以最佳匹配從多檢視捕獲系統捕獲的影象。這個訓練過程允許從任意角度製作出高質量的人物效果圖。
最大的挑戰是決定探索的研究方向。儘管可學習的體三維建模和渲染技術在過去幾年中變得非常流行,但在當時,我們還不知道這種方法會有多成功。即使是現在,我們仍在努力提升MVP的實時效能,使其能與更傳統的表示法相競爭,如三角形網格。但考慮到模型的複雜性,這非常困難。
實時如此重要的原因是,Meta該團隊的任務是在虛擬現實中創造逼真的虛擬化身,並最終在AR實現彷彿共在的感覺,允許你與對方能夠輕鬆地交流想法和情感,這不僅僅只是透過言語,同時要包括面部表情和身體姿勢。
可以想象,考慮到所有這一切,需要有大量的人員參與其中。除了開發演算法的研究團隊外,還有一個大型團隊負責管理捕獲系統硬體和軟體、管理資料捕獲過程、管理資料儲存和預處理(例如,開發和執行經典人臉追蹤演算法)的團隊。實際上,這篇論文是該團隊位於賓夕法尼亞州匹茲堡的實驗室多年努力工作的結果。