編輯:袁榭 拉燕
【新智元導讀】為了讓廣大視訊通話使用者體驗更佳,也讓更多AR、VR使用者青睞元宇宙,Meta的AI研發團隊最近開發了能更好處理虛擬背景的AI模型。
自新冠疫情開始以來,大部分人都已經習慣了在和朋友、同事和家人遠端視訊通話。影片聊天的時候都使用過虛擬背景。
使用者在影片時變換背景,能賦予其在虛擬影像中掌控身邊環境的權利,減少因環境帶來的分心,還能保護隱私,甚至還能讓使用者在影片裡看起來更有精氣神。
但有些時候虛擬背景呈現出來的效果可能和使用者需求的不一樣。大部分人都經歷過在移動的時候虛擬背景把人臉擋住了,或者是虛擬背景無法識別手和桌子之間的邊界。
最近,Meta利用強化的AI模型來分割影象,優化了背景模糊功能,虛擬背景功能和其它Meta產品服務的AR效果。這樣可以更好的分辨照片和影片中的不同部分。
來自Meta AI、現實實驗室和Meta其它部門的研究人員和工程師,組成了一個跨部門小組,最近開發了新的影象分割模型,已用在Portal、Messenger和Instagram等很多平臺的實時視訊通話和Spark AR的增強現實應用中。
該小組還優化了雙人影象分割模型,已經在Instagram和Messenger上應用了。
如何讓AI改進虛擬背景
該小組在推進影象分割的最佳化過程中,主要有以下三大挑戰:
1.要讓AI學會在不同的環境下也能正常識別。比如說環境偏暗、人物膚色不同、人物膚色接近背景色、人物不常見的體態(比方說彎腰繫鞋帶,或者伸懶腰)、人物被遮擋、人物在移動等等。
2.要讓邊緣的位置看起來更加的流暢、穩定、連貫。這些特徵在目前的研究中討論較少,但是使用者反饋研究表明,這些因素極大影響人們在使用各類背景效果時的體驗。
3.要確保模型能夠在全世界幾十億部智慧手機中都能靈活、高效的運作。只在一小部分最先進的手機中才能使用是不行的,這類手機往往搭載最新款的處理器。
而且,該模型必須能支援各種長寬比的手機,這樣才可以在膝上型電腦、Meta的行動式視訊通話裝置和人們的手機的肖像模式、橫向模式中都保證模型的正常使用。
用Meta的AI模型處理後的虛擬背景示例,左為頭身像,右為全身像。
真實世界個人影象分割模型的挑戰
影象分割的概念不難理解,但獲得高精確度的個人影象分割結果卻很困難。要有好結果的話,處理影象的模型必須一致性極高、延遲度極低。
不正確的分割影象輸出,會導致各種讓使用虛擬背景的視訊使用者走神的效果。更重要的是,影象分割錯誤會導致使用者的真實物理環境發生不必要的暴露。
因為這些,影象分割模型的精度必須達到交併比90%以上,才能進入實際的市場產品應用。交併比是衡量影象分割預測值與基底真實值重疊部分比值的常用標準度量。
由於使用場景與例項複雜度之海量,Meta的影象分割模型要達到的交併比,最後10%完成起來遠比之前的所有部分都更難。
Meta的軟體工程師們發現,當交併比已達到90%時,影象的可衡量指標趨於飽和,在時間一致性與空間穩定性上難有更好提升。
為了克服此障礙,Meta開發了一個基於影片的衡量系統,與其他幾個指標一起來解決這額外的難度。
為真實世界應用開發AI訓練與衡量策略
AI模型只能從已交付的資料集裡學習。所以想要訓練出高精度的影象分割模型,光是簡單錄入一大堆影片使用者在明亮室內正襟危坐的影片樣本是不行的。樣本型別得儘可能貼近真實世界地豐富。
Meta AI實驗室用了自家的ClusterFit模型,來從不同性別、膚色、年齡、身體姿勢、動作、複雜背景、多人數的海量樣本中提取可用資料。
靜態影象的度量值並不準確反映模型實時處理動態影片的質量,因為實時模型通常要有依賴時間資訊的追蹤模式。為了測量模型的實時質量,Meta AI實驗室設計了當模型預測出畫面時、計算每幀畫面的各指標的定量性影片評估架構。
與論文中的理想狀況不同,Meta的個人影象分割模型是被日常的海量使用者評判效能。如果有鋸齒、扭曲、或其他不滿意的效果出現,其他效能比基準值好出再多也沒用。
所以Meta AI實驗室直接詢問自家產品使用者對影象分割效果的評價。結果是邊緣不平滑和模糊對使用者體驗影響最大。
針對此需求,Meta AI實驗室在影片評估架構中,另添加了「邊緣交併比」這一新指標。當畫面的普通交併比超過90%、幾近飽和時,邊緣交併比就是更需注意的指標了。
而且,畫面時間一致性不夠,會帶來圖形邊緣的混雜效果,這也會影響使用者體驗。Meta AI實驗室用兩種方法來測量畫面的時間一致性。
首先,Meta研究人員假設時點緊鄰的兩幀畫面,影象基本一致。所以任何模型上的預測差異都代表最終畫面會有時間不一致。
其次,Meta研究人員從時點緊鄰的兩幀畫面的前景動作入手。前景裡的光流能讓模型從第N幀的預測值推進到第N+1幀。然後研究者就將此預測值與真實的N+1幀數值對照。
這兩種方法中測算出的差異度都以交併比這一度量來體現。
Meta AI實驗室使用了來自30種的100餘類人群的1100個影片樣本來輸入AI模型,分類包括所有人類表徵性別與菲茨帕特里克量表上的膚色色調。
分析結果是,Meta的AI模型在所有人群子分類的視像處理效果上都有差不多的顯著準確性,交併比與置信度都在95%以上,各分類間交併比差異基本都在0.5個百分點左右,效能優異可靠。
不同膚色與性別人群的影片,Meta的AI模型處理後的交併比資料
最佳化模型
架構
Meta研究人員使用FBNet V3作為最佳化模型的主幹。這是一種由多層混合形成的解編碼結構,每一層都有相同的空間解析度。
研究人員設計了一種配備輕量級解碼器加重量級編碼器的架構,這樣可以擁有比全對稱設計的架構更好的效能。生成的架構由神經架構搜尋支撐,並對裝置上執行的速度進行了高度最佳化。
語義分割模型架構。綠色的長方形代表卷積層,黑色的圓圈代表各層融合點。
資料學習
研究人員使用離線大容量的PointRend模型為未註釋的資料生成地一個偽標準實值標籤,以此來增加訓練的資料量。同樣地,研究者使用師-生半監督模型來消除偽標籤中的偏差。
長寬比相關的重新取樣
傳統的深度學習模型會將影象重新取樣成一個小正方形,輸入到神經網路裡。由於重新取樣,影象會出現畸變。並且由於每幀影象具有不同的長寬比,因此畸變的幅度也會不相同。
畸變的存在、畸變程度的不同,會導致神經網路AI學習到不穩健的低層次特徵。這種畸變引起的限制在影象分割應用中會被放大。
如此一來,如果大多數訓練影象都是肖像比例,那麼該模型在實景影象和影片上的表現要差得多。
為了解決這個問題,研究團隊採用了 Detectron 2 的長寬比相關的二次取樣方法,該方法將具有相似長寬比的影象分組,並將它們第二次取樣到相同的大小。
左為長寬比不調帶來畸變的基線影象,右為AI模型處理後的改進影象
自定義補邊框
長寬比相關的二次取樣法需要將具有相似長寬比的影象補邊框,但常用的零補框方法會產生偽影(artifact)。
更糟糕的是,當網路的深度不斷增加的時候,該偽影會擴散到其他區域。過去的辦法是,使用複用邊框的手段來移除這些偽影。
最新的一項研究中顯示,卷積層中的反射邊框可以透過最小化偽影傳播的方式來進一步提高模型的質量,但相對應地,時延成本也會增加。偽影的案例,和如何移除偽影的示例如下。
追蹤
時間不一致,會讓AI處理圖形時在幀到幀之間存在預測性差異,帶來閃爍(flicker),它的出現會極大損害使用者的體驗。
為了提高時間一致性,研究人員設計了一個名為「面具偵測」的檢測過程。它從當前幀影象(YUV)中獲取三個通道,並且還存在第四通道。
對於第一幀影象,第四通道只是一個空矩陣,而對於隨後的幀數,第四通道則是對上一幀的預測。
研究人員發現,這種利用第四通道跟蹤的策略顯著提高了時間一致性。同時,他們還採用了最先進的跟蹤模型中的一些想法,例如CRVOS和變換不變性CNN等建模策略,來獲得時間上較為穩定的分割模型。
「面具偵測」法流程圖
邊界交叉熵
構建平滑、清晰的邊界,對於AR影象分割的應用至關重要。除了在分割影象的時候會有的標準交叉熵損失之外,研究人員還必須考慮邊界加權損失。
研究人員發現,物件的內部是更容易被分割的,所以Unet模型與其之後大多數變體的作者都建議使用三元圖加權損失來提升模型的質量。
然而,三元圖加權損失有一個限制,就是三元圖只會根據標準實值來計算邊界區域,因此它對所有的誤判都不敏感,是一種非對稱的加權損失。
受「邊界交併比」的啟發,研究人員採用交併比的方法為標準實值和各種預測提取邊界區域,並在這些區域中建立交叉熵損失。在邊界交叉熵上訓練的模型,很明顯是優於基準的。
如此除了能使最終掩碼輸出中的邊界區域更清晰之外,應用新方法後,新模型的誤報率更低。
Meta虛擬背景處理器應用的新AI模型,其新功能效率更高、更穩定,也更多樣化。這些最佳化都會提高背景濾鏡的質量和連貫性,從而提高在產品中的應用效果。
舉例來說,最佳化過的分割模型可以被用來識別多人場景和人物的全身,也可以識別被沙發、書桌或餐桌遮擋的全身人像。
除去應用在視訊通話以外,透過虛擬環境和和現實世界中的人、物結合,這項技術還可以給AR和VR技術增添新的維度。在建設元宇宙、營造沉浸式體驗時,這項應用會尤其重要。
參考資料:https://ai.facebook.com/blog/creating-better-virtual-backdrops-for-video-calling-remote-presence-and-ar/