sponsored links

Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

編輯:袁榭 拉燕

【新智元導讀】為了讓廣大視訊通話使用者體驗更佳,也讓更多AR、VR使用者青睞元宇宙,Meta的AI研發團隊最近開發了能更好處理虛擬背景的AI模型。

自新冠疫情開始以來,大部分人都已經習慣了在和朋友、同事和家人遠端視訊通話。影片聊天的時候都使用過虛擬背景。

使用者在影片時變換背景,能賦予其在虛擬影像中掌控身邊環境的權利,減少因環境帶來的分心,還能保護隱私,甚至還能讓使用者在影片裡看起來更有精氣神。

Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

但有些時候虛擬背景呈現出來的效果可能和使用者需求的不一樣。大部分人都經歷過在移動的時候虛擬背景把人臉擋住了,或者是虛擬背景無法識別手和桌子之間的邊界。

最近,Meta利用強化的AI模型來分割影象,優化了背景模糊功能,虛擬背景功能和其它Meta產品服務的AR效果。這樣可以更好的分辨照片和影片中的不同部分。

來自Meta AI、現實實驗室和Meta其它部門的研究人員和工程師,組成了一個跨部門小組,最近開發了新的影象分割模型,已用在Portal、Messenger和Instagram等很多平臺的實時視訊通話和Spark AR的增強現實應用中。

該小組還優化了雙人影象分割模型,已經在Instagram和Messenger上應用了。

如何讓AI改進虛擬背景

該小組在推進影象分割的最佳化過程中,主要有以下三大挑戰:

1.要讓AI學會在不同的環境下也能正常識別。比如說環境偏暗、人物膚色不同、人物膚色接近背景色、人物不常見的體態(比方說彎腰繫鞋帶,或者伸懶腰)、人物被遮擋、人物在移動等等。

2.要讓邊緣的位置看起來更加的流暢、穩定、連貫。這些特徵在目前的研究中討論較少,但是使用者反饋研究表明,這些因素極大影響人們在使用各類背景效果時的體驗。

3.要確保模型能夠在全世界幾十億部智慧手機中都能靈活、高效的運作。只在一小部分最先進的手機中才能使用是不行的,這類手機往往搭載最新款的處理器。

而且,該模型必須能支援各種長寬比的手機,這樣才可以在膝上型電腦、Meta的行動式視訊通話裝置和人們的手機的肖像模式、橫向模式中都保證模型的正常使用。

Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

用Meta的AI模型處理後的虛擬背景示例,左為頭身像,右為全身像。

真實世界個人影象分割模型的挑戰

影象分割的概念不難理解,但獲得高精確度的個人影象分割結果卻很困難。要有好結果的話,處理影象的模型必須一致性極高、延遲度極低。

不正確的分割影象輸出,會導致各種讓使用虛擬背景的視訊使用者走神的效果。更重要的是,影象分割錯誤會導致使用者的真實物理環境發生不必要的暴露。

因為這些,影象分割模型的精度必須達到交併比90%以上,才能進入實際的市場產品應用。交併比是衡量影象分割預測值與基底真實值重疊部分比值的常用標準度量。

由於使用場景與例項複雜度之海量,Meta的影象分割模型要達到的交併比,最後10%完成起來遠比之前的所有部分都更難。

Meta的軟體工程師們發現,當交併比已達到90%時,影象的可衡量指標趨於飽和,在時間一致性與空間穩定性上難有更好提升。

為了克服此障礙,Meta開發了一個基於影片的衡量系統,與其他幾個指標一起來解決這額外的難度。

為真實世界應用開發AI訓練與衡量策略

AI模型只能從已交付的資料集裡學習。所以想要訓練出高精度的影象分割模型,光是簡單錄入一大堆影片使用者在明亮室內正襟危坐的影片樣本是不行的。樣本型別得儘可能貼近真實世界地豐富。

Meta AI實驗室用了自家的ClusterFit模型,來從不同性別、膚色、年齡、身體姿勢、動作、複雜背景、多人數的海量樣本中提取可用資料。

靜態影象的度量值並不準確反映模型實時處理動態影片的質量,因為實時模型通常要有依賴時間資訊的追蹤模式。為了測量模型的實時質量,Meta AI實驗室設計了當模型預測出畫面時、計算每幀畫面的各指標的定量性影片評估架構。

與論文中的理想狀況不同,Meta的個人影象分割模型是被日常的海量使用者評判效能。如果有鋸齒、扭曲、或其他不滿意的效果出現,其他效能比基準值好出再多也沒用。

所以Meta AI實驗室直接詢問自家產品使用者對影象分割效果的評價。結果是邊緣不平滑和模糊對使用者體驗影響最大。

針對此需求,Meta AI實驗室在影片評估架構中,另添加了「邊緣交併比」這一新指標。當畫面的普通交併比超過90%、幾近飽和時,邊緣交併比就是更需注意的指標了。

而且,畫面時間一致性不夠,會帶來圖形邊緣的混雜效果,這也會影響使用者體驗。Meta AI實驗室用兩種方法來測量畫面的時間一致性。

首先,Meta研究人員假設時點緊鄰的兩幀畫面,影象基本一致。所以任何模型上的預測差異都代表最終畫面會有時間不一致。

其次,Meta研究人員從時點緊鄰的兩幀畫面的前景動作入手。前景裡的光流能讓模型從第N幀的預測值推進到第N+1幀。然後研究者就將此預測值與真實的N+1幀數值對照。

這兩種方法中測算出的差異度都以交併比這一度量來體現。

Meta AI實驗室使用了來自30種的100餘類人群的1100個影片樣本來輸入AI模型,分類包括所有人類表徵性別與菲茨帕特里克量表上的膚色色調。

分析結果是,Meta的AI模型在所有人群子分類的視像處理效果上都有差不多的顯著準確性,交併比與置信度都在95%以上,各分類間交併比差異基本都在0.5個百分點左右,效能優異可靠。

Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

不同膚色與性別人群的影片,Meta的AI模型處理後的交併比資料

最佳化模型

架構

Meta研究人員使用FBNet V3作為最佳化模型的主幹。這是一種由多層混合形成的解編碼結構,每一層都有相同的空間解析度。

研究人員設計了一種配備輕量級解碼器加重量級編碼器的架構,這樣可以擁有比全對稱設計的架構更好的效能。生成的架構由神經架構搜尋支撐,並對裝置上執行的速度進行了高度最佳化。

Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

語義分割模型架構。綠色的長方形代表卷積層,黑色的圓圈代表各層融合點。

資料學習

研究人員使用離線大容量的PointRend模型為未註釋的資料生成地一個偽標準實值標籤,以此來增加訓練的資料量。同樣地,研究者使用師-生半監督模型來消除偽標籤中的偏差。

長寬比相關的重新取樣

傳統的深度學習模型會將影象重新取樣成一個小正方形,輸入到神經網路裡。由於重新取樣,影象會出現畸變。並且由於每幀影象具有不同的長寬比,因此畸變的幅度也會不相同。

畸變的存在、畸變程度的不同,會導致神經網路AI學習到不穩健的低層次特徵。這種畸變引起的限制在影象分割應用中會被放大。

如此一來,如果大多數訓練影象都是肖像比例,那麼該模型在實景影象和影片上的表現要差得多。

為了解決這個問題,研究團隊採用了 Detectron 2 的長寬比相關的二次取樣方法,該方法將具有相似長寬比的影象分組,並將它們第二次取樣到相同的大小。

Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

左為長寬比不調帶來畸變的基線影象,右為AI模型處理後的改進影象

自定義補邊框

長寬比相關的二次取樣法需要將具有相似長寬比的影象補邊框,但常用的零補框方法會產生偽影(artifact)。

更糟糕的是,當網路的深度不斷增加的時候,該偽影會擴散到其他區域。過去的辦法是,使用複用邊框的手段來移除這些偽影。

最新的一項研究中顯示,卷積層中的反射邊框可以透過最小化偽影傳播的方式來進一步提高模型的質量,但相對應地,時延成本也會增加。偽影的案例,和如何移除偽影的示例如下。

Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

追蹤

時間不一致,會讓AI處理圖形時在幀到幀之間存在預測性差異,帶來閃爍(flicker),它的出現會極大損害使用者的體驗。

為了提高時間一致性,研究人員設計了一個名為「面具偵測」的檢測過程。它從當前幀影象(YUV)中獲取三個通道,並且還存在第四通道。

對於第一幀影象,第四通道只是一個空矩陣,而對於隨後的幀數,第四通道則是對上一幀的預測。

研究人員發現,這種利用第四通道跟蹤的策略顯著提高了時間一致性。同時,他們還採用了最先進的跟蹤模型中的一些想法,例如CRVOS和變換不變性CNN等建模策略,來獲得時間上較為穩定的分割模型。

Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

「面具偵測」法流程圖

邊界交叉熵

構建平滑、清晰的邊界,對於AR影象分割的應用至關重要。除了在分割影象的時候會有的標準交叉熵損失之外,研究人員還必須考慮邊界加權損失。

研究人員發現,物件的內部是更容易被分割的,所以Unet模型與其之後大多數變體的作者都建議使用三元圖加權損失來提升模型的質量。

然而,三元圖加權損失有一個限制,就是三元圖只會根據標準實值來計算邊界區域,因此它對所有的誤判都不敏感,是一種非對稱的加權損失。

受「邊界交併比」的啟發,研究人員採用交併比的方法為標準實值和各種預測提取邊界區域,並在這些區域中建立交叉熵損失。在邊界交叉熵上訓練的模型,很明顯是優於基準的。

如此除了能使最終掩碼輸出中的邊界區域更清晰之外,應用新方法後,新模型的誤報率更低。

Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

Meta虛擬背景處理器應用的新AI模型,其新功能效率更高、更穩定,也更多樣化。這些最佳化都會提高背景濾鏡的質量和連貫性,從而提高在產品中的應用效果。

舉例來說,最佳化過的分割模型可以被用來識別多人場景和人物的全身,也可以識別被沙發、書桌或餐桌遮擋的全身人像。

除去應用在視訊通話以外,透過虛擬環境和和現實世界中的人、物結合,這項技術還可以給AR和VR技術增添新的維度。在建設元宇宙、營造沉浸式體驗時,這項應用會尤其重要。

參考資料:https://ai.facebook.com/blog/creating-better-virtual-backdrops-for-video-calling-remote-presence-and-ar/

分類: 娛樂
時間: 2022-02-15

相關文章

天生麗質的美人韓雪,無人敢惹

天生麗質的美人韓雪,無人敢惹
#韓雪##韓雪中秋晚會造型曝光###明星上頭條##明星時尚##明星美圖#

白崇禧敢逼老蔣下野,桂系底氣何在?全面解析三大戰役後桂軍實力

白崇禧敢逼老蔣下野,桂系底氣何在?全面解析三大戰役後桂軍實力
1948年12月30日,白崇禧在武漢發出第二封打著議和的幌子,實則逼迫老蔣下臺的電報"亥全電",電文中有八個字觸目驚心:"時間迫促,稍縱即逝".與此同時,在桂系 ...

東北四野麾下150萬大軍,實力全軍第一,為何部隊番號卻排名第四

東北四野麾下150萬大軍,實力全軍第一,為何部隊番號卻排名第四
1949年,隨著東北遼瀋.徐州淮海和華北平津三大戰役勝利後,全國各大解放戰區徹底扭轉劣勢,轉守為攻,解放軍百萬雄師,橫弋長江北岸,隨時準備渡江南下,與蔣介石反動集團展開最後的決戰,而此時,解放軍總兵力 ...

西藏羊卓雍措湖,魚多達8億公斤,魚群氾濫成災,為何無人敢吃?

西藏羊卓雍措湖,魚多達8億公斤,魚群氾濫成災,為何無人敢吃?
遠在西北的西藏地區,有一個叫做羊卓雍措的湖,不僅僅是風景優美而吸引大批遊客前來圍觀,還因為湖裡有將近8億多公斤的魚而出名,但是湖裡那麼多的魚卻是沒人敢捕撈來吃,如果這是放在我們南方的沿海地區,肯定恨不 ...

“趙四”劉小光,走到今天能怪誰呢?成於趙本山敗於自己

“趙四”劉小光,走到今天能怪誰呢?成於趙本山敗於自己
我不是一個"好人" 這是趙小光的原話! 說起<鄉村愛情>裡的"趙四"劉小光,可謂是家喻戶曉.他的口吃.抽風式步伐,讓人印象深刻. 觀眾喜歡他的幽默和 ...

寧吃三斤姜,莫惹奉文光
四川旺蒼的兩匯寺一帶,有這麼句俗話:"寧吃三斤姜,莫惹奉文光!"這話從何說起呢? 傳說在兩百多年前,這兒有個叫奉文光的人,自幼父母雙亡,跟著一位從峨眉山下來的遊方道人出了家.據說這 ...

《白眉大俠》中名不副實的四位劍客,說說出場即破格的武林高手

《白眉大俠》中名不副實的四位劍客,說說出場即破格的武林高手
在<白眉>系列的武俠評書中出現了不少巔峰級高手,單單是名震江湖的天榜高手就高達十四位之多,再加上在<龍虎風雲會>中新出場的世外高人,在武林中達到登峰造極境界的武林高手少說也有二 ...

黑土地出大美人,16位東北女明星,個個盤正條順,美得各有千秋

黑土地出大美人,16位東北女明星,個個盤正條順,美得各有千秋
一方水土養一方人,在娛樂圈裡,不同生長環境出來的明星,往往會有不同的性格特質. 東北人性格開朗,愛嘮嗑愛說笑,所以在娛樂圈自成一派,存在感特別高. 或許是因為冬天無處待,一年有許多時間只能在家裡嘮嗑, ...

1978年國家重點大學,東北石油大學,會搬遷至哈爾濱嗎?
1978年國家重點大學,東北石油大學,會搬遷至哈爾濱嗎? 不知道是不是巧合,21世紀以來,中國最有影響力的兩次大學搬遷,均是石油行業大學. 這是巧合嗎?也許不是巧合? 2002年,西南石油大學開始將校 ...

民間故事:借刀殺人

民間故事:借刀殺人
心胸狹窄的人,常常用憤怒和仇恨來填補理智的空白.借刀復仇的結果,只能使人心爆炸,煩惱永遠與他為伍! 當年,燕山以南,黃河以北,江湖上有三大門派:一是大名府萬勝鏢局的霍家,大當家霍敬水:二是永年城凌雲飛 ...

我在夢中的一千零一夜11
突然間,十幾輛小車和麵包車飛馳而來,車還沒停穩,幾十個穿著黑色西裝的人,提著一米多長蒙古刀,向這些乞丐衝了過來,這些人一句話不說,見人就砍! "快跑,快跑,-"三姐一邊叫丐幫的人逃 ...

聊齋故事:鬼壯士

聊齋故事:鬼壯士
沂水縣的褚何性本善,喜歡幫助別人,他家境富裕,家裡種著很多田地,是祖上留下來的,他僱了很多佃戶,幫他種地,而他不用幹活,過著悠哉悠哉的生活.每當秋收時,除了交公糧,他總是豪爽的幫助那些窮困人家,因此, ...

朝鮮戰爭金日成手下7個師長都是誰?5人出身抗聯2人出身八路軍

朝鮮戰爭金日成手下7個師長都是誰?5人出身抗聯2人出身八路軍
20世紀50年代朝鮮戰爭爆發,韓國仗著以美軍為主的聯合國軍的支援,有著先進的軍事裝備,對於這一場戰爭有著充分的信心,且信誓旦旦要佔領朝鮮半島. 然而,在中國人民志願軍的支援下,朝鮮成功把以美軍為首的聯 ...

林彪為何差點栽在四平?還損失近8000人?事後承認這三點是原因

林彪為何差點栽在四平?還損失近8000人?事後承認這三點是原因
"三大戰役佔據其二,功勞居首毫無疑問." 這是對開國元帥林彪功勞最關鍵的評價,作為解放戰爭中最具有代表性的三大戰役,林彪一人便指揮了其中的兩場,可謂是居功至偉. 對於林彪的作戰能力 ...

古惑仔陳小春到底有什麼魅力?能把半隻腳踏入豪門的女人娶回家

古惑仔陳小春到底有什麼魅力?能把半隻腳踏入豪門的女人娶回家
向太第一眼就喜歡上了應採兒,把她簽下了,讓她安心拍戲 可能是應採兒的性格非常爽朗,和同樣的向太非常合得來,所以在應採兒一出道,就把能給的所有資源都給了她 向太對於自己兒子的老婆人選非常的上心,向佐之前 ...

孕期睡覺有這些感受,其實不是胎兒在互動,而是一種求助暗號

孕期睡覺有這些感受,其實不是胎兒在互動,而是一種求助暗號
孕後,小薛變得嗜睡,五分鐘以前還在電話裡和閨蜜聊得口乾舌燥,五分鐘以後早已經進入美夢.一天好幾覺的睡法讓孕婦們的身材越來越底線,但不得不承認,她們越睡越精神,發起脾氣來,真是無人敢惹,無人能敵. 但, ...

2001年杜月笙女兒回國:只有我一個回家,他們都走了

2001年杜月笙女兒回國:只有我一個回家,他們都走了
紙醉金迷的舊上海,書寫的是一段歷史往事. 作為青幫"三大亨"之一的杜月笙,曾是這裡的"土皇帝",無論是什麼達官顯貴,只要來到這裡,都要給"三分薄面&q ...

德雲底線不容觸碰!郭德綱帶領眾弟子砸掛日本,主流再次失聲

德雲底線不容觸碰!郭德綱帶領眾弟子砸掛日本,主流再次失聲
郭德綱之前說過一句話?最輝煌的應該就是他那千字長文反擊宋祖德一事了,兩人的世紀罵戰,因為他那罵人不帶髒字的長文最後落下了帷幕,連在娛圈中一向敢說的宋祖德,都只能是暫避其鋒芒,直到現在郭德綱的那篇千字長 ...

周立波的結局,或許從他打瞎岳父眼睛的時候就已經寫好了

周立波的結局,或許從他打瞎岳父眼睛的時候就已經寫好了
要想讓其滅亡,必先讓其瘋狂! 周立波狂了整整10年,從2006年創辦海派清口之後,到2016年在海外被查出持有槍支與毒品,至此周立波才開始消沉. 回數週立波風光的那幾年,鳳凰衛視,上海東方衛視,浙江衛 ...

唐朝歷代帝王

唐朝歷代帝王
唐朝(618年----907年 ),是繼隋朝之後的大一統王朝,共二十一位皇帝,享國二百八十九年. 因皇室姓李,故又稱為李唐. 唐朝的開國皇帝唐高祖李淵簡介:唐高祖李淵(565年-635年6月25日), ...