位元組跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

機器之心專欄

位元組跳動視覺技術團隊

來自位元組跳動視覺技術團隊的研究者將 NeRF 和 Multiplane Image（MPI）結合，提出了一種新的三維空間表達方式 MINE。該方法透過對單張圖片做三維重建，實現新視角合成和深度估算。

位元組跳動視覺技術團隊結合 NeRF 和 Multiplane Image（MPI），提出了一種新的三維空間表達方式 MINE。MINE 透過對單張圖片做三維重建，實現新視角合成和深度估算。透過引入隱式神經場（NeRF），研究者將 Multiplane Images （MPI）擴充套件成連續的深度平面。給定單個圖片作為輸入，MINE 能在相機視錐中的任意深度，預測出一個四通道的影象，四通道包括 RGB 顏色和空間密度。這種任意深度的四通道預測，實際上是對輸入圖片的視錐的三維重建，以及對被遮擋內容的填充（inpainting）。我們可以利用被重建和填充的視錐方便地渲染出新視角下的 RGB 圖片和深度圖，並且渲染過程是可導的。

論文地址：https://arxiv.org/pdf/2103.14910.pdf
專案地址：https://github.com/vincentfung13/MINE

在 RealEstate10K，KITTI 和 Flowers Light Fields 資料集上的實驗表明，MINE 在新視角合成的效能上大幅超越了當前最前沿的方法。同時，在 iBims-1 和 NYU-v2 的實驗表明，團隊在沒有使用真值深度做監督訓練的情況下，獲得了和前沿方法接近的深度估計效能。

該研究的訓練程式碼與 pretrain model 已經開源。

相關工作

近年來，在新視角合成這個領域裡，最火爆的方法無疑是 ECCV 2020 的 NeRF [5]。與傳統的一些手工設計的顯式三維表達（Light Fields，LDI，MPI 等）不同，NeRF 把整個三維空間的幾何資訊與 texture 資訊全部用一個 MLP 的權重來表達，輸入任意一個空間座標以及觀察角度，MLP 會預測一個 RGB 值和 volume density。目標圖片的渲染透過 ray tracing 和 volume rendering 的方式來完成。儘管 NeRF 的效果非常驚豔，但它的缺點也非常明顯：

一個模型只能表達一個場景，且最佳化一個場景耗時久；
per-pixel 渲染較為低效；
泛化能力較差，一個場景需要較多的照片才能訓練好。

另外一個與該研究較相關的是 MPI（Multiplane Image）[1, 2, 3]。MPI 包含了多個平面的 RGB-alpha 圖片，其中每個平面表達場景在某個深度中的內容，它的主要缺點在於深度是固定及離散的，這個缺點限制了它對三維空間的表達能力。[1, 2, 3] 都能方便地泛化到不同的場景，然而 MPI 各個平面的深度是固定且離散的，這個缺點嚴重限制了它的效果。

方法綜述

該團隊採用一個 encoder-decoder 的結構來生成三維表達：

Encoder 是一個全卷積網路，輸入為單個 RGB 圖片，輸出為 feature maps；
Decoder 也是一個全卷積網路，輸入為 encoder 輸出的 feature map，以及任意深度值（repeat + concat），輸出該深度下的 RGB-sigma 圖片；
最終的三維表達由多個平面組成，也就是說在一次完整的 forward 中，encoder 需要 inference 一次，而 decoder 需要 inference N 次獲得個 N 平面。

獲得三維表達後，不再需要任何的網路 inference，渲染任意 target 相機 pose 下的視角只需要兩步：

利用 homography wrapping 建立畫素點間的 correspondence。可以想象，從 target 相機射出一條光線，這條光線與 target 圖片的一個畫素點相交，然後，研究者延長這條射線，讓它與 source 相機視錐的各個平面相交。相交點的 RGB-sigma 值可以透過 bilinear sampling 獲得；
利用 volume rendering 將光線上的點渲染到目標圖片畫素點上，獲得該畫素點的 RGB 值與深度。

Scale 校正

MINE 可以利用 structure-from-motion 計算的相機引數與點雲進行場景的學習，在這種情況下，深度是 ambiguous 的。由於在這個方法中，深度取樣的範圍是固定的。所以需要計算一個 scale factor，使網路預測的 scale 與 structure-from-motion 的 scale 進行對齊。團隊利用透過 Structure from Motion 獲得的每個圖片的可見 3D 點 P 以及網路預測的深度圖 Z 計算 scale factor：

獲得 scale factor 後，對相機的位移進行 scale：

需要注意的是，由於需要和 ground truth 比較，所以在訓練和測試時需要做 scale calibration。而在部署時不需要做這一步。

端到端的訓練

MINE 可以僅透過 RGB 圖片學習到場景的三維幾何資訊，訓練 Loss 主要由兩部分組成：

1.Reconsturction loss——計算渲染出的 target 圖片與 ground truth 的差異：

2.Edge-aware smoothness loss——確保在圖片顏色沒有突變的地方，深度也不會突變，這裡主要參考了 monodepth2 [6] 種的實現：

3.Sparse disparity loss——在訓練集各場景的 scale 不一樣時，利用 structure-from-motion 獲得的稀疏點雲輔助場景幾何資訊的學習：

實驗結果

新視角合成

在 KITTI 資料集上，可以看出，此方法在生成質量上大幅超越了當前的 SOTA——把 SSIM 從 0.733 提高到了 0.822。同時，可看出增加預測的平面數，生成圖片的質量也會提高，由於這並不會改變模型的引數量，所以可以看出，取樣平面的深度越稠密，就越利於場景表達的學習。在圖片視覺化上，MINE 生成的圖片形變和 artefacts 明顯更少。

單目深度估計

利用在 RealEstate10K 上訓練的模型，在 NYU 以及 iBims-1 資料集上測試了單目深度估計的結果。雖然只有 RGB 和 sparse 深度監督，但 MINE 在單目深度估計任務上取得了非常接近全監督的 3DKenBurns 的效能，並大幅超越了其他弱監督的方法。其中，和 MPI 相比，此方法更不受圖片 texture 的影響，在 texture 豐富的區域依然能生成平滑的深度圖。

MINE 與 MPI、NeRF 的比較

MINE 是 MPI 的一種連續深度的擴充套件，相比於 MPI 和 NeRF，MINE 有幾個明顯的優勢：

與 NeRF 相比，MINE 能夠泛化到訓練集沒有出現過的場景；
與 NeRF 的逐點渲染相比，MINE 的渲染非常高效；
與 MPI 相比，MINE 的深度是連續的，能稠密地表示相機的視錐；
MPI 透過 alpha 合成（alpha compositing）進行渲染，但該方法與射線上點之間的距離無關，而 MINE 利用 volume rendering 解決了這個限制。

然而，MINE 也有一些自身的侷限性：

由於輸入是單張圖片，MINE 無法表達相機視錐以外的三維空間；
由於 MINE 的輸入裡沒有觀察角度，所以其無法對一些複雜的 view-dependent 效果（如光碟上的彩虹等）進行建模。

參考文獻：

[1]. Tinghui Zhou, Richard Tucker, John Flynn, Graham Fyffe, Noah Snavely. Stereo Magnification: Learning View Synthesis using Multiplane Images. (SIGGRAPH 2018)

[2]. Ben Mildenhall, Pratul P. Srinivasan, Rodrigo Ortiz-Cayon, Nima Khademi Kalantari, Ravi Ramamoorthi, Ren Ng, Abhishek Kar. Local Light Field Fusion: Practical View Synthesis with Prescriptive Sampling Guidelines. (SIGGRAPH 2019)

[3]. Richard Tucker, Noah Snavely. Single-View View Synthesis with Multiplane Images. (CVPR 2020)

[4]. Meng-Li Shih, Shih-Yang Su, Johannes Kopf, Jia-Bin Huang. 3D Photography using Context-aware Layered Depth Inpainting. (CVPR 2020)

[5]. Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. (ECCV 2020)

[6]. Clement Godard, Oisin Mac Aodha, Michael Firman, Gabriel Brostow. Digging Into Self-Supervised Monocular Depth Estimation. (ICCV 2019)

分類： 科技

時間： 2021-10-08

位元組跳動做音樂，投入十億買版權，代號“白月光”
專案的重點和難點是尋找更多差異性,迴避直接競爭. 文 | 沈方偉編輯 | 高洪浩 <晚點 LatePost>瞭解到,位元組跳動目前正開發一款獨立音樂播放器,專案代號 "白月光( ...

這一領域，位元組跳動已悄悄投入10億
關於解除音樂獨家版權的風從2021年7月12日颳起,到了7月24,國家市場監管總局正式公佈,依法對騰訊控股有限公司作出責令解除網路音樂獨家版權等處罰. 總局的行政處罰決定主要包括:責令騰訊及關聯公司採 ...

位元組跳動推出悟空瀏覽器APP，號稱“一個能賺錢的瀏覽器”
位元組跳動推出悟空瀏覽器APP,號稱"一個能賺錢的瀏覽器",位元組跳動也是今日頭條和抖音運營的的母公司,今日宣佈推出手機瀏覽器平臺,名為悟空瀏覽器. 據宋九九瞭解到該APP注重下沉 ...

騰訊、阿里、位元組跳動網址遮蔽解封，使用者、平臺、商家友好體系
在具體介紹使用者.平臺以及商家三者關係進度的前提下,我們先了解一下騰訊.阿里以及位元組跳動等網路平臺大神之間為什麼會互相遮蔽網址,這對於使用者而言是一個非常不好的體驗,但是它們依舊做了,還做得非常徹底 ...

位元組跳動公開虛擬角色捏臉專利此前曾推出捏臉App
[CNMO新聞]據企查查APP顯示,北京位元組跳動網路技術有限公司9月17日公開了"一種虛擬角色捏臉的方法.裝置.電子裝置及儲存介質"專利,公佈號CN113409437A,申請日期 ...

位元組跳動公開虛擬角色捏臉專利，網易騰訊也有相關佈局
智慧芽全球專利資料庫顯示,9月17日,北京位元組跳動網路技術有限公司公開了一件發明專利"一種虛擬角色捏臉的方法.裝置.電子裝置及儲存介質"專利,公開號為CN113409437A,於 ...

百世快遞將被誰收購？極兔？位元組跳動？
9月23日訊息,據彭博社最新訊息,百世集團考慮出售快遞子公司,估值或至多達10億美元. 不過百世集團表示,對於市場傳言不予置評. <快遞觀察家>從百世快遞內部人士瞭解到,快遞業務的確在洽談 ...

位元組跳動西瓜影片
張一鳴你好: 關於位元組跳動西瓜影片,如果獨立發展的情況下,我個人認為應該走精品內容路線,原因西瓜影片和抖音內容嚴重重合,重合度可以說百分之80以上,精品內容儲備無法持續連結可以說跟不上或者幾乎沒有. ...

位元組跳動開源，超過2000個圖示的高質量圖示庫——IconPark
介紹 IconPark是位元組跳動團隊開源的一個開源圖示庫,一共提供超過2000個高質量的圖示,提供視覺化介面配置來實現不同的方案,非常適合開發者和設計師來使用! Github GitHub:http ...

美股異動 | 騰訊音樂(TME.US)盤初跌近5%，位元組跳動將於年內推出音樂流媒體產品
智通財經APP獲悉,9月20日(週一)美股盤初,騰訊音樂(TME.US)股價下跌,截止至21:45,跌4.76%,報7.495美元.市場訊息稱位元組跳動將於今年下半年在國內推出一款音樂流媒體產品,目前 ...

新鮮早科技丨傳位元組跳動將推出獨立電商APP；騰訊或將於本週宣佈合併搜狗；小冰推出首個人工智慧社交APP“小冰島”
21世紀經濟報道記者楊清清實習記者陳龍潼綜合報道早上好,新的一天又開始了.在過去24小時內,科技行業發生了哪些有意思的事情?來跟21tech一起看看吧. [巨頭風向標] 1.傳位元組跳動將推出獨 ...

位元組跳動資料中心支出超過騰訊，在中國僅次於阿里巴巴
Synergy Research Group的新資料顯示,超大規模提供商運營的大型資料中心的總數量在第二季度末增加到了659 個,自2016年年中以來翻了一倍多. 就地區而言:美國和中國繼續佔主要雲和 ...

位元組跳動旗下平臺幸福裡回應“收購北京麥田”：只是收購了麥田旗下一家公司
36氪獲悉,針對"收購北京麥田"傳聞,位元組跳動旗下平臺幸福裡相關負責人回應稱:幸福裡實際只是收購了麥田旗下一家公司,並非收購北京麥田.據瞭解,幸福裡是位元組跳動2018年成立的房 ...

位元組跳動關聯公司全資入股一房地產經紀公司
天眼查App顯示,近日,北京福旺房地產經紀有限公司發生工商變更,新增位元組跳動關聯公司北京好房有幸資訊科技有限公司為股東,持股比例100%.原股東北京金色麥田房產經紀有限公司退出,同時法定代表人由吳存 ...

位元組跳動強勢進入造車領域，投資多個相關專案
近期推出了汽車雲業務,已從亞馬遜雲和京東雲等公司招募人員,負責推進該專案.同時,位元組也開始與一家新造車和貨運自動駕駛公司等洽談 "智駕雲" 的專案合作.位元組跳動的汽車雲提供三大 ...

漱口水品牌“參半”今年融資五輪，位元組跳動等連續追投，前阿里參謀長曾鳴旗下基金最新加入
<科創板日報>(特約記者彭一力)訊,單價25元不到的一瓶漱口水,上線80天賣了1個億,新興漱口水品牌"參半"由此一舉開啟知名度. 不僅銷售收入猛增,一級融資市場上也捷 ...

東方斯卡拉2.0的位元組跳動能否超越騰訊
位元組跳動就像是網際網路時代的東方斯卡拉. 是的,就是前些年在回家的大巴車上,小電視裡一直放,讓文藝青年的你不得不看,然後看了半個小時後又真香地停不下來,變成2B青年,希望晚點到站,把魏三的這段看完的 ...

位元組跳動外賣小程式獲得登記批准
財經網科技10月14日訊,據天眼查App顯示,北京字跳網路技術有限公司心動外賣小程式軟體獲得登記批准,登記號為2021SR1481161,批准日期為2021年10月11日. 據報道,今年7月,位元組跳 ...

新鮮早科技丨蘋果或下調年內iPhone生產目標；位元組跳動旗下巨量引擎推出巨量學；藍色起源完成第二次載人太空飛行
21世紀經濟報道記者楊清清實習記者陳龍潼綜合報道早上好,新的一天又開始了.在過去24小時內,科技行業發生了哪些有意思的事情?來跟21tech一起看看吧. [巨頭風向標] 1.蘋果或下調年內iPh ...

位元組跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

相關文章

位元組跳動做音樂，投入十億買版權，代號“白月光” 專案的重點和難點是尋找更多差異性,迴避直接競爭. 文 | 沈方偉 編輯 | 高洪浩 <晚點 LatePost>瞭解到,位元組跳動目前正開發一款獨立音樂播放器,專案代號 "白月光( ...

位元組跳動公開虛擬角色捏臉專利 此前曾推出捏臉App [CNMO新聞]據企查查APP顯示,北京位元組跳動網路技術有限公司9月17日公開了"一種虛擬角色捏臉的方法.裝置.電子裝置及儲存介質"專利,公佈號CN113409437A,申請日期 ...

位元組跳動外賣小程式獲得登記批准 財經網科技10月14日訊,據天眼查App顯示,北京字跳網路技術有限公司心動外賣小程式軟體獲得登記批准,登記號為2021SR1481161,批准日期為2021年10月11日. 據報道,今年7月,位元組跳 ...

位元組跳動做音樂，投入十億買版權，代號“白月光”
專案的重點和難點是尋找更多差異性,迴避直接競爭. 文 | 沈方偉編輯 | 高洪浩 <晚點 LatePost>瞭解到,位元組跳動目前正開發一款獨立音樂播放器,專案代號 "白月光( ...

位元組跳動公開虛擬角色捏臉專利此前曾推出捏臉App
[CNMO新聞]據企查查APP顯示,北京位元組跳動網路技術有限公司9月17日公開了"一種虛擬角色捏臉的方法.裝置.電子裝置及儲存介質"專利,公佈號CN113409437A,申請日期 ...

位元組跳動外賣小程式獲得登記批准
財經網科技10月14日訊,據天眼查App顯示,北京字跳網路技術有限公司心動外賣小程式軟體獲得登記批准,登記號為2021SR1481161,批准日期為2021年10月11日. 據報道,今年7月,位元組跳 ...