賦予機器感知推斷3D物件對映的能力能夠幫助人工智慧系統更接近對世界的語義理解。所述任務需要構建場景的一致3D物件對映。在名為《ODAM: Object Detection, Association, and Mapping using Posed RGB Video》的論文中,Meta和阿德萊德大學的研究人員探索了一種利用posed RGB video來進行物件檢測,關聯和對映的方法。
研究人員關注類別級語義重建和物件對映之間的空間,並透過來自姿態RGB幀的3D bounding volume來表示物件。與在影象中使用2D bounding boxs(BBs)類似,3D bounding volume提供了位置和空間的抽象,例如可用於在物件例項錨定資訊。
透過諸如NeRF和GRAF等先進方法來可靠地推斷場景中單個物件的bounding volume和相關檢視是重建、嵌入和描述物件的墊腳石。然而,使用RGB-only影片在3D中定位物件並估計其範圍的任務帶來了眾多挑戰。
首先,儘管2D物件檢測器的深度學習方法取得了令人印象深刻的成功,但由於透視投影中的深度比例模糊性,其精度受到了影響;其次,關於如何將多檢視約束用於3D bounding volume位置和範圍的研究和共識很少。
具體而言,3D volume的表示以及如何制定合適的能量函式依然是一個開放的問題;第三,在多檢視最佳化之前需要解決的關鍵問題是,從不同角度檢測單個3D物件例項的關聯。與SfM或SLAM不同,不正確的關聯會顯著地影響3D物件定位。不過,這一問題在雜亂的室內環境中尚未得到充分的研究。在所述環境中,諸如具有幾乎相同視覺外觀和嚴重遮擋的多個物件是常見的具體問題。深度模糊和區域性觀測使資料關聯問題複雜化。
針對所述問題,Meta和阿德萊德大學的研究人員提出了ODAM。這是全新的框架結合了深度學習前端和多檢視最佳化後端,並旨在解決來自posed RGB video的3D物件對映問題。與RGB-D相比,RGB-only的優點是功耗顯著降低。
團隊假設影象的姿態已知。前端首先檢測感興趣物件,並預測每個物件的2D屬性(2D BB,物件類),以及由六自由度剛性姿態和三自由度比例引數化的3D BB,如圖2所示。團隊指出,RGB-olny方法可以在物件類別的子集中縮小與RGB-D方法的精度差距。
ODAM的目標是在RGB-only影象序列中精確定位物件並估計其bounding volume。如圖2所示,給定RGB幀,前端首先檢測物件並預測其在camera座標幀中的2D和3D屬性。所述檢測與對映中的現有物件例項相關聯,或透過使用GNN解決分配問題而成為新的物件例項。鑑於前端的關聯性,後端系統優化了來自多個關聯2D BB檢測的每個物件的超二次曲面表示,以及來自所有關聯檢視的類別條件物件比例優先順序。
其次,GNN中的注意機制不再只考慮手動資料關聯方法中的成對關係,而是聚合圖中其他節點的資訊,從而實現更穩健的匹配。因此,團隊的GNN可以從場景中的全套物件推斷物件檢測的關聯,如圖2所示。
團隊使用ScanNet和Scan2CAD來評估物件對映的效能。所有實驗均以Nvidia GeForce GTX 1070 GPU執行。單目探測器的執行速度約為10 fps。儘管GNN的推斷時間隨著對映中物件的數量線性增長,但在所有掃描網驗證序列中,GNN的平均執行速度為15 fps。總體而言,ODAM前端可實現約6 fps。使用Pytorch-Adam最佳化器進行簡單的後端最佳化需要20次迭代,耗時0.2秒。
ODAM的關鍵在於:(1)attention-based的GNN,用於對映資料關聯的魯棒檢測;(2)基於超二次曲面的多檢視最佳化,用於根據關聯的2D BB和類觀測值精確估計物件bounding volume。
每個檢測的3D屬性的主要用途是促進新幀和當前全域性3D對映之間的資料關聯。具體來說,團隊開發了一個圖形神經網路(GNN),它將當前幀檢測的2D和3D屬性作為輸入,並將它們與對映中現有的物件例項進行匹配。對於現代GPU,系統的前端在雜亂場景中的平均執行速度是6 fps,如ScanNet中的場景。
ODAM的後端是一個多檢視最佳化,在給定多個關聯的2D BB觀測值的情況下,最佳化每個物件由超二次曲面表示的定向bounding volume。以前的物件集別SLAM框架採用長方體或橢球體作為其物件表示,但它們通常不是通用物件範圍的優秀模型。超二次曲面允許長方體和橢球體(以及圓柱體)之間的混合,因此可以為多檢視最佳化提供緊密的bounding volume。
超二次曲面已用於擬合點雲資料或使用深度網路從單個影象解析物件形狀,而團隊提出了一種根據多個2D BB觀察值來最佳化超二次曲面的方法。除此之外,研究人員同時認識到,在雜亂的室內環境中,由於遮擋,物件檢測器給出的2D BB不是零誤差。團隊在最佳化目標中加入類別條件先驗以提高魯棒性。
使用GNN進行資料關聯的優勢有兩點。首先,可以將不同的屬性(例如2D BB、3D BB、物件類)作為網路的聯合輸入,以提取更具辨別力的特徵進行匹配。
總的來說,這份論文的貢獻有三個方面:
- 全新的線上3D物件對映系統ODAM,它集成了以6fps速度執行的深度學習前端和基於幾何體的後端。ODAM是目前在ScanNet中用於複雜室內場景的效能最好的3D檢測和對映純RGB-only系統;
- 提出了一種將單檢視檢測與物件級關聯的新方法。所述關聯採用了一種attention-based的GNN,並將檢測的2D和3D屬性作為輸入;
- 指出了常用的3D bounding volume表示在多檢視最佳化中的侷限性,並介紹了一種基於物件尺度先驗的超二次曲面最佳化方法,其與以前的方法相比有明顯的改進。
文章來源:映維網