估計 3D 物件的位置和方向是計算機視覺應用程式中涉及物件級感知的核心問題之一,例如增強現實和機器人操作。在這些應用程式中,瞭解物件在世界中的 3D 位置非常重要,無論是直接影響它們,還是將模擬物件正確放置在它們周圍。雖然已經使用機器學習 (ML) 技術,尤其是深度網路對這一主題進行了大量研究,但大多數研究都依賴於深度感測裝置的使用,例如Kinect,它可以直接測量到物體的距離。對於有光澤或透明的物體,直接深度感應效果不佳。例如,下圖包括多個物體(左),其中兩個是透明的星星。深度裝置無法找到良好的恆星深度值,並且對實際 3D 點的重建非常差(右)。
此問題的一種解決方案,例如ClearGrasp提出的解決方案,是使用深度神經網路修復透明物件損壞的深度圖。給定透明物體的單個 RGB-D 影象,ClearGrasp 使用深度卷積網路來推斷表面法線、透明表面的掩碼和遮擋邊界,它用於細化場景中所有透明表面的初始深度估計(最右邊 )上圖)。這種方法非常有前途,並且允許透過依賴深度的姿勢估計方法處理具有透明物體的場景。但是修復可能很棘手,尤其是在完全使用合成影象進行訓練時,仍然可能導致深度錯誤。
在“ KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects ”中,與斯坦福人工智慧實驗室合作在CVPR 2020上發表,我們描述了一個 ML 系統,它透過直接預測 3D 關鍵點來估計透明物體的深度。為了訓練系統,我們以半自動化的方式收集透明物體影象的大型真實世界資料集,並使用手動選擇的 3D 關鍵點有效地標記它們的姿勢。然後,我們訓練深度模型(稱為 KeyPose)以從單目或立體影象端到端地估計 3D 關鍵點,而無需明確計算深度。對於單個物件和物件類別,這些模型都適用於訓練期間可見和不可見的物件。雖然 KeyPose 可以處理單眼影象,但立體影象中可用的額外資訊使其結果比單眼影象輸入提高了兩倍,典型誤差為 5 毫米到 10 毫米,具體取決於物件。即使在為競爭方法提供真實深度時,它也大大提高了這些物件的姿態估計的最新技術水平。我們正在釋出供研究界使用的關鍵點標記透明物件資料集。
帶有 3D 關鍵點標籤的真實世界透明物件資料集
為了便於收集大量真實世界影象,我們建立了一個機器人資料收集系統,其中一個機器人手臂透過軌跡移動,同時使用兩個裝置、一個立體攝像頭和一個攝像頭拍攝影片。在Kinect的Azure的深度相機。
該AprilTags目標使相機的姿態進行準確跟蹤。透過使用 2D 關鍵點手動標記每個影片中的少數影象,我們可以使用多檢視幾何為影片的所有幀提取 3D 關鍵點,從而將標記效率提高 100 倍。
我們為五個類別的 15 個不同的透明物體捕獲影象,使用 10 種不同的背景紋理和每個物體的四種不同姿勢,產生總共 600 個影片序列,包括 48k 立體和深度影象。我們還使用物件的不透明版本捕獲了相同的影象,以提供準確的地面實況深度影象。所有影象都標有 3D 關鍵點。我們正在公開發布這個真實世界影象資料集,以補充與它共享相似物件的合成 ClearGrasp 資料集。
KeyPose Algorithm Using Early Fusion Stereo
這個專案獨立開發了直接使用立體影象進行關鍵點估計的想法;它最近也出現在手部追蹤的背景下。下圖顯示了基本思想:來自立體相機的兩幅影象圍繞物件裁剪並饋送到 KeyPose 網路,該網路預測表示物件 3D 姿態的稀疏 3D 關鍵點集。網路使用來自標記的 3D 關鍵點的監督進行訓練。
立體 KeyPose 的一個關鍵方面是使用早期融合來混合立體影象,並允許網路隱式計算視差,與後期融合相反,後者分別為每個影象預測關鍵點,然後組合。如下圖所示,KeyPose 的輸出是影象平面中的 2D 關鍵點熱圖以及每個關鍵點的視差(即逆深度)熱圖。這兩個熱圖的組合為每個關鍵點生成關鍵點的 3D 座標。
與後期融合或單眼輸入相比,早期融合立體聲的準確度通常是後者的兩倍。
結果
下圖顯示了 KeyPose 在單個物件上的定性結果。左邊是原始立體影象之一;中間是投影到影象上的預測 3D 關鍵點。在右側,我們將瓶子 3D 模型中的點視覺化,放置在由預測的 3D 關鍵點確定的姿勢上。該網路高效且準確,在標準 GPU 上僅使用 5 毫秒即可預測關鍵點,瓶子的 MAE 為 5.2 毫米,杯子的 MAE 為 10.1 毫米。
下表顯示了 KeyPose 在類別級別估計上的結果。測試集使用了訓練集看不到的背景紋理。請注意,MAE 從 5.8 毫米到 9.9 毫米不等,顯示了該方法的準確性。
有關定量結果以及消融研究的完整說明,請參閱論文和補充材料以及KeyPose 網站。
結論
這項工作表明,可以在不依賴深度影象的情況下,從 RGB 影象中準確估計透明物體的 3D 姿態。它驗證了使用立體影象作為早期融合深度網路的輸入,其中訓練網路直接從立體對中提取稀疏 3D 關鍵點。我們希望廣泛的、標記的透明物件資料集的可用性將有助於推動該領域的發展。最後,雖然我們使用半自動方法來有效地標記資料集,但我們希望在未來的工作中採用自我監督的方法來消除手動標記。