文丨學術頭條,作者丨XT,編審丨寇建超
近年來,虛擬手在 VR 遊戲等領域得到了廣泛的應用,開發者們不斷探索用逼真的虛擬手實現基於手勢識別的互動運動,但想要讓使用者充分感受真實運動的逼真感還存在許多技術難題。
當前,在虛擬/增強現實(VR/AR)領域,大多數追蹤手部動作的最先進技術缺乏足夠的準確性。
那些依賴於視覺檢測的跟蹤裝置在黑暗環境中或有障礙物阻擋視線的情況下會無法工作,而那些依賴於基於速度和力計算位置的慣性測量單元(IMU)更是容易受到電磁干擾。同樣,一些由軟感測器組成的裝置也不能總是區分出手何時在做動作、何時觸控會導致物體變形。
近日,來自韓國首爾大學、美國斯坦福大學和三星電子的科研團隊,就透過緊密耦合的方式將視覺感測器和 IMU 融合,克服了這些限制並設計出了一個新的視覺慣性骨架跟蹤(VIST)框架。
據論文描述,該框架由一個配備感測器的手套和頭戴式攝像機組成,是一種準確、經濟、便攜、甚至可清洗的跟蹤系統,能夠結合視覺和力的測量準確跟蹤人體手和手指的運動,準確跟蹤一些在現實環境中受障礙物影響而難以檢測的運動。
此外,研究人員也展示了這一新跟蹤系統應用於 VR、假肢,戶外無人機群等各個領域的潛力。
一種十分友好的人機互動
人類可以很輕鬆地使用雙手完成一些運動控制,如果可以將人體手部的靈活性複製到 VR/AR 場景中,例如透過擬人化機器手的觸覺反饋來完成複雜的遠端操縱任務,將顯著提高人機互動(HRI)應用的效率、直觀性和豐富性。
實時互動性是指使用者對模擬環境中物體的可操作程度和從環境得到反饋的自然程度。互動性的產生,主要藉助於 VR 系統中的特殊硬體裝置(如資料手套、力反饋裝置等),使使用者能以自然的方式產生與在真實世界中一樣的感覺。VR 系統比較強調人與虛擬世界進行自然的互動,互動性的另一個方面主要表現了互動的實時性。
在 VR/AR 和人機互動的使用者體驗中,對手部(包括手指)的追蹤是一項關鍵技術。目前用於解決手部追蹤問題的方法主要有以下 3 種:
- 基於視覺的手部追蹤。使用相機來追蹤沒有標記的手部運動,同時利用大型影象資料集訓練的機器學習技術,但該方法存在無法規避遮擋的問題;
- 基於慣性測量單元(IMU)/羅盤的可穿戴手部追蹤。通常使用的感測器包括六軸 IMU(即加速度計和陀螺儀)和羅盤(即磁力計)。這種方法從根本上說容易受到磁場變化或干擾的影響,受鐵磁性物體或電子裝置干擾嚴重;
- 軟性可穿戴手部追蹤。使用一些軟性感測器,檢測每個感測器變形產生的訊號,將感測器包裹在手的周圍,用額外的手部姿勢感測器來估計手的配置。這種方法無法區分運動引起的變形和接觸引起的變形,使其不適合於使用者需要處理物體/工具或佩戴觸覺裝置的應用。
此外,純磁跟蹤器、外骨骼跟蹤等方法均存在一定的技術和應用侷限性。
為此,研究人員提出了一個視覺慣性骨架跟蹤(VIST)系統及其相應演算法,用於準確、穩健、經濟實惠的手部跟蹤,克服了這些手部追蹤方法的技術侷限。
圖|VIST 的系統配置和可能的應用(來源:該論文)
VIST 系統的關鍵創新之一是,以緊密耦合(TC)的方式融合了視覺和慣性感測器,對於視覺感測器沒有檢測到的物體,慣性感測器都會作輔助估計,反之亦然:而慣性感測器沒有檢測到的動作也會由視覺資料作一補充,TC 融合方法使得 VIST 演算法在手部追蹤上表現出更高的穩健性。VIST 架構的一些重要優勢主要為:
- 與其他最先進的方法相比,由於 TC 視覺-慣性融合和自動校準,跟蹤精度更高;
- 對閉塞、視覺複雜/變化的環境和環境照明的穩健性;
- 對電磁干擾和模糊的機械接觸的魯棒性,從而使得操作物體和佩戴裝置成為可能;
- 方便實時校準/自動校準解剖學/手套運動學引數,並納入 VIST 演算法;
- 在可清洗方面表現出的堅固性,在手套材料成本方面的可負擔性,還可以使用頭戴式顯示器(HMD)的攝像頭和計算,重量較輕,可穿戴性強。
顯著提高跟蹤精度和使用者便利性
在手部追蹤系統中,對手部的建模是一個關鍵步驟。在該研究中,人手被建模為分段關節骨架模型,並選擇手背和在日常生活中起關鍵性作用的三個手指(拇指、食指和中指)作為目標跟蹤段。
圖|VIST 的建模與流程(來源:該論文)
為了獲得目標跟蹤段的視覺和慣性資訊,研究人員設計了一個感測器手套,手套分兩層:帶有 7 個 IMU 的手套內層,帶有 37 個視覺標記的外手套層 ,視覺標記具有 4 種不同顏色(紅色、藍色、綠色和黃色),手套上還有一個頭戴式立體攝像機。
同時,研究人員還開發了一種基於濾波的視覺慣性手部跟蹤演算法,該演算法主要包括對視覺資訊的提取以及視覺慣性手部運動的估計,透過將 IMU 資訊與提取的視覺資訊和手部解剖約束融合處理,來估計手部運動。
圖 | 未使用視覺和慣性訊號融合處理的方法得到的跟蹤效果(有許多異常值,檢測精度不穩定)
圖 | 使用視覺和慣性訊號融合處理的方法得到的跟蹤效果(利用 IMU 資訊進行魯棒匹配)
視覺資訊的提取主要包括對原始影象中的標記檢測、左右立體匹配和 IMU 輔助的對應搜尋三個過程,在資料融合處理過程中使用 IMU 資訊進行手部運動預測,再利用視覺資訊進行校正,然後對手部作解剖約束進行校正。由於使用視覺慣性融合對關節段的運動相關狀態進行實時校準和自動校準,與其他系統相比,該研究設計的 VIST 系統可以顯著提高跟蹤精度和使用者便利性。
VIST 演算法的高魯棒性
另外,研究人員也定量評估了 VIST 系統在自由運動、物件互動和佩戴指尖面板觸覺裝置(CHD)的情況下的效能和穩健性。
每個實驗招募了 15 名參與者,每位參與者被指示坐在一張被 MOCAP 攝像機包圍的桌子前,並複製監視器中隨機顯示的手部配置。
圖 | 自由運動跟蹤定量評估的測試設定和結果(來源:該論文)
由於 VIST 跟蹤利用了視覺資訊和手部引數的自動校準,對手部大小的可變性不敏感。研究人員透過實驗觀察發現,VIST 演算法對遮擋具有良好的魯棒性,即使可見標記相當少,其平均誤差也僅略微增加。
研究人員構建了 8 個日常物件的影象資料集,每個物件有 100 張不同手部姿勢的影象,以此來定量評估 VIST 系統在物件互動和佩戴指尖面板觸覺裝置上的應用,從而評估其對嚴重閉塞、磁干擾和機械接觸的魯棒性。
以往的研究表明,人類無法檢測到 VR 中 50 毫米以下的食指尖跟蹤誤差,而且人類無法基於本體感覺區分 1.7 度以下的食指關節角度誤差。
研究發現,該研究設計的 VIST 系統可能允許使用者根據真實的手準確地感知渲染的手,且優於一些最先進的基於視覺的演算法對於自由運動的跟蹤,該 VIST 演算法的平均誤差僅為 10.69 mm。
圖 | 對視覺複雜背景的定性評價(來源:該論文)
研究發現,VIST 系統在使用手鑽、便攜風扇、耳機殼、CHDs 等含有鐵磁材料或內部電流的裝置時,不僅可以保持跟蹤穩定性,還可以保持其準確性。
圖 | 操作工具時跟蹤手勢(在工廠中,操作一些工具時的手勢跟蹤是非常具有挑戰性的)
VIST 系統在真實場景中具有強穩健性
研究人員在真實場景中對 VIST 系統進行了一些具有挑戰性定性測試,在背景中使用彩色物體(雜誌、水果和文具)和一幅畫(阿爾勒的臥室),在視覺上與手套標記具有相似的顏色/圖案。
研究表明,儘管存在視覺上對抗的物體和背景,該系統仍可以穩健地跟蹤手部運動。
此外,透過 IMU 輔助的對應搜尋,可以將標記觀察結果與手套上的真實匿名標記進行穩健匹配,同時有效地消除異常值,從而即使在視覺複雜的物件和背景下,也能表現出穩定的跟蹤效能。
研究人員還在戶外對 VIST系統的效能進行了測試。實驗表明,VIST系統可以在戶外穩健地跟蹤手部運動,而這一點對大多數現有的系統來說是相當困難的。
戶外實驗不僅驗證了 VIST 系統在硬體和演算法方面的完全可移植性,也驗證了它在戶外場景的應用中具有可行性。
圖 | VIST 系統戶外效能測試
透過定量和定性的評估,研究發現 VIST 系統在具有挑戰性的真實世界場景中執行穩健且效能高,尤其是 VIST 架構能夠與具有手的大小和形狀變化的不同物體進行互動。
VIST 系統規避了基於視覺的系統的基本問題,在處理閉塞、泛化和緩慢的更新中均具有優越性,克服了IMU/compass-可穿戴系統的漂移或磁干擾問題,透過利用視覺資訊與解剖學約束相結合,還克服了軟感測器可穿戴系統的未建模接觸問題。
透過融合視覺和慣性感測器在 TC 融合中的互補性,VIST 系統解決了現有手部跟蹤系統的基本約束,這對於正確解決手部跟蹤的特殊性至關重要。
研究人員表示,VIST 系統的強大手部跟蹤效能可能會促使其獲得更廣泛的應用,解決現有方法所無法企及的各種現實世界的應用場景,例如醫療康復的日常監測和工具操作技能評估等。
參考資料:
https://www.science.org/doi/10.1126/scirobotics.abe1315