此文為深蘭科技科學院撰寫,文章將對手語資料模態如何處理並從中提取有意義的資訊進行深入討論。
當下,我們生活在多模式資訊的時代裡。我們日常的每一天都可能有過這些經歷:早晨,枕邊的鬧鐘準時響起,鬧鈴則是自己精心挑選的歌曲或音效。在賴床時,我們隨手拿起手機開啟各類APP消磨時間。在上班途中,我們插上耳機看新聞、追劇、聽音樂。在工作中,我們閱讀處理大量的檔案材料、開會討論專案。在午休時,我們翻看微博、知乎或各類入口網站。在下班後,我們可能會相約好友一起看電影、看話劇,或者在家嘗試最新入手的VR裝置。
在我們的每一天生活中,毫不誇張地說,我們的五種感官都在不斷地接收到外界各種資訊的刺激。而在我們瞭解世界的過程中,我們所具備的能夠感知和處理多模態資料的能力起著至關重要的作用。
在所有的資訊方式中,我們都熟悉並且常見的資訊方式有:音訊、影片和文字。關於這些資料型別的表示,我們可以分別理解為:音訊表示為時間序列資料;文字是具有上下文的詞向量序列;影片理解為影象序列。從資訊處理和深度學習的角度來看,因為目前已經存在可以從這些型別的資料中提取特徵的成熟方法(例如,音訊資料情況下的傅立葉變換),並且用於對這些提取的特徵進行學習的架構已具有魯棒性,所以能夠非常有效地完成對這些型別的資料處理。
以時間序列資料為例,當前已有多種方法可以提取時間序列資料的相關特徵,比如使用傅立葉變換來計算傅立葉係數,並將這些值用作表徵時間序列的特徵。除此以外,還可透過計算自相關係數,或複雜性度量等方法,例如Lempel-Ziv因子。
對於文字資料,一種眾所周知的方法是以數值向量的形式表示單詞,其中數值向量可以從非線性對映中獲得(比如利用全連線神經網路)。Word2vec是其中一個特別著名的深度學習示例。其他經典方法還包括 TF-IDF,這是一種用於對語料庫中特定單詞的重要性進行分類的度量。
對於影片資料,相較於音訊和文字,影片資料的特徵提取稍微複雜一些。我們一方面可以將影片表示為靜態影象的時間序列進行處理,另一方面也可以對影片資料進行建模。
然而,對於鮮為人知的資料模式,應該怎麼處理呢?在接下去的文章中,我們主要針對手語資料進行展開。我們如何處理這樣的模態並從中提取有意義的資訊呢?
手語是使用視覺和手動方式相結合來傳達意義的語言。在表達過程中,手語使用者透過身體部位(通常是手)的運動進行交流。使用這種模式的使用者主要包括聽力和語言障礙者,並被歸類為具有自己語法和詞典的成熟自然語言。全球有150~200種手語變體,使用者總數約為7200萬。因此,我們看到手語應該被視為一種重要的資訊模態,而研究如何最好地提取和分析手語是目前計算語言學的一個重要領域。
手語資料最常以影片的形式呈現,影片中的手語使用者可以透過手勢來傳達他或她的意圖(儘管在手語的使用過程中,使用者的身體姿勢和麵部表情也很重要,但針對本篇文章的研究中,我們在此不考慮這些情況)。
當手語資料以影片方式呈現時,雖然我們可以使用上述所提到的處理影片的方法來處理手語資訊,但這會導致很多重要的資訊丟失。因為傳統的影片處理方法,例如深度方法中的CNN,是無法將語義資訊—手姿勢考慮在內的,而手姿勢包含了所有最重要的資訊。因此,為了正確地包含這些資訊,我們透過圖形對手部姿勢進行建模。這些圖結構由節點和邊組成,邊將節點連線起來形成連線結構,如圖2所示。
圖3 中,大家能夠更直觀的看到如何透過圖結構表示一個手勢。
一隻手的典型圖表示由一組依次標記的節點構成,這些節點定義了手上拓撲上重要的地標點。此類圖資料可以透過所謂的圖卷積網路在深度學習環境中輕鬆處理。另外,基於鄰接矩陣的重要特徵圖結構能夠充分考慮到鄰接矩陣中編碼的資訊。圖4說明了一個經典圖卷積網路的結構。
在手語的完整特徵表示中,只有靜態圖資訊往往是不夠的,我們仍然缺少幀序列形式的動態資訊。因此,我們可以使用時空 GCN 的深層架構將時間維度與空間維度一併考慮。該深層架構可以分別在空間(幀內)和時間(幀間)維度上執行圖形和時間卷積。圖5 展示了 ST-GCN 的結構。
綜上,我們基本完成了一個能夠具有足夠表達能力的手語影片表示的深度學習架構。那麼我們可以用這樣的表示做什麼呢?這正是深蘭科技科學院當前研究的一個重要課題之一。在我們前期提交至 CVPR 的論文中,我們使用了類似於 ST-GCN 的架構來檢測虛假的人類動作影片。架構圖如圖6 所示。
在我們目前正在進行的論文中,我們利用我們前期的研究結果來繼續研究一種新穎的架構,希望在不同的資訊模式之間能夠進行轉換。也就是說,我們提出了另一個問題:我們可以在手語和影象之間進行翻譯嗎?這一結果可能為設計一種能夠在手語和影象之間自動翻譯的裝置鋪平道路。