豐色 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
Transformer又又接新活了——
這次谷歌用它搞了一個會根據音樂跳舞的AI。
話不多說,先讓它給大家來幾段freestyle(原影片見文末地址):
嗯,動作還挺美觀,各種風格也駕馭住了。
看著我都想跟著來一段。
你pick哪個?
而這個AI也憑藉著對音樂和舞蹈之間的關聯的深刻理解,打敗了3個同類模型取得SOTA,登上了ICCV 2021。
另外,除了程式碼開源,研究團隊還隨之一起公開了一個含有10種類型的3D舞蹈動作資料集。
心動的,搞起來搞起來!
這個freestyle怎麼來?
前面咱們不是說,這個AI用了Transformer嗎?
但這裡的Transformer不是普通的Transformer,它是一個基於完全注意力機制(Full-Attention)的跨模態Transformer,簡稱FACT。
為什麼要搞這麼複雜?
因為研究人員發現,光用單純的Transformer並不能讓AI理解音樂和舞蹈之間的相關性。
所以,這個FACT是怎麼做的呢?
總的來說,FACT模型採用了獨立的動作和音訊transformer。
首先輸入2秒鐘的seed動作序列和一段音訊,對其進行編碼。
然後將embedding(從語義空間到向量空間的對映)連線起來,送入跨模態transformer學習兩種形態的對應關係,並生成n個後續動作序列。
這些序列再被用來進行模型的自監督訓練。
其中3個transformer一起學習,採用的是不用預處理和特徵提取,直接把原始資料扔進去得到最終結果的端到端的學習方式。
另外就是在自迴歸框架中進行模型測試,將預期運動作為下一代階段的輸入。
最終,該模型可以逐幀地生成一段(long-range)舞蹈動作。
下圖則展示了該模型透過同一段種子動作(嘻哈風格)、不同音樂生成了四種舞蹈作品(霹靂舞、爵士芭蕾、Krump和Middle Hip-hop)。
有沒有懂行的點評一下?
而為了讓AI生成的舞蹈生動且和音樂風格保持一致,這個模型設計裡面有3個關鍵點:
1、模型內部token可以訪問所有輸入,因此三個transformer都使用一個完全注意力mask。這使得它比傳統的因果模型更具表現力。
2、不止預測下一個,該模型還預測N個後續動作。這有助於模型關注上下文,避免在幾個生成步驟後出現動作不銜接和跑偏的情況。
3、此外,在訓練過程的前期還用了一個12層深的跨模態transformer模組來融合兩個embedding(音訊和動作)。研究人員表示,這是訓練模型傾聽分辨輸入音樂的關鍵。
下面就用資料來看看真實效能。
打敗3個SOTA模型
研究人員根據三個指標來評估:
1、動作質量:用FID來計算樣本(也就是他們自己釋出的那個資料集,後面介紹)和生成結果在特徵空間之間的距離。一共用了40個模型生成的舞蹈序列,每個序列1200幀(20秒)。
FID的幾何和動力學特性分別表示為FIDg和FIDk。
2、動作多樣性:透過測量40套生成動作在特徵空間中的平均歐氏距離(Euclidean distance)得出。
分別用幾何特徵空間Distg和動力學特徵空間k來檢驗模型生成各種舞蹈動作的能力。
3、動作與音樂的相關性:沒有好的已有指標,他們自己提出了一個“節拍對齊分數”來評估輸入音樂(音樂節拍)和輸出3D動作(運動節拍)之間的關聯。
下面是FACT和三種SOTA模型(Li等人的、Dancenet、Dance Revolution)的對比結果:
可以看到,FACT在三項指標上全部KO了以上三位。
*由於Li等人的模型生成的動作不連續,所以它的平均動力學特徵距離異常高,可以忽略。
看了資料,咱們再看個更直觀的:
emmm,相比動作靈活的FACT,其他兩位看起來都有點“不太聰明”的亞子……
舞蹈動作資料集AIST++
最後,再來簡單介紹一下他們自己打造的這個3D舞蹈動作資料集AIST++。
看名字你也發現了,這是基於現有的舞蹈資料集AIST的“加強版”,主要是在原有基礎上加上了3D資訊。
最終的AIST++一共包含5.2小時、1408個序列的3D舞蹈動作,跨越十種舞蹈型別,包括老派和新派的的霹靂舞、Pop、 Lock、Waack,以及Middle Hip-Hop、LA-style Hip-Hop、House、Krump、街頭爵士和爵士芭蕾,每種舞蹈型別又有85%的基本動作和15%的高階動作。
(怎麼感覺全是街舞啊?)
每個動作都提供了9個相機視角,下面展示了其中三個。
它可以用來支援以下三種任務:多視角的人體關鍵點估計;人體動作預測/生成;人體動作和音樂之間的跨模態分析。
團隊介紹
一作李瑞龍,UC伯克利一年級博士生,UC伯克利人工智慧研究室成員,Facebook Reality Labs學生研究員。
研究方向是計算機視覺和計算機圖形學的交叉領域,主要為透過2D影象資訊生成和重建3D世界。
讀博之前還在南加州大學視覺與圖形實驗室做了兩年的研究助理。
本科畢業於清華大學物理學和數學專業、碩士畢業於計算機專業,曾在Google Research和位元組AI Lab實習。
共同一作Yang Shan,就職於Google Research。
研究方向包括:應用機器學習、多模態感知、3D計算機視覺與物理模擬。
博士畢業於北卡羅來納大學教堂山分校(UNC,美國8所公立常春藤大學之一)。
David A. Ross,在Google Research領導Visual Dynamics研究小組。
加拿大多倫多大學機器學習和計算機視覺專業博士畢業。
Angjoo Kanazawa,馬里蘭大學博士畢業,現在是UCB電氣工程與計算機科學系的助理教授,在BAIR領導旗下的KAIR實驗室,同時也是Google Research的研究員。
最最後,再來欣賞一遍AI編舞師的魅力吧:
論文:
https://arxiv.org/abs/2101.08779
GitHub:
https : //github.com/google-research/mint
資料集:
https://google.github.io/aistplusplus_dataset/
專案主頁:
https://google.github.io/aichoreographer/
參考連結:
[1]https://www.marktechpost.com/2021/09/15/google-ai-introduces-full-attention-cross-modal-transformer-fact-model-and-a-new-3d-dance-dataset-aist/
[2]https://ai.googleblog.com/2021/09/music-conditioned-3d-dance-generation.html
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態