sponsored links

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

選自arXiv

作者:Valerii Likhosherstov等

機器之心編譯

編輯:杜偉

Transformer 真的很全能。

Transformers 是一個靈活的神經端到端模型族(family),最開始是為自然語言處理任務設計的。近來,Transformers 已經在影象分類、影片和音訊等一系列感知任務上得到應用。雖然近來在不同領域和任務上取得了進展,但當前 SOTA 方法只能為手頭的每個任務訓練具有不同引數的單一模型。

近日,谷歌研究院、劍橋大學和阿蘭 · 圖靈研究所的幾位研究者在其論文《 PolyViT: Co-training Vision Transformers on Images, Videos and Audio 》提出了一種簡單高效的訓練單個統一模型的方法,他們將該模型命名為 PolyViT,它實現了有競爭力或 SOTA 的影象、影片和音訊分類結果。

在設計上,研究者不僅為不同的模態使用一個通用架構,還在不同的任務和模態中共享模型引數,從而實現了潛在協同作用。從技術上來講,他們的方法受到了「transformer 是能夠在任何可以 tokenized 的模態上執行的通用架構」這一事實的啟發;從直覺上來講,是由於人類感知在本質上是多模態的,並由單個大腦執行。

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

論文地址:https://arxiv.org/abs/2111.12993

下圖 1 為 PolyViT 的結構概覽。

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

研究者主要使用的方法是協同訓練(co-training),即同時在多個分類任務(可能跨多個模態)上訓練單個模型。他們考慮了不同的設定,同時解決多達 9 個不同的影象、影片和音訊分類任務。如上圖 1 所示,PolyViT 模型能夠執行多個任務,但對於給定的輸入一次只能執行一個任務。雖然計算機視覺和自然語言領域探索過類似的方法,但研究者不清楚以往的工作是否考慮了多種模態以及是否使用這種方法實現了 SOTA 結果。

我們的協同訓練設定簡單實用。它不需要對協同訓練資料集的每個組合進行超引數調整,因為我們可以很容易地調整標準單任務訓練的設定。此外,協同訓練也不會增加整體訓練成本,因為訓練步驟的總數不超過每個單任務基線的總和。

影象、音訊和影片上的 Co-training ViT

PolyViT 架構

PolyViT 是一個能夠處理來自多種模態的輸入的單一架構。如上圖 1 所示,研究者在不同的任務和模態中共享一個 transformer 編碼器,使得引數隨任務數量呈線性減少。注意,在處理影象時,具有 L 個層的 PolyViT 表現得像 L 層的 ViT,處理音訊時表現得像 L 層的 AST,處理影片時表現得像 L 層的未因式分解(unfactorized)的 ViViT。雖然 PolyViT 能夠處理多種模態,但在給定前向傳遞時只能基於一種模態執行一個任務。

PolyViT 部署模態特定的類 token,即

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

、輸入嵌入運算元

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

和位置嵌入

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

。這使得網路可以編碼模態特定的資訊,這些資訊又可以被隨後的、共享 transformer 主幹所利用。

為了實現大量任務和模態協同訓練的同時增加模型容量,研究者可以選擇性地納入 L_adapt ≥ 0 模態特定 transformer 層(他們表示為模態 - 介面卡層),這些 transformer 層在 tokenization 之後直接應用。在這種情況下,所有模態和任務中會共享 L_=shared = L − L_adapt 層。

協同訓練流程

在使用隨機梯度下降(SGD)協同訓練的所有任務中,研究者同時最佳化所有的 PolyViT 模型引數 θ。因此,在決定如何構建訓練 batch、計算梯度以更新模型引數以及使用哪些訓練超引數時有很多設計上的選擇。

在所有情況下,研究者使用來自單個任務中的示例來構建自己的訓練 minibatch。這一設計選擇使得他們在使用相同的訓練超引數(如學習率、batch 大小和動量)作為傳統單一任務基線時,可以評估梯度和更新引數。這樣一來,與單一任務基線相比,研究者無需任何額外的超引數就可以執行多個任務上的協同訓練,從而使得協同訓練在實踐中易於執行,並減少執行大規模超引數掃描(sweep)的需求以實現具有競爭力的準確性。

在協同訓練過程中,對於每個 SGD 步,研究者取樣一個任務(或資料集),然後取樣來自這個任務中的 minibatch,評估梯度並隨後執行引數更新。需要著重考慮的是取樣任務的順序以及是否在不同的 minibatch 和任務上累積梯度。研究者在下圖 2 中描述了幾個任務取樣計劃,包括如下:

  • 任務 1:逐任務(Task-by-task)
  • 任務 2:交替(Alternating)
  • 任務 3:統一任務取樣(Uniform task sampling)
  • 任務 4:加權任務取樣(Weighted task sampling)
  • 任務 5:累積梯度(Accumulating gradients)

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

實驗

研究者在影象、音訊和影片三種模態的 9 個不同分類任務上同時訓練了 PolyViT。在影象分類協同訓練時,他們使用了 ImageNet-1K、 CIFAR-10/100、Oxford-IIIT Pets 和 RESISC45 資料集;對於影片任務,他們使用了 Kinetics 400 和 Moments in Time 資料集;對於音訊任務,他們使用了 AudioSet 和 VGGSound 資料集。

下表 6 為具體實驗設定:

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

下表 1 展示了不同任務取樣計劃在不同模態和任務上對協同訓練效能的影響,粗體表示最高準確率,下劃線表示次最高準確率。其中,「Task-by-task」取樣計劃表現糟糕,僅在一項任務上實現了不錯的效能,這是災難性遺忘(catastrophic forgetting)造成的。

「Accumulated」取樣計劃需要在所有任務上使用單一的學習率,這是由於所有任務上的累積梯度被用於執行引數更新。因此,該計劃僅在影象資料集上表現良好。

「Alternating」、「Uniform」和「Weighted」取樣計劃表現最好,表明任務特定的學習率以及不同任務的梯度更新之間的轉換對於準確率至關重要。

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

使用 PolyViT 的協同訓練

下表 2 展示了用於解決跨影象、音訊和影片三種模態的 9 個不同任務的模型訓練方法,包括 ViT-Im21K Linear probe、Single-task baseline 和本文的 PolyViT 及變體(分別是 PolyViT L_adapt = 0 和 PolyViT Ladapt = L/2)。

結果顯示,在單模態上訓練的 PolyViT 在 9 個數據集的 7 個上實現了 SOTA 效能,其餘 2 個數據集上的準確率差異可以忽略不計,不超過 0.3%。此外,引數的總數量比單個任務基線少了 2/3。同時,在使用引數大大減少的情況下,多模態 PolyViT 也實現了有競爭力的效能。

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

使用 linear probe 評估學習到的表示

透過為一個新任務僅僅新增和訓練一個新的線性頭(linear head),研究者對 PolyViT 學習到的特徵表示進行評估。下表 3 展示了多種模態上訓練的 PolyViT 如何學習「在跨影象、音訊和影片三種模態的 11 個線性評估任務上均表現良好的」跨模態特徵表示。同時,表 3 還展示了多種模態上的協同訓練如何有益於學習強大、可遷移且可用於多個下游任務的特徵表示。

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

使用單模態協同訓練實現 SOTA 效能

受到上表 2 中單模態協同訓練效能的啟發,研究者使用這種方法在音訊和影片分類任務上執行了大規模協同訓練實驗。下表 4 和表 5 顯示,在使用的引數明顯更少的同時,他們實現了 SOTA 結果。

如下表 4 所示,對於音訊分類,研究者將 PolyViT 與當前 SOTA 方法 MBT(audio-only) 及相關變體 MBT: AS-500k→VGGSound 和 MBT: VGGSound→AS-500k。結果表明,PolyViT 在兩個資料集上超越了 SOTA 方法,同時使用的引數大約是 MBT(audio-only) 的一半。此外,PolyViT 在更小的資料集 VGGSound 上實現了 2.8% 的 Top 1 準確率提升。

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

對於影片分類,研究者在 Kinetics-400、Kinetics-600 和 Moments in Time 資料集上協同訓練了具有較小 tubelet size 的 PolyViT-Large 模型,並與當前 SOTA 模型 ViViT(使用相同的初始化、主幹和 token 數量)進行了比較。結果如下表 5 所示,表明 PolyViT 在三個資料集上均超越了 ViViT。

單一ViT模型執行多模態多工,谷歌用協同訓練策略實現多個SOTA

分類: 時尚
時間: 2021-12-20

相關文章

四十二歲生第三胎,產房順轉剖過程紀實

四十二歲生第三胎,產房順轉剖過程紀實
#你好,新生命#時隔十六年再做媽媽,心情複雜又激動,在迎來新生命的那一刻,只覺得幸福. 壹(1) 我生三寶時已經四十二歲了,老公選擇了虎門濱海灣醫院,也是東莞第五人民醫院,我們又習慣叫它虎門太平醫院, ...

萬梓良小16歲老婆氣質真好,一襲黑裙高挑又窈窕,氣質不輸女明星

萬梓良小16歲老婆氣質真好,一襲黑裙高挑又窈窕,氣質不輸女明星
相信每個女性的衣櫥裡都會有一條連衣裙,而黑裙更是眾多裙裝中的經典款,因為它的實用性簡直太強了,不僅能透過深調的色彩為整體注入幾分沉穩端莊的氣質,還會起到顯瘦.顯白的作用,簡直就是微胖美眉們的福音.但是 ...

四十歲男人的困惑

四十歲男人的困惑
俗話說:"男人四十不得己,保溫杯裡泡枸杞."從側面反應了,男人到了一定的年齡,身體的各個機能已經在下降了.但這是自然規律,無從避免,只能透過鍛練,增加體質,去延緩或推遲這個人體現象 ...

45歲的李小冉真不顯老,穿牛仔裙優雅有活力,一頭短髮氣質很迷人

45歲的李小冉真不顯老,穿牛仔裙優雅有活力,一頭短髮氣質很迷人
牛仔元素經典又時尚,而且百搭又好穿幾乎不會出錯.日常出門犯懶的時候,隨便穿條牛仔褲配T恤,清爽乾淨時尚感一點都不差. 很帥氣隨性的牛仔材質,運用在裙裝上,會呈現出別樣的美感.李小冉穿一條牛仔連衣裙,知 ...

胡慧中的氣質真沒咋變,60多歲也不看出有皺紋,穿紅色看著挺洋氣

胡慧中的氣質真沒咋變,60多歲也不看出有皺紋,穿紅色看著挺洋氣
#今天穿什麼##變美百科全書##穿搭紅黑榜# 最能夠顯現自己氣色的顏色想必就是那些顏色很鮮豔的色彩吧,像紅色亮黃以及橙色橘色等等,這羅列出來就是一大堆. 而且其鮮豔色彩的服飾,還具有很高的辨識度,在人 ...

佟麗婭和毛曉彤同為80後,但相差4歲氣質真不同,同框時好養眼

佟麗婭和毛曉彤同為80後,但相差4歲氣質真不同,同框時好養眼
不管人們在穿衣打扮的時候會用上什麼顏色來搭配自己,黑色和白色都是時尚界當中最具魅力的顏色,而且黑色和白色也是非常多見的一種顏色. 就是煙味,黑色和白色是兩種極端色,黑色是深色系當中最深的顏色,而白色又 ...

50歲楊鈺瑩不肯優雅老去,還穿泡泡袖公主裙扮少女,氣質確實不錯

50歲楊鈺瑩不肯優雅老去,還穿泡泡袖公主裙扮少女,氣質確實不錯
說到楊鈺瑩這位上個世紀的甜歌皇后,現如今也是年過半百,但從楊鈺瑩的近照來看,楊鈺瑩依然還是那個甜甜的自己,年齡不是愛美的障礙,雖然難免會有在扮嫩時"用力過猛"的感覺,但楊鈺瑩總體氣 ...

今秋的外套流行“穿短不穿長”,舒適顯個高,五六十歲女人穿真美

今秋的外套流行“穿短不穿長”,舒適顯個高,五六十歲女人穿真美
今日好啊~ 曾經有人說:"一個真正有氣質的女人,一定是讀過了很多書,看過很多風景,和愛過一個人."氣質,在於靈魂的獨立,在於經歷過起起落落的人生後所培養出獨立的格局,就算自身沒經歷 ...

瘦下來的穎兒氣質真不賴,黑色禮服配絲絨手套,化身復古名媛

瘦下來的穎兒氣質真不賴,黑色禮服配絲絨手套,化身復古名媛
娛樂圈的大多數女明星天生就有好身材,但也有一些小姐姐,她們是後天瘦下來的,比如穎兒就是如此,剛出道的她確實身材算微胖,可是後來她減肥成功,還成了很多普通女孩的學習物件.如今瘦下來的穎兒越來越苗條,這次 ...

60歲上海奶奶真時髦!穿揹帶褲騎單車出門,頭上裹塊花頭巾好拉風

60歲上海奶奶真時髦!穿揹帶褲騎單車出門,頭上裹塊花頭巾好拉風
雖然上了年紀的老年人常常給人死板.沉悶的印象,但並不是所有老人都會選擇老氣的奶奶裝.有品位又時髦的女人,變老也依然保留著好衣品,而時尚感也為她們帶來了更年輕的形象與氣場.一位60歲上海奶奶就是真時髦! ...

楊冪生日真破費,穿“一萬”尖頭靴配黑裙子,不像35歲阿姨輩

楊冪生日真破費,穿“一萬”尖頭靴配黑裙子,不像35歲阿姨輩
說到楊冪相信大家耳熟能詳,作為85後小花,她既擁有天使的顏值,又擁有魔鬼一般的身材,演技好,人緣好,情商智商雙線上,簡直挑不出一點缺點,剛過完35歲生日的她看上去一點中年的樣子都沒有,穿尖頭靴搭配黑色 ...

39歲車曉氣質不俗,穿深灰色抹胸裙配利落盤發,一點不顯老氣

39歲車曉氣質不俗,穿深灰色抹胸裙配利落盤發,一點不顯老氣
氣質與談吐,展現的是一個人的內在修養.越是飽讀詩書的人,氣質越是內斂高貴.那種不爭不搶的氣質,不露與表的雅緻,會給人一種心曠神怡的美好,相處起來也覺得特別的舒服,不會給人一種距離感. 與自身的氣質的修 ...

王俊凱氣質真挺好,簡約黑白穿搭難掩帥氣值,好似“小說男主角”

王俊凱氣質真挺好,簡約黑白穿搭難掩帥氣值,好似“小說男主角”
如果要說男性最好的年紀小編覺得應該是20-25歲這個年紀段,恰好是少年向成熟穩重轉變的時期,身上矛盾的氣質非常的迷人,同時這個年齡段也是最能展現出男士的多種不同魅力的時間段. 少年的桀驁不羈.成熟男性 ...

結沒結婚的女人,一眼就能看得出來,郭采潔和林志玲氣質真不一樣

結沒結婚的女人,一眼就能看得出來,郭采潔和林志玲氣質真不一樣
顏色的選擇可以說是很多女性在搭配服裝時的一個難題,因為在時尚界之中真的是有著太多的顏色了,而且即使是同一個色系,其中也有不同的顏色. 所以說在選擇顏色的時候,就需要大家多多動動自己的小腦瓜了,不能夠隨 ...

宋祖英氣質真沒得說,穿“蚊帳裙”配小綠裙都好看,優雅又迷人

宋祖英氣質真沒得說,穿“蚊帳裙”配小綠裙都好看,優雅又迷人
很多成熟女性在穿搭的時候上都非常喜歡一些微微透視的面料,這種透視感可以呈現出一種若隱若現的搭配效果,將成熟女性身上的女人味呈現出來,但是用得不好的話就會起到適得其反的穿搭效果,宋祖英久違亮相,穿蚊帳裙 ...

張靜初生圖精修圖差距有點大,笑起來有點不自然,可優雅氣質真絕

張靜初生圖精修圖差距有點大,笑起來有點不自然,可優雅氣質真絕
#今天穿什麼##潮流風格穿搭##時尚# 相信對於黑色系服飾的搭配,各位心得怕是不比小編少,不過各位是否有真的仔細想過,在那麼多的顏色中,為什麼黑色系的服飾就這麼深受人們的喜愛呢?這氣質到底是有著什麼樣 ...

張曼玉這氣質真讓人服氣,穿皮衣配連衣裙好高階,老了依舊驚豔

張曼玉這氣質真讓人服氣,穿皮衣配連衣裙好高階,老了依舊驚豔
大部分普通素人到了一定年齡段之後在穿搭上都非常樸素簡單,基礎的.舒適的單品往往是首選,這種簡約低調的搭配方式通常比較和諧,但是卻不夠亮眼,想要穿出時髦感的話,一些大膽的.新潮的單品有時候也是可以大膽的 ...

俞飛鴻“原裝臉”真耐看,普通的打扮都這麼高階,氣質真沒得挑

俞飛鴻“原裝臉”真耐看,普通的打扮都這麼高階,氣質真沒得挑
很多女性自身的氣質感非常好,在穿搭的時候就算是一身非常簡單的爛大街單品都可以穿出無限的高階感,很顯然,不老女神俞飛鴻就是典型的氣質高階的女性,走機場的時候穿墨綠色上衣搭配黑色緊身褲,衣服本身看上去平平 ...

四十歲女人穿裙子,要牢記“2穿2不穿”,優雅得體又減齡,真好看

四十歲女人穿裙子,要牢記“2穿2不穿”,優雅得體又減齡,真好看
成為氣質女人第一步,外在形象很重要.而讓自己的外在形象時尚動人,自然和穿搭離不開聯絡.不少年過四十的女人還追求著時尚元素,往往得到的結果便是"慘不忍睹",因為已經不符合自身的年齡和 ...

60歲女人氣質再好穿衣也別花哨,學她這樣穿,演繹歲月不敗美人

60歲女人氣質再好穿衣也別花哨,學她這樣穿,演繹歲月不敗美人
時尚圈有這樣一句話,"流行易逝,經典永存",這不僅體現在單品款式上,也體現在女性的穿衣風格上,尤其當女人到了50.60歲的年齡,需要明白簡約自在才是最高階舒適的穿衣風格,也最難以過 ...