sponsored links

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

機器之心報道

機器之心編輯部

來自微軟的研究者另闢蹊徑,提出了一種新的計算機視覺基礎模型 Florence。在廣泛的視覺和視覺 - 語言基準測試中,Florence 顯著優於之前的大規模預訓練方法,實現了新的 SOTA 結果。

面對多樣化和開放的現實世界,要實現 AI 的自動視覺理解,就要求計算機視覺模型能夠很好地泛化,最小化對特定任務所需的定製,最終實現類似於人類視覺的人工智慧。計算機視覺基礎模型在多樣化的大規模資料集上進行訓練,可以適應各種下游任務,對於現實世界的計算機視覺應用至關重要。

現有的視覺基礎模型,如 CLIP (Radford et al., 2021)、ALIGN (Jia et al., 2021) 和悟道 2.0 等 ,主要側重於將影象和文字表徵對映為跨模態共享表徵。近日來自微軟的研究另闢蹊徑提出了一種新的計算機視覺基礎模型 Florence,將表徵從粗粒度(場景)擴充套件到細粒度(物件),從靜態(影象)擴充套件到動態(影片),從 RGB 擴充套件到多模態。

透過結合來自 Web 規模影象 - 文字資料的通用視覺語言表徵, Florence 模型可以輕鬆地適應各種計算機視覺任務,包括分類、檢索、目標檢測、視覺問答(VQA)、影象描述、影片檢索和動作識別。此外,Florence 在許多遷移學習中也表現出卓越的效能,例如全取樣(fully sampled)微調、線性探測(linear probing)、小樣本遷移和零樣本遷移,這些對於視覺基礎模型用於通用視覺任務至關重要。Florence 在 44 個表徵基準測試中多數都取得了新的 SOTA 結果,例如 ImageNet-1K 零樣本分類任務,top-1 準確率為 83.74,top-5 準確率為 97.18;COCO 微調任務獲得 62.4 mAP,VQA 任務獲得 80.36 mAP。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

論文地址:https://arxiv.org/pdf/2111.11432v1.pdf

Florence 模型在有噪聲的 Web 規模資料上以同一個目標進行端到端訓練,使模型能夠在廣泛的基準測試中實現同類最佳效能。在廣泛的視覺和視覺 - 語言基準測試中,Florence 顯著優於之前的大規模預訓練方法,實現了新的 SOTA 結果。

方法

構建 Florence 生態系統包括資料管護、模型預訓練、任務適配和訓練基礎設施,如圖 2 所示。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

資料管護

由於大規模資料多樣化對基礎模型非常重要,因此該研究提出了一個包含 9 億個影象 - 文字對的新資料集用於訓練。由於網路爬取資料通常是具有噪音的自由格式文字(例如,單詞、短語或句子),為了獲得更有效的學習,該研究使用了 UniCL,這是 Yang 等人最近提出的「統一影象文字對比學習物件」,這種方法已經被證明其比對比和監督學習方法更優越。

模型預訓練

為了從影象 - 文字對中學習良好的表示,該研究使用了包括影象編碼器和語言編碼器的兩塔式(two-tower)架構。對於影象編碼器,該研究選擇了分層 Vision Transformer 。該研究所提架構在繼承了 Transformer self-attention 操作效能優勢的同時,這些分層架構對影象的尺度不變性進行了建模,並且具有相對於影象大小的線性計算複雜度,這是進行密集預測任務必不可少的屬性。

任務適配

該研究使用 dynamic head adapter(Dai et al., 2021a)、提出的 video CoSwin adapter 從靜態圖到影片的時間、METER adapter 從影象到語言的模態變化,透過以上該研究將學習到的特徵表示沿空間(從場景到物件)進行擴充套件。Florence 旨在透過小樣本和零樣本遷移學習來有效適配開放世界,並透過很少的 epoch 訓練(例如在檢索中)進行有效部署。使用者可以根據自己的需求進行定製。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

Dynamic Head (Dai et al., 2021a) adapter 用於物件級視覺表示學習。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

圖 4. METER (Dou et al., 2021) 用作 Florence V+L 適配模型,使用影象文字匹配 (ITM) 損失和掩碼語言建模 (MLM) 損失進行訓練。

訓練基礎設施

從能源和成本方面考慮,以儘可能低的成本構建基礎模型是至關重要的。該研究開發了可擴充套件的訓練基礎設施,以提高訓練效率。Florence 訓練基礎設施由 ZeRO 、啟用檢查點、混合精度訓練、梯度快取等多項關鍵技術組成,從而大大減少了記憶體消耗,提高了訓練吞吐量。

實驗結果

該研究進行了多項實驗,表明了 Florence 顯著優於之前的大規模預訓練方法。

分類中的零樣本遷移

該研究在 ImageNet-1K 資料集和 11 個下游資料集上評估了 Florence 模型。表 1 顯示了這 12 個數據集的結果,比較的模型包括 CLIP ResNet 、CLIP Vision Transformer 模型以及 FILIP-ViT,結果顯示 Florence 在其中 9 個數據集上表現出色。該研究在 ImageNet-1K 上的零樣本遷移方面取得了顯著的提高,即 top-1 準確率為 83.74%(比 SOTA 結果高 5.6%),top-5 準確率為 97.18%。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

線性評估

線性評估考慮了 11 個分類基準,這些基準同樣也適用於零樣本分類遷移。該研究將 Florence 與具有 SOTA 效能的模型進行了比較,包括 SimCLRv2、ViT、Noisy Student 和 CLIP 。

結果表明,Florence 優於現有的 SOTA 結果,不過在 CIFAR10、CIFAR100 這兩個資料集上效能不如 EfficientNet-L2 。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

ImageNet-1K 微調評估

該研究在 ImageNet ILSVRC-2012 基準(Deng et al., 2009)上評估了持續微調的效能,Florence 與幾種模型的比較結果如下表 3 所示。Florence 模型的 Top-1 和 Top-5 準確率均優於 BiT(Kolesnikov et al., 2020)和 ALIGN(Jia 等人,2021 年)。Florence 的結果比 SOTA 模型(Dai et al., 2021c)稍差,但其模型和資料規模都比 Florence 大了 3 倍。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

小樣本跨域分類

下表 4 顯示了 Florence 模型適應 CDFSL 基準的結果。與採用整合學習(ensembes learning)和直推學習(transductive learning)的挑戰基準獲勝者(Liu et al., 2020,下表中用 CW 指代)相比,Florence 採用單一模型,沒有對測試資料進行轉換,但獲得了更優的結果。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

影象 - 文字檢索

表 5 展示了 Florence 在 Flickr30k 和 MSCOCO 資料集上在文字和影象檢索任務上的零樣本遷移和微調效能。結果表明,在這兩個資料集上,Florence 優於之前所有的微調結果。此外,該方法對檢索微調更有效。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

目標檢測和零樣本遷移

目標檢測是計算機視覺中最突出的應用之一。與現有的大規模預訓練模型(如 CLIP、ALIGN 和 Wu Dao 2.0)相比,Florence 更適用於目標檢測任務,因為它的適應性有助於學習物件級視覺表徵。研究者透過微調目標檢測和零樣本遷移任務對來 Florence 的物件級視覺表徵效能進行評估。

具體地,研究者在 3 個流行的目標檢測資料集上評估了微調效能,它們分別是 COCO(Lin et al., 2015)、Object365(Shao et al., 2019)和 Visual Genome(Krishna et al., 2016)。下表 6 展示了與 SOTA 結果的比較,可以看到,Florence 在這些目標檢測基準上取得了新的 SOTA 結果。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

為了評估 Florence 對新的、多樣性和麵嚮應用的任務的遷移性,研究者遵循 (Li et al., 2021b) 設計了一個「開放式目標檢測基準」,該基準聚合了來自 Roboflow2 的 11 個公共資料集,涵蓋了細粒度魚類 / 象棋檢測、無人機視野檢測和 thermal 目標檢測等多樣性場景。下表 7 表明,Florence 模型能夠有效地實現到這些任務的零樣本遷移。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

視覺語言(V+L)表示學習

研究者在具有挑戰性的 VQA (Goyal et al., 2017) 任務上對預訓練模型進行了微調,該任務是根據影象上下文來回答問題。下表 8 展示了與當前方法的比較,結果表明 Florence 實現的了新的 SOTA 效能。與使用了 1.8B 影象到文字對的 SimVLM 模型(Wang et al., 2021)相比,Florence 僅使用 900M 資料即可以預訓練影象編碼器,20M 資料即可以預訓練視覺語言預訓練(VLP),但取得的結果更好。這也證明了 Florence 的資料效率。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

零樣本文字到影片檢索

研究者在 MSR-VTT (Xu et al., 2016) 資料集上執行了零樣本文字到影片評估,他們報告了在 1K-A test(Yu et al., 2018,包含 1k 個影片和字幕對)上的結果, 並在下表 9 中與當前 SOTA 方法進行了比較。結果表明,CLIP6(Radford et al., 2021)和 Florence 這兩個影象到文字預訓練模型在 R@1 指標上遠遠優於其他所有 SOTA 方法。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

影片動作識別

研究者在微調影片動作識別任務上對 Florence 進行評估。下表 10 展示了 Florence 與當前 SOTA 方法的比較,結果表明在 Kinectics-400 和 Kinectics-600 兩個資料集上,分別比 SOTA 方法提升 1.1% 和 1.5%。

9億訓練集、通用CV任務,微軟Florence打破分類、檢索等多項SOTA

分類: 汽車
時間: 2021-11-22

相關文章

新車 | 售16.58萬元,創維EV6新增車型正式上市,純電續航520公里

新車 | 售16.58萬元,創維EV6新增車型正式上市,純電續航520公里
文:懂車帝原創 史景旭 [懂車帝原創 產品] 日前,創維EV6新增出行版(520)車型正式上市,新車售價為16.58萬元.作為新增動力車型,新車搭載容量71.98千瓦時的電池組,綜合續航里程為520公 ...

純電續航64公里,冒險家插混版實力如何?

純電續航64公里,冒險家插混版實力如何?
加速產品矩陣佈局,林肯在華又有新動作. 作為現款長安林肯冒險家的"兄弟"車型,插電式混動版本的到來無疑將進一步加速林肯在華的產品矩陣實力,同時為使用者豐富選擇的同時,持續擴容新車國 ...

車主說車:純電續航60公里的榮威e550,4年用車總結

車主說車:純電續航60公里的榮威e550,4年用車總結
車主:陸先生 職業:國營企業中層人士 車型:榮威e550 2016款 豪華版 指導價:24.88萬 2016年11月提車,12月上牌 車主點評 優點:外觀英倫風.內飾設計新穎.空調製冷效果好.空間大. ...

實拍極氪001,車長4970mm,純電續航最高712km,顏值媲美帕拉梅拉

實拍極氪001,車長4970mm,純電續航最高712km,顏值媲美帕拉梅拉
隨著越來越多的造車新勢力拔地而起,,電動車已經成為了發展趨勢,用電會大大降低用車的成本,特別是電車所帶來的加速快感,一點不輸大排量的效能車.就拿身邊這款極氪001來說,這絕對可以說是造車新勢力當中的里 ...

混動門檻再次降低,純電續航44公里上綠牌,比亞迪成最大得利者?

混動門檻再次降低,純電續航44公里上綠牌,比亞迪成最大得利者?
新的標準,將會讓技術更加突出的企業,以更快的速度走到公眾面前. 10月1日之後,所有銷售的混合動力車型想要獲得新能源號牌資格,應該滿足純電續航里程不低於43km的基本要求,這個標準,之前是50km. ...

上汽奧迪Q5 e-tron將亮相廣州車展,最大續航560KM

上汽奧迪Q5 e-tron將亮相廣州車展,最大續航560KM
日前,我們從相關渠道獲悉,上汽奧迪Q5 e-tron將在今年11月開幕的廣州車展上正式亮相.新車是Audi Concept Shanghai概念車的量產版,基於MEB平臺打造而來. 根據工信部申報圖來 ...

新能源汽車免徵購置稅新規:插混純電續航要求不低於43公里

新能源汽車免徵購置稅新規:插混純電續航要求不低於43公里
與傳統燃油車相比,掛綠牌的純電動.插電式混動車型,最大的優勢除了可以享受上牌便利之外,還能夠免繳購置稅.單此一項,就能夠為車主節省下數萬元.而今,隨著國內新能源汽車保有量的不斷增加,關於新能源汽車享受 ...

續航超500km,最快4.4秒破百,全系標配7座,詳解比亞迪唐EV

續航超500km,最快4.4秒破百,全系標配7座,詳解比亞迪唐EV
說到新能源汽車市場,在技術領域做得最好的應該就是特斯拉了吧,反觀國內的那些新勢力品牌.不過要說到自主品牌,比亞迪在新能源技術上的造詣也是很深的,所以現在比亞迪旗下也是以純電車為主,而我們今天就給大家介 ...

純電續航僅77km,20萬選福特銳際插電混動版值嗎?

純電續航僅77km,20萬選福特銳際插電混動版值嗎?
自今年開始,車企紛紛押寶插電混動市場,借不同地區的政策拉動,能上綠牌且續航夠長的插電混動車慢慢成為了消費者市場的另一個主流選擇. 將購車目標鎖定在SUV.裸車價20萬級,這其中不僅有加持DM-i超級混 ...

高合純電銷量超賓士、奧迪,年內推首款豪華轎車

高合純電銷量超賓士、奧迪,年內推首款豪華轎車
5月份,高合為汽車市場貢獻了史上價格最貴的中國品牌電動汽車,售價57.00-80.00萬元.從品牌誕生到首款車型上市,高合汽車一直遭到質疑,從 "這車能造出來嗎"到 "這 ...

純電續航54km/支援快充,路虎首款國產插混車型表現如何?

純電續航54km/支援快充,路虎首款國產插混車型表現如何?
在今天的主角登場之前,路虎在國內市場的混動車型僅有兩款,分別為攬勝插混版和攬勝運動插混版,二者無一例外都是進口車型,且售價也並不怎麼親民.其實在國內的SUV市場中,PHEV混動車型正在悄然增多,綠色牌 ...

這款小型合資純電SUV,續航500km,20萬可以拿下

這款小型合資純電SUV,續航500km,20萬可以拿下
目前在新能源領域,除了特斯拉.理想.小鵬等新晉勢力大展手腳,一些老牌車企也開始進軍這個領域,憑藉著自身深厚的底蘊和實力,推出了很多優秀的純電車型,別克旗下的微藍7就是其中一款. 微藍7作為純電車型,在 ...

這純電SUV來自國產大廠,雙續航+配置升級,關鍵不是比亞迪

這純電SUV來自國產大廠,雙續航+配置升級,關鍵不是比亞迪
其實說起當下純電車型,國內的造車新勢力是最活泛的.傳統車企其實也有所動作,但相對於新勢力的進度和熱度來說,似乎沒有跟上腳步.當然也並非所有的傳統品牌均是如此,像比亞迪目前就已經是國內新能源領域的領軍者 ...

和幾何A差不多大,續航502km的榮威i6 MAX純電版值得期待嗎?

和幾何A差不多大,續航502km的榮威i6 MAX純電版值得期待嗎?
對於多數家中無車使用者,尤其在限牌限號的大城市來說,新能源車已經成為剛需,大家買車時候更加註重整車均衡性,今天咖哥給大家介紹一款表現不錯的新車:榮威i6 MAX EV.作為榮威i6 MAX的純電版,目 ...

新款寶馬3系插混版路試諜照曝光 攜手純電版本悉數亮相

新款寶馬3系插混版路試諜照曝光 攜手純電版本悉數亮相
第一電動網訊息,我們從相關外媒渠道獲得了新款寶馬3系插混版諜照,將會擁有更加新潮的外觀和內飾設計,並且還會引入插電式混合動力系統,該車有望於2022年夏季亮相. 外觀設計方面,新款寶馬3系將會擁有看起 ...

極星為迎合消費市場,推出純電車型極星2,有何亮點?

極星為迎合消費市場,推出純電車型極星2,有何亮點?
極星1作為極星技術的巔峰之作,顏值極高,更像是一臺從未來穿梭而來的概念車,其簡約時尚的設計風格容易給旁觀的路人留下深刻的印象,內飾做工精緻,用料上乘,不俗的動力及操控效能可圈可點,其指導價145萬元的 ...

如果有20萬,你會買上汽大通 EUNIQ 6和長安新能源CS55 純電版嗎?

如果有20萬,你會買上汽大通 EUNIQ 6和長安新能源CS55 純電版嗎?
在20萬級SUV中,不少人選車都會在上汽大通 EUNIQ 6和長安新能源CS55 純電版之間糾結,到底這兩款車該怎麼選?眾車網為您綜合了兩車的參配.優惠資訊等多個方面資訊,力求透過全方位對比為您提供最 ...

10萬元就能搞定!三款都市時尚純電SUV推薦

10萬元就能搞定!三款都市時尚純電SUV推薦
10萬元能買一臺SUV嗎?當然可以,並且能選擇的非常多!那10萬元能買一臺純電動汽車嗎?當然也可以,並且能選擇的更多! 但10萬元能買一臺純電動SUV嗎?相信此時的你,一定會在腦海中進行瘋狂搜索,可是 ...

凱翼炫界Pro推純電版!懸浮車頂+貫穿尾燈,續航達402km

凱翼炫界Pro推純電版!懸浮車頂+貫穿尾燈,續航達402km
近日網上車市獲得一組凱翼炫界Pro EV詳細資訊,新車作為凱翼炫界Pro的純電版車型,外觀上沿續燃油版設計語言,但在細節上進行調整,新車前臉採用全新造型進氣格柵,搭配藍色飾條裝飾,相比燃油版車型更加精 ...

四款適合小女生的純電座駕 幾萬塊輕鬆搞定

四款適合小女生的純電座駕 幾萬塊輕鬆搞定
女生都喜歡什麼車?答案必須是長相可愛+小巧精緻,至於駕駛感受,似乎不在她們的詞典當中.當然在配置方面也會有一定需求,比如倒車影像就是一個硬性的考核標準.多餘的話就不說了,接下來為您推薦四款幾萬塊就可以 ...