sponsored links

資料縮至1/5000,模型準確率卻翻倍,谷歌新“蒸餾法”火了

博雯 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

在煉丹過程中,為了減少訓練所需資源,MLer有時會將大型複雜的大模型“蒸餾”為較小的模型,同時還要保證與壓縮前相當的結果。

這就是知識蒸餾,一種模型壓縮/訓練方法。

不過隨著技術發展,大家也逐漸將蒸餾的物件擴充套件到了資料集上。

這不,谷歌最近就提出了兩種新的資料集蒸餾方法,在推特上引起了不小反響,熱度超過600:

資料縮至1/5000,模型準確率卻翻倍,谷歌新“蒸餾法”火了

像這樣, 將50000張標註影象的CIFAR-10資料集“蒸餾”縮小至1/5000大小,只基於10張合成數據點進行訓練,模型的準確率仍可近似51%

資料縮至1/5000,模型準確率卻翻倍,谷歌新“蒸餾法”火了


△上:原始資料集 下:蒸餾後

而如果“蒸餾資料集”由500張影象組成(佔原資料集1%大小),其準確率可以達到80%。

兩種資料集蒸餾方法分別來自於ICLR 2021和NeurIPS 2021上的兩篇論文。

資料縮至1/5000,模型準確率卻翻倍,谷歌新“蒸餾法”火了

資料縮至1/5000,模型準確率卻翻倍,谷歌新“蒸餾法”火了

透過兩階段迴圈進行最佳化

那麼要如何才能“蒸餾”一個數據集呢?

其實,這相當於一個兩階段的最佳化過程:

  1. “內部迴圈”,用於在學習資料上訓練模型
  2. “外部迴圈”,用於最佳化學習資料在自然資料上的效能

透過內部迴圈可以得到一個核嶺迴歸(KRR)函式,然後再外部迴圈中計算原始影象標註與核嶺迴歸函式預測標註之間的均方誤差(MSE)。

這時,谷歌提出的兩種方法就分別有了不同的處理路線:

一、標註解釋 (LS)

這種方法直接解釋最小化KRR損失函式的支援標註集(support labels),併為每個支援影象生成一個獨特的密集標註向量。

資料縮至1/5000,模型準確率卻翻倍,谷歌新“蒸餾法”火了


△藍:原始獨熱標註 橙:LS生成的密集標註

二、核歸納點 (KIP)

這種方法透過基於梯度的方法將KRR損失函式最小化,以此來最佳化影象和可能生成的資料。

以MNIST為例,下圖中的上、中、下三張圖分別為原始的MNIST資料集、固定標註的KIP蒸餾影象、最佳化標註的KIP蒸餾影象。

可以看出,在於對資料集進行蒸餾時,最佳化標註的效果最好:

資料縮至1/5000,模型準確率卻翻倍,谷歌新“蒸餾法”火了

對比已有的DC(Dataset Condensation)方法和DSP(Dataset Condensation with Differentiable Siamese Augmentation)方法可以看到:

如果使用每類別只有一張影象,也就是最後只有10張影象的蒸餾資料集,KIP方法的測試集準確率整體高於DC和DSP方法。

在CIFAR-10分類任務中,LS也優於先前的方法,KIP甚至可以達到翻倍的效果。

資料縮至1/5000,模型準確率卻翻倍,谷歌新“蒸餾法”火了

對此,谷歌表示:

這證明了在某些情況下,我們的縮小100倍的“蒸餾資料集”要比原始資料集更好。

兩位華人作者

整個專案由蕭樂超(Lechao Xiao)、Zhourong Chen、Roman Novak三人合作完成。

其中蕭樂超為LS方法的論文作者之一,本科畢業於浙江大學的應用數學系,在美國伊利諾大學厄巴納-香檳分校(UIUC)取得博士學位,現在是谷歌大腦團隊的一名科學家。

他的主要研究方向是數學、機器學習和深度學習。

資料縮至1/5000,模型準確率卻翻倍,谷歌新“蒸餾法”火了

另一位華人科學家Zhourong Chen則是KIP方法的論文作者之一,本科畢業於中山大學,並在香港科技大學取得了計算機科學與工程系的博士學位,現是Google Research的一名軟體工程師。

論文:
[1]https://openreview.net/forum?id=l-PrrQrK0QR
[2]https://openreview.net/forum?id=hXWPpJedrVP

開源地址:
https://github.com/google-research/google-research/tree/master/kip

參考連結:
https://ai.googleblog.com/2021/12/training-machine-learning-models-more.html

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

分類: 科學
時間: 2021-12-19

相關文章

博奧二十三項遺傳性耳聾相關基因檢測試劑盒獲國家藥監局批准

博奧二十三項遺傳性耳聾相關基因檢測試劑盒獲國家藥監局批准
重磅推出 2021年9月18日,博奧二十三項遺傳性耳聾相關基因檢測試劑盒(微流控晶片法)透過國家藥品監督管理局批准[註冊證編號:國械注準20213400743].依託全新微流控SNP晶片檢測系統(&q ...

瑞金醫院中國淋巴瘤患者分子分型體系,讓治療更精確

瑞金醫院中國淋巴瘤患者分子分型體系,讓治療更精確
來源:上海交通大學醫學院附屬瑞金醫院 治療淋巴瘤,難在何處? 在瑞金醫院血液科,有這麼一群尋"靶"的醫生.也許您已經猜出來了,這個"靶",就是靶向基因測序. 什 ...

黑種人的基因與白種人、黃種人有何區別?基因相似度有多高?

黑種人的基因與白種人、黃種人有何區別?基因相似度有多高?
人之起源,難有定論.但經過數十萬年的進化與發展,人類物種也出現了些許變化,大致分為黃種人.白種人.黑種人.不同人種釋出的區域也有所不同,黃種人大部分分佈在亞洲,黑種人在非洲,白種人在美洲. 人之膚色, ...

為什麼和黑人生的孩子基本都是黑色的?黑種人的基因到底有多強?

為什麼和黑人生的孩子基本都是黑色的?黑種人的基因到底有多強?
要問世界哪個人種的基因比較強大, 很多人應該都會說:黑人. 因為不管是白種人和黑種人生的孩子,還是黃種人和黑人生的孩子,面板基本上都是偏黑色的. 那為什麼和黑人生的孩子基本都是黑的?難道真的是黑人基因 ...

2連勝!7人轟67分,江蘇隊集體爆發,李楠看到崛起盼頭

2連勝!7人轟67分,江蘇隊集體爆發,李楠看到崛起盼頭
江蘇隊在老一輩球員退役,新一輩球員還沒成長起來的情況下,陷入了青黃不接的時代,縱然迎來了名帥李楠,他們上賽季還是難免聯盟墊底!不過雖然實力弱,但是江蘇隊的潛力 還是挺高的,在李楠指導的帶領下,他們有望 ...

讓人傻傻分不清的劉志強全能腥,全能香,搞懵了多少釣友
好,大家好,今天帶大家來看一下劉志強全能腥,全能香火了以後,全網出現了各種版本的全能腥,全能香! 經常可以看到釣魚說買到了全能腥,不是劉志強的!哇塞,今天又買到了假貨!哇塞,我的全能腥,全能香好像在我 ...

最新古代DNA分型結果顯示成吉思汗Y染色體型別為C2-Y4541

最新古代DNA分型結果顯示成吉思汗Y染色體型別為C2-Y4541
對於成吉思汗黃金家族的古代DNA資料,我在另一篇文章中已經有了介紹.<成吉思汗 黃金家族的 古代DNA資料>,接下來我來分析一下成吉思汗本人的Y染色體型別. 根據2018年在<nat ...

世界上的房子分兩種:一般國家的房子和德國的房子

世界上的房子分兩種:一般國家的房子和德國的房子
60%的德國人都是以租房為主,這裡不分男女老少,甚至是月薪過萬(歐元)的很多德國人也都是租房.他們可能一個房子租期超過10年20年,甚至一輩子都在租房. 而穩定的.以保護租房者利益為主的租房政策,幾年 ...

如何避免確診即晚期?華大這樣打通癌症早篩“最後一公里”

如何避免確診即晚期?華大這樣打通癌症早篩“最後一公里”
癌症已成為我國居民健康的主要"殺手"之一.根據國際癌症研究機構(IARC)釋出的 2020 年全球癌症負擔資料,2020 年中國新發癌症病例457萬,癌症死亡人數 300 萬,均位 ...

奈米材料醫療器械風險評估及標準研究概覽

奈米材料醫療器械風險評估及標準研究概覽
近年來,奈米材料.奈米技術及其在疾病診療中的應用研發獲得迅猛發展.與傳統醫用材料相比,奈米材料憑藉優越的奈米效應,在代謝動力學行為.被動或主動靶向性.降低毒副作用等方面具有明顯優勢.目前,國內外許多科 ...

35歲離職創業,她要去IPO敲鐘了

35歲離職創業,她要去IPO敲鐘了
又一對夫婦要去IPO敲鐘了. 投資界獲悉,醫療AI企業數坤(北京)網路科技股份有限公司(簡稱:數坤科技)向港交所主機板遞交上市申請,聯席保薦人為摩根大通.美銀證券和中銀國際. 數坤科技身處於火爆的醫療 ...

桐樹基因突破腫瘤ctDNA精準檢測技術關鍵壁壘
本報記者 矯月 伴隨基因科技的進步,基因檢測在醫療健康領域的應用越來越廣泛,是當前生物科學領域最具發展前景的產業之一,也已成為國家發展的重要戰略."十四五"規劃綱要明確," ...

分子技術丨HRM檢測技術介紹

分子技術丨HRM檢測技術介紹
來源:基因talks 前 言 基因的變異型別有多種(點選檢視),對應的分子檢測方法亦有多種,當前資本市場驅動著分子檢測市場,並極力追捧NGS技術,因為其通量高,靈敏度高且價效比高.小編承認NGS是分子 ...

張洋:做國內流式熒光檢測技術領域的破題者
"熒光染料和標記蛋白的比例需要再調整一下,確保熒游標記的量控制精準."日前,在位於高新區的浙江正熙生物技術股份有限公司實驗室內,總經理張洋正在指導成員進行實驗.目前,公司正在研發可 ...

小麥-華山新麥草遠緣雜交後代中抗病基因研究

小麥-華山新麥草遠緣雜交後代中抗病基因研究
華山新麥草具有抗寒.抗旱.耐瘠薄.早熟.優質.矮稈.抗病等特點,是小麥品種改良的重要遺傳資源,特別是小麥全蝕病稀缺的抗性資源. 西北農林科技大學小麥遠緣雜交遺傳育種團隊陳新宏研究員課題組透過遠緣雜交和 ...

哈扎拉人,阿富汗的黃種人,是中國後裔嗎

哈扎拉人,阿富汗的黃種人,是中國後裔嗎
哈扎拉人是阿富汗的第三大民族,在阿富汗的哈扎拉人大約有三百萬左右.與阿富汗的第一大民族普什圖人和第二大民族塔吉克族這兩個白人種族顯著不同的是,哈扎拉人是典型的黃種人,一般的哈扎拉人的典型體貌特徵是黃面 ...

敷爾佳揭開面膜亂象:研發僅2人 實控人“清倉分紅”近10億

敷爾佳揭開面膜亂象:研發僅2人 實控人“清倉分紅”近10億
文/丸子 如果你是一個愛美的年輕女性,你一定聽說過敷爾佳.芙清.創爾美這些奇奇怪怪的品牌名.幾年前,醫美面膜的風席捲中國內地市場,曾經叱吒一時的韓國護膚品因此備受冷落.許多小姑娘在向人推薦面膜時,脫口 ...

世界20大科學儀器頂尖巨頭

世界20大科學儀器頂尖巨頭
科學儀器裝置一直是科學研究和技術創新的重要基石,並且是化學.材料.生命科學等研究的重要保障.美國化學會(ACS)旗下的C&EN雜誌(Chemical & Engineering New ...

遺傳性視網膜疾病的治療方法新進展

遺傳性視網膜疾病的治療方法新進展
編者按:在全球疫情形勢嚴峻的情況下,第33屆APACRS會議於7日30日-31日在線上圓滿舉辦,為聽眾帶來一場精彩絕倫的學術大餐.遺傳性視網膜疾病的研究在本次會議中的關注度居高不減,其影響著1/400 ...

“不為自己國家做點事 讀那麼多書有什麼用”

“不為自己國家做點事 讀那麼多書有什麼用”
來源:人民網-人民日報海外版 戴立忠(右)正在進行科研工作. 2020年5月6日,在迦納首都阿克拉,迦納最大的連鎖藥品供應商mPharma的工作人員展示從中國湖南聖湘生物科技股份有限公司進口的檢測裝置 ...