sponsored links

斯坦福大學將差分隱私AI模型訓練提速10倍,將用於新冠醫學影像

斯坦福大學將差分隱私AI模型訓練提速10倍,將用於新冠醫學影像


作者 | Graphcore

更快、更早地診斷疾病、開發定製化藥物和研製新藥:人工智慧在醫療領域具有巨大的潛力,可以顯著改善患者的治療效果、挽救生命,並幫助全球人類保持健康和延長壽命。

進步正在迅速發生,並且已經產生了重大影響。這反過來又對用於訓練人工智慧模型的患者敏感資料的隱私性和安全性提出了新的挑戰。誠然,公眾、醫學界和政府層面對這個問題的討論越來越多,但我們顯然還需要研究改進人工智慧技術,從而更好地保護資料隱私。

目前,斯坦福大學醫學院(Stanford University School of Medicine)的研究人員在差分隱私(一種保護敏感資料的關鍵方法)的使用方面取得了重大突破。透過使用Graphcore IPU,斯坦福團隊能夠將具有差分隱私的人工智慧訓練速度提高10倍以上,將這項被認為計算難度過大而無法廣泛使用的技術轉變為現實世界的可行解決方案。

在使用非隱私敏感訓練資料證明其應用後,斯坦福團隊透過與Graphcore合作,正計劃將其技術應用於新型冠狀病毒肺炎的胸部CT影象,旨在揭示關於繼續在全球影響人們正常生活的這個病毒的全新見解。

1 醫療人工智慧中的資料隱私:挑戰

在人工智慧中使用敏感的個人資料會帶來諸多挑戰,但最重要的兩個挑戰是維護資料主權和防止識別個人。兩種情況均有可用的、精良的技術解決方案,而斯坦福大學的研究使這兩種解決方案更加可行。

2

算力:聯邦學習(Federated Learning)

使用來自代表全球不同人群的多個機構和提供者持有的資料集的大量且多元患者資料進行訓練的模型更強大,更不容易出現某些型別的偏見,最終更加有用。

標準機器學習方法需要集中整理資料以進行校勘。即使嘗試透過刪除患者的識別資訊來匿名化資料,將這些資訊傳遞給第三方研究機構和組織的需求也被證明是一個重大問題。事實上,要求監管、以將患者資料保留在獲取資料的管轄範圍內的呼聲日益高漲。

聯邦學習可以提供部分答案,因為它允許人工智慧模型在匿名患者資料上進行訓練,而無需將這些資料集中起來。相反,開發中的模型被髮送出去,並在本地資料上進行訓練。

雖然聯邦學習是一項有價值的技術,但最近的研究突顯出一個問題,即透過從經過充分訓練的模型推理資料,潛在地將其與個人聯絡起來或恢復原始資料集來重新識別匿名健康資訊的能力會帶來隱私漏洞。

出於這個原因,聯邦學習的使用也依賴於推進差分隱私的應用。

3 差分隱私

透過訓練聯邦學習模型,差分隱私使敏感資料的保護更進一步,沒有人可以從中推理出訓練資料或恢復原始資料集。

差分隱私隨機梯度下降(簡稱DPSGD)透過剪裁和扭曲單個訓練資料項的梯度,向匿名患者資料新增噪聲。增加的噪聲意味著對手不太可能發現所使用的個體患者資料或恢復用於訓練模型的原始資料集。

差分隱私隨機梯度下降(DPSGD)雖然明顯益於保護敏感資料,但它仍是一個欠缺研究的領域,直到現在還沒有應用於大型資料集,因為它與傳統形式的人工智慧計算(例如GPU或CPU)一起使用的計算成本太高。

這是斯坦福大學醫學院計算機視覺專業的放射學研究團隊在他們的論文《奈米批次DPSGD:在IPU上探索具有較小批次尺寸的ImageNet上的差分隱私學習》[1](NanoBatch DPSGD: Exploring Differentially Private Learning on ImageNet with Low Batch Sizes on the IPU)中重點關注的領域。

由於計算需求,DPSGD通常應用於較小的資料集並對其進行分析。然而,斯坦福團隊能夠使用從公開可用的ImageNet資料集獲取的130萬張影象,在IPU系統上進行首次分析。在本文中,ImageNet被用作由私有資料組成的大型影象資料集的代理。這項工作可以幫助克服當前大規模部署差分隱私的障礙。

請繼續閱讀關於IPU使用成效的更多資訊。

4

使用Graphcore IPU加速奈米批次(NanoBatch)DPSGD

加速處理的常用方法是使用微批次,其中資料被聯合處理,聯合梯度被剪裁和扭曲,而不是基於單個樣本的梯度。雖然這會加速訓練,但分析表明,這會降低生成模型的預測質量以及生成的隱私保護指標,從根本上違背了其目的。事實上,使用微批次尺寸為1或“奈米批次”執行的實驗顯示出最高的準確度。

斯坦福大學將差分隱私AI模型訓練提速10倍,將用於新冠醫學影像


圖1:針對各種梯度累積計數進行100個時期的訓練後的分類準確率。我們比較了尺寸為1(“奈米批次”)和尺寸為2的微批次處理。有效批次尺寸等於微批次尺寸乘以梯度累積計數。相同的裁剪和噪聲比被用於不同的有效批次尺寸。因此,具有相同有效批次尺寸的條目具有相同的隱私保護保證。

奈米批次DPSGD不常用的一個主要原因是它大大降低了GPU的吞吐量,以至於在ImageNet上執行奈米批次DPSGD ResNet-50需要數日的時間。

相比之下,奈米批次DPSGD在IPU上非常高效,結果比在GPU上快8到11倍,把時間從幾天縮短到幾小時。對於IPU,由於IPU的MIMD架構和細粒度並行性可以實現高得多的處理效率,因此DPSGD所需的額外操作的計算開銷要低得多(10%而不是50-90%)。

此外,隱私保護和奈米批次DPSGD需要使用Group Norm(組規範)而不是Batch Norm(批次規範),這可以由IPU加以快速處理,但會顯著減慢GPU。Graphcore Research最近推出了一項新的歸一技術——Proxy Norm(代理規範),它恢復了Group Norm的批規範屬性,並提高了執行效率。這是一個頗有意思的未來探索方向。

斯坦福大學將差分隱私AI模型訓練提速10倍,將用於新冠醫學影像


表1:μBS=1時不同硬體之間的吞吐量比較。GPU上的DPSGD使用vmap和TensorFlow差分隱私庫。左側:上一代晶片。右側:最新一代晶片。

5

在6小時內在ImageNet上訓練奈米批次DPSGD

這些技術意味著ResNet-50可以在大約6小時內在IPU-POD16系統裡在ImageNet上訓練100個時期(相比之下,GPU需要數天)。達到了71%的準確率,比非私人基線低5%。由於噪聲的增加,因此這是預料之中的。雖然它比預期的要好,但仍然是未來研究的一個領域。

對於差分隱私,通常還報告epsilon和delta值。該論文顯示,對於10-6的delta,epsilon為11.4,這是一個很好的範圍。該團隊有一些關於如何進一步減少這種情況的想法,如透過更激進的學習率計劃來減少訓練時期的數量。

斯坦福大學將差分隱私AI模型訓練提速10倍,將用於新冠醫學影像


表2:具有不同總批次尺寸(tbs)和配置的ImageNet上的差分隱私結果(第100時期的最終ε和準確度)。持續時間以訓練100個時期所需的小時數來衡量。

這項研究為提高醫療和金融服務以及許多其他行業的應用程式的隱私保護提供了重要機會。在這些行業中,個人敏感資料的保護至關重要。

論文連結:https://arxiv.org/abs/2109.12191

斯坦福大學將差分隱私AI模型訓練提速10倍,將用於新冠醫學影像

分類: 親子
時間: 2021-11-01

相關文章

在家做寶寶餐|高湯彩蔬燴麻食,比買的更好吃

在家做寶寶餐|高湯彩蔬燴麻食,比買的更好吃
我小時候最愛吃的就是高湯燴麻食,如今自己有了兒子,也經常給他做這道美味. 少油少鹽並且營養豐富,是寶寶餐最好的選擇,大家也來試試吧! By Mrs_En 用料 西紅柿 2個 豆腐乾 一小塊 菠菜 1把 ...

別逼孩子喝白粥了,一口吃進10種營養,寶寶吃的湯汁都不剩

別逼孩子喝白粥了,一口吃進10種營養,寶寶吃的湯汁都不剩
開始新增輔食後,寶寶幾乎頓頓都是小米粥或者米糊.米湯的話,孩子們對進食的慾望肯定越來越小,給孩子做些不一樣的營養米粥吧.比如說用玉米碴做的營養粥,味道清甜可口. 今天介紹的米粥主要食材就是胚芽米和玉米 ...

秋季寶寶喝什麼湯好?三款兒童湯寶媽燉起來

秋季寶寶喝什麼湯好?三款兒童湯寶媽燉起來
秋天到了,合肥的四季在九月.十月都是隨機播放的.面對忽冷忽熱的天氣,孩子抵抗力差,很容易誘發呼吸道疾病.如何在這個季節給孩子溫養食補,是每個媽媽最關心的問題之一. 今天就給大家介紹幾款家常湯,讓孩子們 ...

娃吃一頓飯能把自己弄多髒?寶寶學吃飯,寶媽能省事的方法在這裡

娃吃一頓飯能把自己弄多髒?寶寶學吃飯,寶媽能省事的方法在這裡
文丨福林媽咪 娃學吃飯,能把自己搞多髒? 前兩天看到一位寶媽給孩子準備了綠色的蔬菜泥,餐椅放在衛生間裡,娃光著身子坐在餐椅上,渾身上下全是菜泥,簡直不能要了,這一幕媽媽看了很上頭,孩子卻開心地笑著. ...

寶寶長大了奶粉該怎麼喝?建議“該斷就斷”,既省錢又對娃身體好

寶寶長大了奶粉該怎麼喝?建議“該斷就斷”,既省錢又對娃身體好
解決寶寶餓肚子的問題,在娃出生的前幾月最簡單了.4~6個月以內的嬰兒,是完全吃母乳和奶粉的,不用擔心其他問題. 等到寶寶6個月以後,漸漸新增輔食,喝奶量也不如從前多了,喝奶模式也該做出調整 .但許多新 ...

寶寶的手指藏著“聰明密碼”,聰明寶爸寶媽早都在悄悄使勁···

寶寶的手指藏著“聰明密碼”,聰明寶爸寶媽早都在悄悄使勁···
"文/貝貝豆(原創文章,歡迎個人轉載分享)" 不知道寶爸寶媽們有沒有發現,自家寶寶在尚未學會張口說話前,就開始渴望和爸爸媽媽們進行溝通.這個過程中他們的表達方式,往往比較隱秘,需要 ...

應對秋燥!一日三餐都有湯可預防

應對秋燥!一日三餐都有湯可預防
秋季晝熱夜涼,氣候乾燥,人們極易出現口乾.唇乾.鼻幹.咽乾.大便乾結.面板乾裂等症狀,也就是典型的"秋燥".對於"秋燥"侵擾,不少人以為只是普通乾燥或上火,殊不 ...

美國死刑犯斷頭餐曝光:揭12位死囚“最後的晚餐”(2)
美國犯人斷頭餐:12位死刑犯"最後的晚餐" 泰德·邦迪(Ted Bundy)是臭名昭著的連環殺手.強姦犯和戀屍癖者.在1973-1978年間,他承認強姦並殺害了逾35名受害者,但實 ...

且聽風吟 靜觀雲居

且聽風吟 靜觀雲居
一個素雅的院子,一群知心的好友,可以開懷大笑,可以不顧形象的大鬧,遠離喧囂,放慢步履,享受一個悠閒的假期,這就是靜觀雲居給人的感覺. 市區以西80公里處,寧靜的張坊鎮西白岱村中的靜觀雲居,凝結著建立者 ...

給孩子喂完飯看見這一幕,瞬間不想吃了,“明知道還有人沒吃飯”

給孩子喂完飯看見這一幕,瞬間不想吃了,“明知道還有人沒吃飯”
文丨福林媽咪 以前有個朋友問過我一個問題:你們家有孩子後,都是怎麼吃飯的? 當時我不明白這個問題是什麼意思,吃飯就吃飯唄,還能怎麼吃. 然後她跟我說,她家孩子每次吃飯都是她喂,孩子吃完,其他人也都吃完 ...

味精會致癌,雞精健康?掌握4點,味精雞精都能健康吃

味精會致癌,雞精健康?掌握4點,味精雞精都能健康吃
第一次買味精是在三十多年前,那時候鄰居家的姐姐結婚,家裡的味精用完了,著急用味精就被臨時抓壯丁了.也就是在那個時候,才發現廚師炒菜的時候,味精是必不可少的調味品. 而對於雞精,則是隨著電視廣告而瞭解的 ...

2021/9/19APP STORE蘋果IOS限時免費APP

2021/9/19APP STORE蘋果IOS限時免費APP
關注我每日穩定更新. 所有限免APP下載均為免費,若顯示收費,不要下載說明限時免費已過.再請注意的是下載的時候認準APP圖示logo,不要下錯了. 1.PXL - mosaic art(原價¥12) ...

延時後一個老師的日記

延時後一個老師的日記
9月19日,在我意料之中,我病倒了.高度緊張的神經弦猛一下放鬆,病痛便出來了.頭痛乏力發冷,一番折騰後打針吃藥,今天好一點. 於是記錄一下延時服務的點滴. 9月6日,第一天手忙腳亂.擔心燙到,擔心吃涼 ...

能拉絲的乳酪早餐餅,煎一煎,5分鐘就可以上桌

能拉絲的乳酪早餐餅,煎一煎,5分鐘就可以上桌
做了那麼多的輔食.寶寶餐,我發現很多寶寶還是對圓圓的小餅比較感興趣.可是大早上沒有時間揉麵.發麵怎麼辦?我想到了用另一種食材--土豆來代替. 只要把土豆蒸熟搗成泥,再加些澱粉和牛奶攪拌均勻,就是很好的 ...

是食堂先動的手

是食堂先動的手
說到多姿多彩的大學生活 大家能想到啥? 學習.社團.寢室生活.甜美愛情? 相信一半的同學的答案都是: 吃! 作為合格的大學生 相信大家 已經對自家食堂 每一寸角落都瞭如指掌 輕輕一嗅 連食堂阿姨 今天 ...

美納多奶粉好不好丨“硬核”配方 為寶寶成長添動力

美納多奶粉好不好丨“硬核”配方 為寶寶成長添動力
有了寶寶以後,需要事事操心,大到教育,小到奶粉選擇.在挑選奶粉時,由於很多新手父母不知道如何判斷一款奶粉適不適合自家寶寶,只能盲目跟風購買,最終導致寶寶出現體質弱.營養不良等情況.要知道,一罐優質奶粉 ...

《挑戰古人100天》:古人會玩?今人焦慮?生活的真諦在哪裡?

《挑戰古人100天》:古人會玩?今人焦慮?生活的真諦在哪裡?
有報告顯示,早在2018年中國寵物(犬貓)消費市場規模就達到1708億,人均單隻年消費金額5016元,中國城鎮養寵使用者7355萬人,其中養狗.貓人數5648萬.2017年的時候,某寶雙十一活動的消費 ...

起床氣?早上哭鬧磨嘰不願意起床?

起床氣?早上哭鬧磨嘰不願意起床?
孩子起床氣哭鬧?能看這邊文章的你們都懂起床多重要咯.開心起床全天明媚,哭鬧起床氣?那簡直烏雲籠罩電閃雷鳴... 我先主要講幼兒園寶寶啊,畢竟大家都是早上雞飛狗- 第一:從起床到出門前這段時間至少預留半 ...

家有倆娃每餐都要準時做,四菜一湯安排好,孩子說要捏著鼻子吃飯

家有倆娃每餐都要準時做,四菜一湯安排好,孩子說要捏著鼻子吃飯
暑假還沒結束,媽媽還需繼續堅持,還有不到一週就能開學了,有多少全職媽媽在期待啊!這一個假期,媽媽們都沒閒著! 比如我家,家有倆娃,每餐都要準時做,還要有葷有素有湯喝,平時做飯都遷就她倆的口味,比較清淡 ...

寶寶一到夏天就“虛”?這道湯能開胃、止汗、長身體
夏季出汗多,有時稍微帶孩子出門一趟,回家之後,孩子就明顯沒精神,臉色不好,一個字總結,就是看起來特別"虛". 很多家長將"虛"歸咎為孩子不肯好好吃飯,尤其是看到 ...