更快、更早地診斷疾病、開發定製化藥物和研製新藥:人工智慧在醫療領域具有巨大的潛力,可以顯著改善患者的治療效果、挽救生命,並幫助全球人類保持健康和延長壽命。
進步正在迅速發生,並且已經產生了重大影響。這反過來又對用於訓練人工智慧模型的患者敏感資料的隱私性和安全性提出了新的挑戰。誠然,公眾、醫學界和政府層面對這個問題的討論越來越多,但我們顯然還需要研究改進人工智慧技術,從而更好地保護資料隱私。
目前,斯坦福大學醫學院(Stanford University School of Medicine)的研究人員在差分隱私(一種保護敏感資料的關鍵方法)的使用方面取得了重大突破。透過使用Graphcore IPU,斯坦福團隊能夠將具有差分隱私的人工智慧訓練速度提高10倍以上,將這項被認為計算難度過大而無法廣泛使用的技術轉變為現實世界的可行解決方案。
在使用非隱私敏感訓練資料證明其應用後,斯坦福團隊透過與Graphcore合作,正計劃將其技術應用於新型冠狀病毒肺炎的胸部CT影象,旨在揭示關於繼續在全球影響人們正常生活的這個病毒的全新見解。
1 醫療人工智慧中的資料隱私:挑戰
在人工智慧中使用敏感的個人資料會帶來諸多挑戰,但最重要的兩個挑戰是維護資料主權和防止識別個人。兩種情況均有可用的、精良的技術解決方案,而斯坦福大學的研究使這兩種解決方案更加可行。
2
算力:聯邦學習(Federated Learning)
使用來自代表全球不同人群的多個機構和提供者持有的資料集的大量且多元患者資料進行訓練的模型更強大,更不容易出現某些型別的偏見,最終更加有用。
標準機器學習方法需要集中整理資料以進行校勘。即使嘗試透過刪除患者的識別資訊來匿名化資料,將這些資訊傳遞給第三方研究機構和組織的需求也被證明是一個重大問題。事實上,要求監管、以將患者資料保留在獲取資料的管轄範圍內的呼聲日益高漲。
聯邦學習可以提供部分答案,因為它允許人工智慧模型在匿名患者資料上進行訓練,而無需將這些資料集中起來。相反,開發中的模型被髮送出去,並在本地資料上進行訓練。
雖然聯邦學習是一項有價值的技術,但最近的研究突顯出一個問題,即透過從經過充分訓練的模型推理資料,潛在地將其與個人聯絡起來或恢復原始資料集來重新識別匿名健康資訊的能力會帶來隱私漏洞。
出於這個原因,聯邦學習的使用也依賴於推進差分隱私的應用。
3 差分隱私
透過訓練聯邦學習模型,差分隱私使敏感資料的保護更進一步,沒有人可以從中推理出訓練資料或恢復原始資料集。
差分隱私隨機梯度下降(簡稱DPSGD)透過剪裁和扭曲單個訓練資料項的梯度,向匿名患者資料新增噪聲。增加的噪聲意味著對手不太可能發現所使用的個體患者資料或恢復用於訓練模型的原始資料集。
差分隱私隨機梯度下降(DPSGD)雖然明顯益於保護敏感資料,但它仍是一個欠缺研究的領域,直到現在還沒有應用於大型資料集,因為它與傳統形式的人工智慧計算(例如GPU或CPU)一起使用的計算成本太高。
這是斯坦福大學醫學院計算機視覺專業的放射學研究團隊在他們的論文《奈米批次DPSGD:在IPU上探索具有較小批次尺寸的ImageNet上的差分隱私學習》[1](NanoBatch DPSGD: Exploring Differentially Private Learning on ImageNet with Low Batch Sizes on the IPU)中重點關注的領域。
由於計算需求,DPSGD通常應用於較小的資料集並對其進行分析。然而,斯坦福團隊能夠使用從公開可用的ImageNet資料集獲取的130萬張影象,在IPU系統上進行首次分析。在本文中,ImageNet被用作由私有資料組成的大型影象資料集的代理。這項工作可以幫助克服當前大規模部署差分隱私的障礙。
請繼續閱讀關於IPU使用成效的更多資訊。
4
使用Graphcore IPU加速奈米批次(NanoBatch)DPSGD
加速處理的常用方法是使用微批次,其中資料被聯合處理,聯合梯度被剪裁和扭曲,而不是基於單個樣本的梯度。雖然這會加速訓練,但分析表明,這會降低生成模型的預測質量以及生成的隱私保護指標,從根本上違背了其目的。事實上,使用微批次尺寸為1或“奈米批次”執行的實驗顯示出最高的準確度。
圖1:針對各種梯度累積計數進行100個時期的訓練後的分類準確率。我們比較了尺寸為1(“奈米批次”)和尺寸為2的微批次處理。有效批次尺寸等於微批次尺寸乘以梯度累積計數。相同的裁剪和噪聲比被用於不同的有效批次尺寸。因此,具有相同有效批次尺寸的條目具有相同的隱私保護保證。
奈米批次DPSGD不常用的一個主要原因是它大大降低了GPU的吞吐量,以至於在ImageNet上執行奈米批次DPSGD ResNet-50需要數日的時間。
相比之下,奈米批次DPSGD在IPU上非常高效,結果比在GPU上快8到11倍,把時間從幾天縮短到幾小時。對於IPU,由於IPU的MIMD架構和細粒度並行性可以實現高得多的處理效率,因此DPSGD所需的額外操作的計算開銷要低得多(10%而不是50-90%)。
此外,隱私保護和奈米批次DPSGD需要使用Group Norm(組規範)而不是Batch Norm(批次規範),這可以由IPU加以快速處理,但會顯著減慢GPU。Graphcore Research最近推出了一項新的歸一技術——Proxy Norm(代理規範),它恢復了Group Norm的批規範屬性,並提高了執行效率。這是一個頗有意思的未來探索方向。
表1:μBS=1時不同硬體之間的吞吐量比較。GPU上的DPSGD使用vmap和TensorFlow差分隱私庫。左側:上一代晶片。右側:最新一代晶片。
5
在6小時內在ImageNet上訓練奈米批次DPSGD
這些技術意味著ResNet-50可以在大約6小時內在IPU-POD16系統裡在ImageNet上訓練100個時期(相比之下,GPU需要數天)。達到了71%的準確率,比非私人基線低5%。由於噪聲的增加,因此這是預料之中的。雖然它比預期的要好,但仍然是未來研究的一個領域。
對於差分隱私,通常還報告epsilon和delta值。該論文顯示,對於10-6的delta,epsilon為11.4,這是一個很好的範圍。該團隊有一些關於如何進一步減少這種情況的想法,如透過更激進的學習率計劃來減少訓練時期的數量。
表2:具有不同總批次尺寸(tbs)和配置的ImageNet上的差分隱私結果(第100時期的最終ε和準確度)。持續時間以訓練100個時期所需的小時數來衡量。
這項研究為提高醫療和金融服務以及許多其他行業的應用程式的隱私保護提供了重要機會。在這些行業中,個人敏感資料的保護至關重要。
論文連結:https://arxiv.org/abs/2109.12191