轉自 AI科技評論
編譯 | 王曄
編輯 | 青暮
本文來自於《 nature machine intelligence》。作者Rohan Shad是Hiesinger實驗室心胸外科系博士後研究員。他和團隊為心血管成像(超聲心動圖和心臟 MRI)構建新型計算機視覺系統,並且使用轉錄組學和蛋白質設計研究心臟病的潛在機制,為嚴重心力衰竭患者設計裝置。
文中探討了高維臨床影像資料所面臨的特有挑戰,並強調了開發機器學習系統所涉及的一些技術和倫理方面的考慮,更好地體現了影像模式的高維性質。此外,他們認為嘗試解決可解釋性、不確定性和偏見的方法應被視為所有臨床機器學習系統的核心組成部分。
原文連結:https://www.nature.com/articles/s42256-021-00399-8
2018年,美國國家衛生研究院確定將人工智慧納入醫學成像未來發展的重點領域,並且為影象採集、演算法、資料標準化和可轉化的臨床決策支援系統的研究制定了基礎路線。
報告中提到,儘管資料的可用性、對新型計算架構的需求和可解釋的人工智慧演算法等在過去幾年已經取得了巨大的進展,但目前仍然是一個關鍵性問題。
此外,在早期的開發過程中,還必須考慮到資料共享的轉化目標、為監管部門批准而進行的效能驗證、可推廣性以及減輕無意的偏見等問題。
1 主旨
算力的提高、深度學習架構和專家標記資料集的進步刺激了醫學影像人工智慧(AI)系統的發展。
然而,應用人工智慧系統來協助完成臨床任務是非常具有挑戰性的。機器學習演算法的目的是減少臨床推斷所需的時間。但在臨床中進行應用,有可能無意中會延誤患者的治療。當離開可控制的實驗室環境時,人工智慧系統的終端使用者必須能夠控制輸入質量,並且能夠解決網路延遲等問題,設計出將這些系統整合到既定臨床實踐中的方法。
早期對可轉換的臨床機器學習的嘗試表明,設計的系統要在既定的臨床工作流程中正常工作,就必須要在演算法開發之初就做出大量的整合努力。因為在未來部署該系統時,迭代的機會非常有限。
隨著開源機器學習軟體庫的日益增多和計算機效能的不斷進步,研究人員越來越容易開發出複雜的針對特定臨床問題的人工智慧系統。除了檢測疾病診斷的特徵外,下一代人工智慧系統必須考慮訓練資料的系統偏見,更為直觀地提醒終端使用者預測中固有的不確定性,並允許使用者能夠探索和解釋預測的機制。
該觀點以這些關鍵的優先領域為基礎,以加速醫學領域的基礎人工智慧研究。我們概述了資料集的細微差別和高維醫學成像機器學習的具體架構注意事項,同時討論了這些系統的可解釋性、不確定性和偏差。在此過程中,我們為有興趣解決構建臨床可翻譯 AI 系統,所帶來的一些問題和挑戰的研究人員提供了一個模板。
2 高維醫學影像資料
我們預計,在可預見的未來,可用的高質量 "AI-ready "註釋的醫學資料集將仍然不能滿足需求。回過頭來分配臨床事實標籤需要臨床專家投入大量的時間,而且將多機構的資料彙總起來公開發布也存在很大的障礙。除了需要以在硬放射學真實標籤上訓練的模型為特徵的“診斷人工智慧”之外,還需要根據潛在的更復雜的臨床綜合結果目標訓練的 "疾病預測人工智慧 "。具有標準化的影象採集協議和臨床基本事實裁決的前瞻性資料收集,是構建具有配對臨床結果的大規模多中心成像資料集的必要步驟。
大規模的多中心成像資料集會產生許多隱私和責任問題,這些問題與檔案中嵌入的潛在敏感資料有關。醫學數字成像和通訊(DICOM)標準普遍被用來捕獲、儲存和提供醫學影象的工作流程管理。成像檔案(以.dcm檔案或巢狀資料夾結構的形式儲存)包含畫素資料和相關元資料。眾多的開源和專有工具可以幫助對 DICOM 檔案進行去識別化。後端醫院資訊學框架,如Google Healthcare API,是一種清除可能包含敏感資訊的元資料域的方法,也透過 "安全列表 "支援DICOM去標識化。
在面向使用者方面,MIRC 臨床試驗處理器匿名器是一種流行的替代方法,儘管它需要使用某些遺留軟體。有據可查的Python軟體包(如pydicom)也可用於在使用或轉給合作機構之前處理DICOM檔案。然後可以提取成像資料並以各種機器可讀格式儲存。這些資料集可以迅速變得龐大且笨拙,雖然資料儲存格式的細節超出了本觀點的討論範圍,但醫學成像 AI 的一個關鍵考慮因素是影象解析度的保留。
自動去識別方法或指令碼經常被提及的一個缺點是受保護的健康資訊有可能被 "燒錄 "在影像檔案中。儘管有DICOM標準,但製造商的不同,使得難以透過 MIRC 臨床試驗處理器等工具來生成簡單的規則,以遮蔽可能位於受保護健康資訊的區域。我們建議使用一個簡單的機器學習系統來遮蔽 "燒錄 "的受保護健康資訊。
以超聲心動圖為例,有一個預定義的掃描區域,在那裡可以看到心臟。其他潛在的選擇是基於機器學習的光學字元識別工具,以識別和遮蔽有印刷文字的區域。DICOM標籤本身可用於提取掃描級資訊和特定模式的標籤。例如,在超聲心動圖和心臟磁共振成像 (MRI) 的情況下,可以輕鬆地從 DICOM 元資料中提取重要的掃描級別資訊,例如採集幀速率和日期或 MRI 序列 (T1/T2)。
圖1:基於雲的協作式註釋工作流程。基於雲的工具可用於生成專家註釋資料集,並透過安全連線與臨床專家進行評估。圖為MD.ai的一個實施方案,其中臨床專家進行各種 2D 檢測以測評心臟功能。
對於涉及人工智慧系統與臨床醫生進行正面基準測試的研究工作,或在臨床註釋者的幫助下策劃大型資料集,我們建議以DICOM格式儲存掃描的副本。這樣就可以透過可擴充套件和易於使用的雲端註釋工具進行部署。目前有幾種解決方案用於分配掃描資料供臨床專家評估。要求的範圍可能從簡單的掃描級標籤到詳細的特定領域的解剖學分割掩碼。在我們的機構,我們部署了MD.ai (New York, New York),這是一個基於雲的註釋系統,可原生處理儲存在機構批准的雲端儲存提供商(谷歌雲端儲存或亞馬遜 AWS)上的 DICOM 檔案。替代品提供類似的功能,如ePadLite(Stanford, California),它可以免費使用。
基於雲的註釋方法的另一個優勢是,掃描可以保持原始的解析度和質量,實時協作模擬 "基於團隊 "的臨床決策,註釋和標籤可以很容易地匯出用於下游分析。最重要的是,其中許多工具都可以用任何網路瀏覽器遠端訪問,並且極易操作,極大地提高了使用者體驗並減輕了臨床合作者的技術負擔。
最後,較新的機器學習訓練正規化,如聯邦學習,可能有助於規避許多與資料共享相關的障礙。Kaissis等人審查了聯邦學習的原則、安全風險和實施挑戰。這種方法的主要特點是在每個機構都訓練本地演算法副本,唯一共享的資訊是神經網路在訓練過程中學習到的特徵。在預定的時間間隔內,從每個機構的演算法中學到的資訊(訓練的權重)被集中起來並重新分配,高效地從一個大型的多中心資料集中學習,而不需要傳輸或分享任何醫學成像資料。這有助於快速訓練演算法,從胸部計算機斷層掃描中檢測COVID-19的特徵。
儘管在醫學成像領域已經有了聯合學習的成功示範,但在將這些方法用於常規臨床使用時,仍然存在大量技術挑戰。特別是在高維成像機器學習系統的背景下,從多個參與中心傳輸和更新訓練的權重而引入的網路延遲,成為訓練更大神經網路的基本速率限制步驟。研究人員還必須確保訓練後的權重在參與機構之間的傳輸是安全和加密的,這進一步增加了網路延遲。此外,在設計研究時,如果不能訪問源資料,策劃資料集的質量和一致性可能極具挑戰性。許多概念上類似的聯合學習框架仍然假定對源資料有一定程度的訪問。
3 計算架構
現代臨床機器學習中使用的神經網路架構,主要來自於那些針對大型照片或影片識別任務28進行最佳化的架構。即使在細粒度分類的其他挑戰性任務中,這些架構也非常穩健,其中類具有微妙的類內差異(狗的品種),而不是具有高類間差異的明顯不同物件(飛機與狗)。透過對大型資料集(例如ImageNet)進行充分的預訓練,這些 "現成 "架構的效能優於為其量身定做的細粒度分類器。其中許多架構可用於流行的機器學習框架,如TensorFlow和Pytorch。最重要的是,這些框架通常為各種不同的神經網路架構提供ImageNet預訓練權重,使研究人員能夠迅速將它們重新用於專門的醫學成像任務。
不幸的是,絕大多數的臨床成像方式都不是簡單的靜態 "影象"。例如,超聲心動圖是一種心臟的二維(2D)超聲影像。這些 "影片 "可以從多個不同的視角拍攝,從而可以對心臟進行更全面的評估。CT和MRI掃描可以被認為是一堆二維影象,必須按影象順序進行分析,否則醫生有可能錯過器官之間沿某一軸線的有價值的關係。
因此,這些 "成像 "模式更類似於影片。將其作為影象拆開分析,可能會導致空間或時間背景的丟失。例如,將影片每一幀作為獨立的影象進行分析處理,會導致每一幀影片之間時間資訊的丟失。在利用超聲心動圖、CT和MRI掃描的各種任務中,基於影片的神經網路演算法比其 2D 演算法有相當大的改進,但整合多個不同的檢視平面帶來了額外的維度,很難將其納入當前框架。
與廣泛的基於影象的預訓練網路庫不同,對影片演算法的支援仍然有限。對部署新架構感興趣的研究人員可能需要自己在大型公開的影片資料集(如Kinetics和UCF101(中佛羅里達大學101--動作識別資料集))上執行預訓練步驟。此外,影片網路的訓練計算成本可能要高几個數量級。雖然使用大型自然景物資料集進行預訓練是開發臨床成像機器學習系統的一個公認的策略,但不能保證效能的提升。關於預訓練的效能改進的報告很常見,特別是在使用較小的資料集時,但隨著訓練資料集的增加,其優勢會逐漸減少。
在2018年美國國家衛生研究院的路線圖中,缺乏特定於醫學成像的架構被認為是一項關鍵挑戰。我們進一步延伸,提出訓練這些架構的方法,對這些系統將轉化為現實方面發揮著重要作用。我們認為,下一代的高維醫學成像AI 將需要對更豐富、更有背景意義的目標進行訓練,而不是簡單的分類標籤。
如今,大多數醫學成像 AI 系統專注於從正常背景下診斷少數疾病。典型的方法是在訓練這些演算法時分配一個數字標籤(疾病:1;正常:0)。這與臨床受訓人員學習從成像掃描中診斷不同的疾病的方式有很大不同。為了提供更多的 "醫學知識",而不是簡單地對自然影象或影片進行預訓練,Taleb等人提出了一系列使用大型無標籤醫學成像資料集的新型自我監督預訓練技術,旨在協助開發基於3D醫學成像的人工智慧系統。
神經網路首先透過執行一組 "代理任務 "來學習 "描述 "作為輸入的成像掃描。例如,透過讓網路像拼圖一樣 "重新組合 "輸入的掃描資料,它們可以被訓練成 "理解 "在各種病理和生理狀態下哪些解剖結構是相互一致的。將成像掃描的資料與放射學報告配對是另一個有趣的策略,基於胸部X射線的人工智慧系統取得了相當大的成功。
本著提供更細微的臨床背景並將更多的 "知識 "嵌入神經網路的精神,報告中的文字透過最先進的自然語言機器學習演算法進行處理,隨後訓練視覺網路,以更好地理解讓各種疾病 "不同"的原因。然而,最重要的是,他們表明使用這種方法可以將特定下游分類任務的標記資料量減少多達兩個數量級。因此,未標記的成像研究,無論是單獨的還是結合成對的文字報告,都可以作為有效預訓練的基礎。隨後,對較小的高質量基礎實況資料樣本進行微調,以完成特定的監督學習任務。
儘管這些步驟有助於調整現有的神經網路架構,使其適用於醫學成像,但為特定任務設計新的架構需要專業知識。模型架構類似於大腦,而訓練後的權重(訓練中最佳化的數學函式)類似於思維。進化搜尋演算法的進展利用機器學習方法來發現為特定任務定製的新架構,從而產生比人類構建的架構更高效和更高效能的架構。這些都為成像模式特定架構的發展提供了一個獨特的契機。
訓練深度學習演算法依靠圖形處理單元(GPU)來執行大規模的並行矩陣乘法運算。雲計算 "隨用隨付 "的GPU資源和具有高記憶體容量的消費級GPU的可用性,都有助於降低對開發醫學成像機器學習系統感興趣的研究人員的准入門檻。儘管有了這些進展,但在大型影片資料集上訓練複雜的現代網路架構需要多個GPU連續執行數週。
臨床研究小組應該注意,雖然在相對便宜的計算機上訓練單一模型可能是可行的,但要找到最佳效能的正確設定組合,幾乎總是需要使用專門的硬體和計算叢集來在合理的時間範圍內返回結果。強大的抽象層(例如,Pytorch Lightning)還允許研究小組建立內部標準,以模組化的形式構建其程式碼。採用這樣的模組化方法,神經網路架構和資料集可以很容易地被替換,有助於快速將過去為臨床成像模式設計的系統重新用於新的用例。這種方法也有助於透過以新的方式整合子元件來擴充套件這些系統的功能。
4 時間-事件分析和不確定性量化
隨著醫療人工智慧系統從 "診斷 "轉向更多的 "預後 "應用,時間到事件的預測(而不是簡單的二進位制預測)將在臨床環境中發現更多的相關性。時間-事件分析的特點是能夠預測作為時間函式的事件機率,而二分類器只能提供一個預定時間的預測。與二元分類器不同的是,時間-事件分析考慮到了資料的刪減,以考慮到那些失去隨訪或在觀察時間範圍內沒有經歷相關事件的人。生存分析在臨床研究中很常見,也是制定循證實踐指南的核心。
用基於影象和影片的機器學習來擴充套件傳統的生存模型,可以對組織切片或醫學成像掃描中的特徵的預後價值提供強有力的洞察力。例如,將Cox比例損失函式的擴充套件整合到傳統的神經網路架構中,使得僅從組織病理學切片中預測癌症結果成為可能。我們不主張使用此類視覺網路來規定如何進行護理,而是主張將其用作標記臨床醫生遺漏晚期惡性腫瘤特徵的病例的方法。
納入時間-事件分析在臨床上將越來越重要,因為在疾病不穩定或早期階段具有的可檢測特徵,在一定時間後可能會迅速發展。
例如,可診斷為黃斑變性的視網膜特徵往往需要數年時間才能表現出來。具有初期疾病特徵的患者可能會被標記為“正常”,這讓神經網路試圖預測未來發生黃斑變性併發症的風險。納入生存和審查的概念可能有助於訓練系統更好地將正常人與那些輕度、中度和正在快速發展中的疾病個體分開。同樣,訓練視覺網路進行時間-事件分析可能會在用於肺癌篩查,有助於根據預期的侵略性擴散潛力進行風險分層。這種轉化工作的關鍵是要有強大的、經過充分驗證的Cox迴歸的深度學習擴充套件。在過去的幾年裡,已經描述了大量Cox模型的深度學習實現。Kvamme等人提出了一系列的Cox模型的比例和非比例擴充套件,過去還描述了更多的生存方法的實現,如DeepSurv和DeepHit46(圖2)。
圖 2:量化機器學習輸出中的不確定性。
正如 Sensoy 等人所描述的那樣,即使在不正確的情況下,使用標準方法訓練的機器學習模型也可以非常自信。左圖:當一個數字被旋轉180°時,系統自信地分配了一個從 "1 "到 "7 "的標籤。右圖:然而,用考慮分類不確定性的方法,系統會分配一個不確定性分數,可以幫助提醒臨床醫生潛在的錯誤預測。
然而,從可操作的角度來看,時間-事件預測可能存在問題。在肺癌篩查的假設示例中,胸部計算機斷層掃描中的可疑結節可能會產生一個預測,即在有或沒有適當的治療干預的情況下的中位生存率。
對臨床醫生來說,瞭解機器學習系統對個體病人的預測的有多大的把握可能是很有意思的。當對一項任務沒有把握時,人類往往會謹慎行事。機器學習系統也反映了這一點,其中輸出是 0 到 1 範圍內的“類別機率”或“正確的可能性”。然而,目前文獻中描述的大多數醫學影像機器學習系統,當提供給模型的輸入資料超出分佈範圍時,缺乏說 "我不知道 "的隱含能力。例如,即使輸入影象是貓的影象,訓練用於從計算機斷層掃描(例如)預測肺炎的分類器在設計上也被強制提供輸出(肺炎或非肺炎)。
在他們關於深度學習中的不確定性量化的論文中,Sensoy等人用一系列的損失函式來解決這些問題,這些損失函式分配了一個 "不確定性分數",以此來避免錯誤的、但有把握的預測。在專案的轉化階段,當人工智慧系統被部署在與人類使用者一起工作的環境中時,不確定性量化的好處就出現了。信心度量是AlphaFold2的一個關鍵因素,該蛋白質摺疊機器學習系統在第14屆蛋白質結構預測關鍵評估(CASP14)挑戰中取得了無與倫比的準確性,給DeepMind研究團隊提供了一種方法來衡量他們應該對正在生成的預測給予多大的信任。許多不確定性量化方法的實現都是在許可的情況下進行的,並且與常用的機器學習框架相容。納入不確定性量化可能有助於提高高風險的醫學成像機器學習系統的可解釋性和可靠性,並減少自動化偏差的可能性。
5 可解釋性人工智慧和傷害風險
除了量化某些機器學習系統的預測效果外,對於構建這些系統的工程師和使用它們的臨床醫生來說,他們更感興趣的是瞭解這些機器學習系統是如何得出結論的。顯著性圖和類啟用圖實際上仍然是解釋機器學習演算法如何進行預測的標準。
Adebayo等人最近的研究表明,僅僅依靠顯著性圖的視覺外觀可能會產生誤導,即使乍一看它們與背景相關。在一系列廣泛的測試中,他們發現,許多流行的生成事後顯著性圖的方法並沒有從模型權重中獲得真正的意義,而是與 "邊緣檢測器"(簡單對映畫素強度之間的尖銳過渡區域的演算法)沒有區別。此外,即使這些視覺化方法奏效,除了機器學習演算法正在尋找的 "位置 "之外,也幾乎無法破譯。在很多示例中,無論是正確還是錯誤的顯著性圖看起來幾乎是一樣的。當 "患病 "狀態和 "正常 "狀態之間的差異需要關注影象或影片的同一區域時,這些缺點就更加明顯了。
圖3:事後模型解釋的誤導性。
a, Adebayo等人用MNIST資料集的真實標籤訓練的模型(上)和隨機噪聲訓練的模型(下)進行的實驗。當透過大多數視覺化方法進行評估時,在隨機噪聲上訓練的模型仍然產生圓形形狀。b,超聲心動圖檢視平面的檢測:錯誤的分類(左上)和正確的分類(右上)都產生類似的顯著性圖(下)。
臨床醫生應該注意,僅靠熱圖不足以解釋 AI 系統的功能。在嘗試用如上圖所示的視覺化方法來識別故障模式時,必須謹慎。一個更精細的方法可能涉及到連續遮擋測試,即在有意掩蓋臨床醫生用來進行診斷或預測的區域後,評估影象的效能。這個想法非常直觀:在已知對診斷某種疾病很重要的區域被遮蔽的影象上執行演算法,例如,在試圖診斷心力衰竭時遮蔽左心室,應該可以看到效能的急劇下降。
這有助於確認人工智慧系統正在關注相關領域。特別是在高維醫學成像研究的背景下,啟用圖可能為影片類成像研究的某些時間階段的相對重要性提供獨特的見解。例如,某些疾病可能在心臟收縮時表現出病理特徵,而對於其他疾病可能需要人們關注心臟放鬆時的情況。通常這樣的實驗可能表明,機器學習系統從臨床醫生傳統上不會使用的影象區域中識別出潛在的資訊特徵。除了收集關於這些機器學習系統如何產生其輸出的資訊外,嚴格的視覺化實驗可能提供一個獨特的機會,可以從被評估的機器學習系統中學習生物學的見解。
另一方面,啟用與臨床上已知的重要區域的偏差可能預示著網路正在學習非特異性的特徵,使它們不太可能很好地歸納到其他資料集。
機器學習系統學習的特徵可能取決於架構的設計。更重要的是,機器學習系統會根據提供給它的訓練資料和目標來學習和延續系統性的不平等。隨著醫療保健人工智慧系統不斷向未來的疾病預測發展,必須更加謹慎地考慮到這些群體在獲得醫療保健和結果方面的巨大差異。
在最近的評論中,Chen等人深入概述了從問題選擇到部署後階段的潛在偏差來源。在這裡,我們重點討論機器學習系統開發早期的潛在解決方案。一些人主張用一些方法來解釋現代機器學習系統的其他 "黑箱 "預測,而其他人則主張一開始就限制使用更可解釋的模型。除了在訓練整個 AI 系統時結合結構化資料的輸入之外,中間方法還涉及使用黑盒模型訓練醫學成像神經網路。
這可以透過建立 "融合網路 "來實現,其中表格資料被合併到基於影象或影片的神經網路中,或其他具有相同基本目標的更先進的方法(生成組合資料的低維表示的自動編碼器)。即使沒有將人口統計學輸入納入高維視覺網路,研究小組透過比較不同性別、種族、地域和收入群體的表現來稽核他們的模型也很重要。
機器學習系統可能會無意中學會進一步延續和歧視少數民族和有色人種,因此在模型開發過程的早期瞭解這種偏見是至關重要的。對機器學習系統的信任對於更廣泛的採用至關重要,正如探索特定的特徵或變數如何以及為什麼會導致預測一樣,透過結合顯著性圖和估計特徵重要性的模型無關的方法。
另一種方法是在訓練邏輯中限制機器學習演算法,確保發生最佳化步驟以控制感興趣的人口統計學變數。這類似於多變量回歸模型,其中感興趣的風險因素的影響可以獨立於基線人口統計學變數來研究。從技術角度看,這將涉及到在訓練迴圈中插入一個額外的懲罰性損失,並牢記與稍低的模型效能的潛在權衡。例如,Fairlearn 是用於評估傳統機器學習模型公平性的流行工具包,並且已經開發了基於 Fairlearn 演算法 (FairTorch) 的約束最佳化,這是在訓練過程中整合偏差調整的有希望的探索性嘗試。有許多開源工具包可以幫助研究人員確定不同變數和輸入流(影象預測,以及諸如性別和種族等變數)的相對重要性。這些技術可能允許開發更公平的機器學習系統,甚至可以發現沒有預料到的隱藏偏見。
6 總結
儘管計算架構和獲取高質量資料是構建良好模型的關鍵,但為高維成像模式開發可轉換的機器學習系統方面還需要努力,以更好地代表資料的 "影片 "性質。此外還需要在模型開發的早期階段建立有助於解決偏見、不確定性和可解釋性的功能。對醫學成像和人工智慧的質疑是有益的,而且在大多數情況下具有一定道理。
我們希望,透過建立允許研究人員評估臨床表現、醫院工作流程中的整合、與臨床醫生的互動以及社會人口傷害的下游風險的功能,可以在改善人工智慧的交付方面邁出有意義的步伐。我們希望研究人員會發現這個觀點很有用,因為它概述了在臨床部署方面等待他們的潛在挑戰,並且在解決其中一些問題時可以發揮指導性意義。