以下文章來源於TensorFlow ,作者TensorFlow
釋出人:Google Health 軟體工程師 Zaid Nabulsi 和 Po-Hsuan Cameron Chen
在醫學成像中應用機器學習 (ML),為改善胸部 X 光 (CXR) 影象解讀的可用性、延遲時間、準確率和一致性提供了絕佳的機會。事實上,我們已經開發了大量的演算法來檢測如肺癌、肺結核和氣胸等特定疾病。
然而,由於這些演算法是被訓練用於檢測特定疾病,其在普遍臨床環境下的實用性可能會受到限制,因為這種環境下可能會出現各種各樣的異常情況。
例如,我們無法透過氣胸檢測演算法發現癌症結節,而肺結核檢測演算法可能也無法識別肺炎特有的症狀。由於初始分診步驟是確定 CXR 是否包含相關的異常,如果能使用一種通用演算法,以識別包含任何異常情況的 X 光影象,即可大大簡化工作流。然而,由於在 CXR 上出現的異常情況種類繁多,開發能識別所有異常情況的分類演算法可謂充滿挑戰。
我們發表於《科學報告》的“深度學習用於區分正常和異常胸部放射照片,並泛化到兩種未知疾病:結核病與新冠肺炎 (Deep Learning for Distinguishing Normal versus Abnormal Chest Radiographs and Generalization to Two Unseen Diseases Tuberculosis and COVID-19)”一文中提出了一個模型,該模型可以在多個去識別化的資料集和環境中區分正常和異常的 CXR。
我們發現,該模型在檢測一般的異常情況以及結核病和新冠肺炎等未知病例方面表現良好。我們還針對公開可用的 ChestX-ray14 資料集釋出了本研究中用到的測試集的放射科醫生標籤集[1]。
- 深度學習用於區分正常和異常胸部放射照片,並泛化到兩種未知疾病:結核病與新冠肺炎
https://www.nature.com/articles/s41598-021-93967-2
用於檢測異常的胸部 X 光影象
的深度學習系統
我們使用基於 EfficientNet-B7 架構的深度學習系統,且在 ImageNet 上進行了預訓練。我們使用來自印度阿波羅醫院的 20 多萬張去識別化 CXR 來訓練該模型。透過使用基於正則表示式的自然語言處理方法,我們在相關的放射學報告中為每張 CXR 分配“正常”或“異常”標籤。
- EfficientNet-B7
https://github.com/tensorflow/tpu/tree/r1.15/models/official/efficientnet - ImageNet
https://arxiv.google.cn/abs/1409.0575
為評估該系統在新問診者群體中的普及程度,我們在兩個由大量異常情況組成的資料集中比較了其效能:阿波羅醫院資料集的測試分塊 (DS-1),以及公開可用的 ChestX-ray14 (CXR-14)。一群獲美國職業認證的放射科醫生為此專案對兩個測試集的標籤進行了註釋。該系統在 DS-1 和 CXR-14 上的接收者操作特徵曲線下面積 (Receiver operating characteristic) (AUROC) 分別達到了 0.87 和 0.94(數字越高越好)。
儘管對 DS-1 和 CXR-14 的評估中包含多種異常情況,不過出現的用例可能是在全新或未知的環境(未知疾病)中利用這樣的異常檢測演算法。為評估該系統對新問診者群體和訓練集中未知疾病的通用性,我們使用了來自三個國家(地區)的四個去識別化資料集,包括兩個公開可用的結核病資料集和兩個來自 Northwestern Medicine 的新冠肺炎資料集。該系統在檢測結核病時曲線下面積達到了 0.95 至 0.97;在檢測新冠肺炎時曲線下面積達到了 0.65 至 0.68。由於對這些疾病呈現陰性的 CXR 仍可能包含其他相關異常情況,我們進一步對該系統檢測異常(而不是檢測疾病為陽性或陰性)的能力進行評估,發現結核病資料集的曲線下面積為 0.91 至 0.93,新冠肺炎資料集的曲線下面積為 0.86。
多重評估(異常檢測和疾病檢測)的目的是區分二者:指定疾病可能會出現(或不出現)某種異常;而某種異常可能由多種疾病導致。我們在研究中對兩者進行了評估
檢測新冠肺炎的表現大幅下降是因為許多被系統標記為“陽性”的異常病例對於新冠肺炎來說呈現陰性,但仍需要注意,其中可能包含異常 CXR 結果。這進一步突顯了異常檢測演算法的作用,尤其是在特定疾病模型可用的情況下。
此外需要注意的是,泛化到未知疾病(即結核病和新冠肺炎)和泛化到未知 CXR 結果(例如胸腔積液 、實變 /浸潤)之間存在差別。在此項研究中,我們證明了該系統在檢測未知疾病方面的通用性,但對於未知 CXR 結果則不具有通用性。
胸部 X 光片的真假陽性及真假陰性樣本,(A) 代表一般異常情況,(B) 代表結核病,(C) 代表新冠肺炎。在每張 CXR 上,我們用紅色勾勒出模型重點識別為異常的區域(即類啟用圖),並用黃色勾勒出放射科醫生指出的興趣區域
- 類啟用圖
https://arxiv.google.cn/abs/1610.02391
臨床方面的潛在優勢
為了解深度學習模型在改善臨床工作流方面的潛在實用性,我們模擬了在病例優先順序方面該模型的應用,即“加急”異常病例,並將其放置在正常病例之前。在上述模擬操作中,系統將異常病例的週轉時間減少了 28%。透過這種設定,我們可以重新確定優先順序,將複雜的異常病例轉交給心胸專科放射科醫生,從而對可能需要緊急決策的病例進行快速分類,並有機會透過簡化審查的方式對陰性 CXR 進行批次審查。
模擬基於深度學習模型優先順序排序所帶來的影響(與隨機審查順序對比):(A) 代表一般異常情況,(B) 代表結核病,(C) 代表新冠肺炎。紅條中異常 CXR 序列為紅色,正常 CXR 序列為粉色;左側的紅條密度較大,表示異常 CXR 會在正常 CXR 之前被審查。直方圖表示平均週轉時間得到改善
此外,我們發現該系統可以作為預訓練模型來最佳化胸部 X 光片的其他 ML 演算法,尤其是在資料有限的情況下。例如,我們在最近的研究中使用了正常/異常分類演算法,以根據胸部 X 光片檢測肺結核。在專業放射科醫生或分子檢測技術等資源匱乏的地區,異常情況和結核病的檢測演算法可以在初期診斷中發揮關鍵作用。
分享改進後的參考標準標籤
要發揮 ML 的潛力,以在世界範圍內輔助解讀胸部 X 光片,我們還有很多工作要做。具體來說,在去識別化的資料上獲得高質量標籤可能是在醫療領域開發和評估 ML 演算法的一個重要障礙。為了加速努力程序,我們透過釋出在本研究中用到的標籤,對之前釋出的標籤進行擴充套件,並將其用於公開可用的 ChestX-ray14 資料集。我們期待著社群在該領域開展未來的機器學習專案。
- 釋出在本研究中用到的標籤
https://cloud.google.com/healthcare/docs/resources/public-datasets/nih-chest#additional_labels - 之前釋出的標籤
https://ai.googleblog.com/2019/12/developing-deep-learning-models-for.html
致謝
對此專案做出主要貢獻的 Google 員工包括 Zaid Nabulsi、Andrew Sellergren、Shahar Jamshy、Charles Lau、Eddie Santos、Atilla P. Kiraly、Wenxing Ye、Jie Yang、Rory Pilgrim、Sahar Kazemzadeh、Jin Yu、Greg S. Corrado、Lily Peng、Krish Eswaran、Daniel Tse、Neeral Beladia、Yun Liu、Po-Hsuan Cameron Chen 和 Shravya Shetty。一同協作的放射科醫生 Sreenivasa Raju Kalidindi、Mozziyar Etemadi、Florencia Garcia Vicente 和 David Melnick 也對此專案做出了重大貢獻並投入了大量的精力。感謝 NIH 臨床中心公開提供的 CXR-14 資料集。感謝 Sameer Antani、Stefan Jaeger、Sema Candemir、Zhiyun Xue、Alex Karargyris、George R. Thomas、Pu-Xuan Lu、Yi-Xiang Wang、Michael Bonifant、Ellan Kim、Sonia Qasba 和 Jonathan Musco 在結核病資料收集方面的辛勤工作。在此我還想對 Google Health Radiology 和標籤軟體團隊的諸位成員表示感謝,另外還要特別感謝 Shruthi Prabhakara、Scott McKinney 和 Akib Uddin。衷心感謝在整個研究過程中提供影象解讀和註釋的放射科醫生;Jonny Wong 負責協調影象註釋工作;Gavin Bee、Mikhail Fomitchev、Shabir Adeel、Jeff Bertram 和 Benedict Noero 負責資料釋出;David F. Steiner、Kunal Nagpal 和 Michael D. Howell 負責為手稿提供反饋;Craig Mermel、Lauren Winer、Johnny Luu、Adrienne Welch、Annisah Um'Rani 和 Ashley Zlatinov 負責為文章提供反饋。
[1] 標籤包括肺膨脹不全、心臟肥大、積液、浸潤、腫塊、結節、肺炎、氣胸、實變、水腫、肺氣腫、纖維化、胸膜增厚、疝氣、其他異常情況及正常和異常情況的對比。