原發性肝癌(簡稱肝癌)的發病率和病死率均居所有腫瘤的前5位[1], 是男性癌症相關死亡的第2大原因, 女性癌症死亡的第6大原因[2], 2015年中國統計數字顯示, 肝癌是國內第4位惡性腫瘤, 腫瘤致死病因則位於第3位[3]。大資料時代, 隨著人工智慧的快速發展, 各種數學演算法也在肝癌的海量資料中得到廣泛應用, 資料探勘和雲計算等不斷層出的分析技術, 為肝癌的診療分析提供了更加便利的方法, 涉及到肝癌病因、基因組學、代謝組學、影像組學、蛋白組學、病理學、復發預測及生存風險分析等各個方面的機器學習方法的研究[4-6]。
機器學習是一種實現人工智慧的方法, 機器學習最基本的做法, 是使用演算法來解析資料、從中學習, 然後對真實世界中的事件做出決策和預測, 具有機器模仿、識別和學習人類大腦認知功能的作用, 隨著人工智慧的發展也日漸受到關注[7]。機器學習是用大量的資料來“訓練”, 透過各種演算法從資料中學習如何完成任務, 其主要內容就是各種學習演算法。深度學習涵蓋於機器學習演算法, 是目前最熱的機器學習演算法, 能基於大量積累的醫療資料產生計算模型, 透過訓練, 在面對新的患者時, 會提供相應的判斷(譬如肝癌可能發生的風險、再復發的風險以及生存風險等)。對於癌症, 與傳統的方法相比, 初期的機器學習即具有影象識別和特徵選擇的優勢[8-9]。而近年來, 深度學習演算法被開發用於檢測乳腺癌女性前哨淋巴結的轉移, 並表現出比病理學家更好的診斷效能[10]。在肝癌的診斷與復發領域, 利用大資料平臺, 相對於傳統的邏輯迴歸或Cox迴歸, 深度學習模型表現出更好的診斷與預測效能。傳統機器學習的演算法包括決策樹、聚類、貝葉斯分類、支援向量機、EM、Adaboost等, 而機器學習的演算法可以分為監督學習(如分類問題)、無監督學習(如聚類問題)、半監督學習、整合學習、深度學習和強化學習, 其中主要包括監督學習、半監督學習和無監督學習3種[11], 如監督學習代表有:隨機森林(RF)、梯度增強機(GBM)、支援向量機(SVM)、決策樹、k近鄰(KNN)、人工神經網路(ANN)等;半監督方法代表有:最大期望、生成模型和圖演算法、主成分分析等。無監督學習方法代表有:先驗演算法(Apriori)、分叉樹、K-均值(K-means)以及目前比較火的深度學習[12]。目前, 深度學習廣泛應用於醫學預測模型, 而深度學習其本身也會用到有監督和無監督的學習方法來訓練深度神經網路。本文將深度學習在肝癌診斷、復發中應用進展介紹如下。
1構建模型預測肝癌發生風險應用
1.1 構建血清蛋白質組學模型協助早期診斷
血清AFP是目前肝癌診斷隨訪復發的一種重要檢查方法, 仍然被認為是血清腫瘤標誌物中的金標準[13]。早在2001年, Poon等[14]透過深度學習演算法計算出了AFP cut-off值, 從而首次構建了血清AFP肝癌診斷模型。Camaggi等[15]在2010年篩選了45例HCV相關肝硬化、早期肝癌及晚期肝癌病例, 透過深度學習對522份血清樣本進行訓練得到多種蛋白質組學特徵, 其所建模型對其中43個可能區分伴或不伴肝硬化、伴或不伴血管浸潤的肝癌病例進行了正確分類。2011年Patterson等[16]也透過深度學習, 對血清中甘氨酸脫氧膽酸鹽、脫氧膽酸3-硫酸鹽、膽紅素水平、溶血磷脂水平進行例模型訓練, 構建了的肝癌發生的血清學預測模型。2014年Wang等[17]應用同樣的方法建立了HBV相關肝硬化進展的早期肝癌進行診斷的預測模型, 主要透過血清肽和AFP聯合檢測資料訓練完成。Estevez等[18]2017年應用隨機森林訓練模型建模, 檢測了411例HBV及HCV感染的肝細胞癌(HCC)病例的血清細胞譜, 該模型從深度學習演算法角度說明了有或無HCC的HBV或HCV感染者, 其體內細胞因子分泌明顯不同, 疾病發病機制和疾病特徵存在潛在差異。這些文獻的報道, 使血清學指標的檢測及學習訓練對各種情況下肝癌的協助診斷提供了很大的幫助。
1.2 構建模型最佳化影像學診斷
肝癌通常透過肝活檢或增強計算機斷層掃描(CT)和磁共振成像技術進行診斷[19], 近年來深度學習演算法和模型也大量應用於基於癌症影象的診斷、預後和預測[20-21]。卷積神經網路( CNN) 允許在識別肝臟腫塊和識別病理病變的特定特徵時解釋HCC影象[22], 伴隨著計算機計算能力的猛進發展, 深度學習的模型演算法也逐步深入, 而肝癌影像診斷所涉及的深層神經網路的研究陸續增加, 包括多層神經網路、深度信念網路、CNN等多種演算法的應用。2017年, Pang等[23]報告了一種凹凸變最佳化稀疏貢獻特徵選擇和分類器的深度學習用以提高肝癌影象識別, 在凹凸變分(CCV) 方法來最佳化的3種分類器(隨機森林分類器、支援向量機分類器和極限學習機分類器)中, CCV-隨機森林分類器更能準確的識別肝癌影象。但是作為一種“不可解釋的”深度學習模型, 其存在著“黑盒子”效應。2019年, Wang等[24-25]在其報道的肝腫瘤診斷的深度學習系列研究中, 初次提出一種概念驗證的“可解釋的”深度學習模型, 即利用放射成像特徵的CNN, 識別測試病灶中正確的影像特徵。這種“可解釋的”深度學習模型可與標準化報告系統(如LI-RADS)對接, 添加了定量資料又利用了影像的相關輔助特徵, 從而提高了臨床實用性, 其陽性預測值和靈敏度也分別達到了76.5%和82.9%。此外, 在多相核磁影象上, 基於概念驗證CNN的深度學習系統(DLS)對常見肝臟病變進行分類的研究中, 透過與高年資醫師的測試比較, 肝癌分類深度學習系統測試出更高的準確度、敏感度和特異度。2020年Shi等[26]報道了密集卷積神經網路的深度學習方法可最佳化增強CT對肝臟腫瘤的診斷, 又進一步豐富了影像組織性的深度學習內容。
1.3 構建模型最佳化病理學檢查
2010年, Cucchetti等[27]應用人工神經網路術前預測HCC腫瘤分級及微血管侵犯, 透過收集250例有肝硬化的HCC患者的臨床、影像學和組織學資料, 隨機選取175例患者建立人工神經網路和邏輯迴歸模型, 對其餘75例患者進行測試。其中術前血清AFP、腫瘤數量、大小和體積與腫瘤分級和MVI相關(P<0.05), 用於構建ANN。在訓練組, 用於腫瘤分級和MVI預測的受試者工作特徵曲線下面積(AUC)分別為0.94和0.92, 均高於邏輯迴歸模型(均為0.85)(P<0.001)。在測試組中, 人工神經網路正確識別了93.3%的腫瘤分級(k=0.81)和91% 的MVI (k=0.73)。邏輯迴歸模型正確識別了81%的腫瘤分級(k=0.55)和85%的MVI (k=0.57)。因此, 與傳統線性模型相比, 人工神經網路更準確地預測肝癌腫瘤分級和MVI, 可應用於最佳化病理學檢查。2017年Li等[28]透過病理學專家的指導對病理切片感興趣區做相應標記來識別肝癌細胞的細胞核, 所構建的多重連線的CNN模型在細胞核分級方面體現了一定優越性。Pang等[23]2017年同樣在病理學專家的指導下獲得每個肝癌患者的HE染色的病理影象, 構建了一種CCV方法, 其中CCV-隨機森林演算法與其他演算法相比較準確率達到98.74%, 對肝癌的病理影象分類最為準確。2020年, Liao等[29]建立了基於深度學習的深度卷積神經網路模型, 可明確區分肝癌腫瘤和鄰近正常組織, 實現了HCC的自動診斷和體細胞突變預測, 也逐漸深化了病理學的深度學習研究。
1.4 構建代謝組學模型協助診斷
2016年Liang等[30]使用由LC-QTOF-MS結合多變數資料分析方法對HCC患者的尿液進行代謝分析, 在人尿代謝組中所發現的15種不同代謝物中, 5種標誌代謝物可有效診斷HCC, 所建立的預測模型預測敏感度為96.5%, 特異度為83%。Wang等[31]2018年基於隨機森林建立了兩種新的模型:固定序列模型和兩步模型, 結合肝癌和非肝癌患者尿液中提取多個尿DNA生物標誌物評估模型的敏感度、特異度、AUC和變異性, 認為多個尿生物標誌物的評估模型有一定潛力進行自我訓練並完成HCC患者的雲篩選。
1.5 構建基因組學模型協助早期診斷
2014年Ibrahim等[32]基於深度學習和主動學習, 進行特徵性選擇的思想在生物資訊領域的模型構建, 透過考慮miRNA和基因之間的生物關係, 擴充套件使用了該技術的miRNA, 集成了兩種無監督機器學習方法, 選擇最少的最有鑑別力的基因, 提高了肝癌樣本分類的準確性, 所提出的特徵性選擇方法優於經典的功能選擇演算法。2015年Gui等[33]構建了一個源自STRING資料庫中蛋白質-蛋白質相互作用(PPI)資料的分子相互作用網路, 並確定187個基因之間的最短路徑與機器學習方法確定的基因, 且找到了117個基因探針, 可以最優的分離腫瘤和非腫瘤樣本。為理解HCC的發展過程提供了新的視角。
隨著基因測序技術的發展, 大量的基因測序資料隨著複雜的深度學習技術的提高處理能力也得到提升。2018年Augello等[34]報道, 在預測HCC的生物標誌物與HCV相關肝硬化患者風險的研究中, 使用機器學習分類器發現MICA的基因位點rs2596542和rs2596538變異體值得進一步研究, 其與HCV相關肝癌關係密切。在一項從肝移植受者的移植肝臟中獲得的59個組織樣本的研究中, Kim等[35]製作了cDNA微陣列, 每個樣本中有超過9000個基因。透過使用KNN和支援向量機方法, 在肝硬化有發生肝癌風險的高危患者中識別出30個顯著改變基因的分子標記。這些基因可以作為診斷高危人群早期肝癌的候選標記, 並可能指導新的化學預防策略。2020年Shen等[36]利用資料庫和機器學習方法, 構建並驗證了HCC患者復發的預測模型, 獲得了預測肝癌早期復發的基因訊號, 並驗證了突變的基因, 準確度為74.19%, 而模型的驗證成功率達到80%, 為臨床預測肝癌復發提供了有意義的指導。
2構建模型預測肝癌術後復發與生存風險應用
肝癌術後復發風險、生存預測等關係著患者術後及後期的生命健康, 透過機器深度學習的相關研究為臨床患者的治療提供了很多指導, 所構建的預測模型在臨床中也得到初步應用。2012年Ho等[37]報道基於HCC資料庫, 對接受肝切除患者術後1、3、5年的無病生存率建模預測, 分別使用ANN、邏輯迴歸(LR)及決策樹3種演算法構建了模型, 結果人工神經網路模型(ANNS)的精確度更高, 表明在醫療決策系統中使用ANNS對肝切除術後患者預測較為理想。2012年Shi等[38]報告了目前最大樣本量的模型評估研究, 共納入22 926例接受過肝切除術的HCC患者, 透過傳統的邏輯迴歸模型和人工神經網路模型比較分析, ANNS在預測住院病死率方面更準確(準確度97.28%), 更具有綜合評價的意義。2014年Qiao等[39]使用ANN、LR建立早期HCC根治切除手術的患者術後生存預測模型, 發現ANNS比其他模型AUC更高。機器學習在處理含有缺失值的資料集時具有較大的靈活性。2020年Huang等[40]對7919例肝癌患者臨床病理資料進行分析報告, 在使用Cox迴歸、深度學習、隨機生存森林、極度梯度等演算法構建肝癌根治性切除術後復發預測模型發現, XGBoost的精確度最高。以上研究結果證明ANN等機器深度學習在肝癌患者預後預測模型中具有良好的前景, 在醫療決策支援系統中應用的可行性。
Tseng等[41]2015年為了提高利用多個測量值預測臨床結局的準確性, 提出了一種新的多時間序列資料處理演算法, 收集了83例肝癌患者的臨床資料, 採用徑向基函式核的多測量支援向量機作為肝癌復發多元測量隨機森林迴歸的模型。結果提示該演算法能顯著提高HCC復發預報效能, 且多次測量比單次測量更有價值。2017年Qiu等[42]透過使用機器學習中Lasso演算法及SVM-RFE演算法, 針對早期576例肝癌患者的基因CpG甲基化水平檢測所得到的資料建模分析, 從甲基化的角度建立了預測早期肝癌復發風險的模型。Xu等[43]2017年也對血清中迴圈腫瘤DNA甲基化水平進行檢測, 共檢測1098例肝癌患者和835例正常人, 資料使用Lasso演算法及隨機森林演算法篩選, 共選出10個標誌物建立了肝癌診斷模型;並使用機器學習中Lasso-Cox演算法篩選出8個標誌物構建預測肝癌預後風險模型。由此可見術後復發與生存風險模型的建立透過深度學習的方法也可達到一定臨床指導效果。
3構建模型預測射頻消融(RFA)、經導管肝動脈化療栓塞術(TACE)生存風險應用
RFA、TACE是肝癌患者不可或缺的重要輔助治療手段, 主要針對無法耐受手術切除和不能手術切除的肝癌人群。2014年Liang等[44]報告了83例接受RFA治療的HCC患者, 共採用了5種特徵選擇方法, 包括遺傳演算法(GA)、模擬退火演算法(SA)、隨機森林演算法(RF)及混合演算法(GA+RF和SA+RF), 從總共16個臨床特徵中選擇一個重要的特徵子集, 這些方法與SVM開發具有更好的效能預測模型相結合, 最終結論提示SVM的預測模型可以提示高風險復發患者。2020年Brehar等[45]文獻報告納入RFA和放療患者214例和205例, 透過放射組學特徵和重要臨床變數建立RFA和放療的列線圖, 評估愈後, 結論提示深度學習建立的放射組學模型和列線圖實現了對RFA與放療的無進展生存期的準確預測, 可以促進二者之間的最佳化治療選擇。預測肝癌接受肝動脈化療栓塞治療反應由Abajian等[46]2018年報告, 研究包括36例HCC患者, 使用磁共振成像和臨床患者資料, 建立一個人工智慧(AI)框架, 透過應用機器學習技術預測接受TACE治療患者的愈後。用臨床資料、基線影像和治療特徵訓練LR和RF, 結果顯示, 結合患者臨床資料和磁共振影象資料, 應用機器學習演算法可以在術前預測肝癌患者TACE的結果。2020年Peng等[47]收集了國內多中心共789例中期肝癌患者, 建立一個轉換學習技術的殘差CNN預測模型, 預測TACE治療的效果, 可以更好的幫助臨床醫生篩選哪些患有HCC的患者更能夠從介入治療中獲益。
4其他
近年來, 深度學習不僅在基於影象的癌症檢測和治療預測方面, 而且在多組學資料的整合方面也取得了一些進展。Chaudhary等[48]報道使用RNA(RNA-Seq)測序、miRNA(miRNA-Seq)甲基化資料和TCGA的甲基化資料構建360例HCC患者的生存敏感模型, 該模型可將患者分為兩種因生存率而有顯著差異的最佳亞型。Nam等[49]用基於傳統迴歸方法的DL演算法, 構建了563例患者肝移植後HCC復發的預測模型。這項多中心研究表明, 腫瘤直徑、年齡、AFP水平和維生素K缺失或拮抗劑Ⅱ(PIVKA-Ⅱ) 是基於AI的肝移植後復發模型(MoRAL-AI)的最大加權引數。
人體和腫瘤的生物多樣性決定著任何深度學習的模型並不能適用所有的患者。AI在肝癌的診療領域也一直在研發, 幫助臨床醫師的智慧輔助決策系統。Singal等[50]開發機器學習模型, 並與傳統預測模型進行比較;其中基於決策樹的隨機森林模型(C-statistic為0.71)比常規迴歸模型(C-statistic為0.64)的效果更好。然後在另一佇列(1050例HCV相關HCC患者)中驗證, 機器學習模型(敏感度為80.7%、特異度為46.8%)比傳統模型(敏感度70.7%、特異度41.6%)的結果也更優。Divya等[51]2019年在對HCC射頻術後復發與否的演算法研究中, 提出一種有效的抽樣方法, 使用逆隨機抽樣, 以克服類不平衡問題。同時也提出了一種最佳化方法, 使用人工植物最佳化演算法(APO)來選擇最有特徵和引數分類, 以提高分類的有效性和效率。利用SVM和RF分類器, 基於最優特徵和引數對肝癌患者和非肝癌患者進行分類。Giordano等[52]報道探針電噴霧電離質譜與AI相結合, 用來評估SVM和RF兩種演算法的整體診斷準確度。該方法在肝癌診斷上具有較高的準確度、特異度和敏感度。這兩種演算法的總體診斷準確度均超過94%。該研究的主要限制是所有樣本來自同一臨床中心, 可能會限制機器學習的能力, 不過即便如此, 他所提出的方法也可以被轉化到外科腫瘤的臨床實踐中並得到廣泛應用, 最終可能體改腫瘤患者治癒的終極目標。
5小結及展望
在醫療保健和資訊科技不斷更新的時代中, 越來越多利用資料科學和技術使醫療保健個性化, 並增強與患者的互動。AI伴隨著計算機科學技術的飛速發展, 深度學習技術同樣會不斷深入發展, 深度學習所構建的各種模型在肝癌研究領域的應用也會更加深入。未來, 深度學習這些研究領域應該涉及多箇中心的合作, 應該包括更大樣本量的肝癌患者, 這樣才能使AI、機器學習、深度學習在肝癌的診療中發揮更大的作用。
檢視參考文獻目錄或免費下載PDF
http://www.lcgdbzz.org/cn/article/doi/10.3969/j.issn.1001-5256.2022.01.003
張清華, 李海濤, 方國旭, 等. 深度學習在原發性肝癌相關診斷模型中的應用與前景[J]. 臨床肝膽病雜誌, 2022, 38(1): 20-25.
本文編輯:林姣
公眾號編輯:邢翔宇
百度網盤:
https://pan.baidu.com/s/1WlIcRIY74GMETWM57x9hGA?pwd=1985