引用本文: 吳行偉, 劉馨宇, 龍恩武, 等. 機器學習在臨床藥物治療中的研究進展 [J] . 中國全科醫學, 2022, 25(2) : 254-258. DOI: 10.12114/j.issn.1007-9572.2021.01.309.
近年來,隨著臨床資訊系統的建立和完善,醫療資料的可用性不斷提高。然而,影響藥物治療結果的因素繁雜,且各因素之間可能存在互動作用。因此,對藥物治療過程中產生的真實世界資料進行分析時,面臨高維度、大樣本、共線性等複雜問題。這些問題使得臨床藥師在複雜的臨床狀態下,難以對藥物作用的效果和風險進行有效的早期識別和預測,從而影響藥物治療結果,導致疾病程序加快、負擔加重、患病率和死亡率上升、住院時間延長[1,2,3,4]等問題出現。
機器學習作為人工智慧的核心技術,由於其在處理高維度、大資料等方面的獨特優勢,越來越多地被應用於分析藥物治療過程中患者複雜的臨床特徵和用藥情況。本文對機器學習在臨床藥物治療中的進展和成果予以綜述,內容包括藥物處方和用藥劑量、藥物不良反應、藥物療效、耐藥性、藥物相互作用和用藥依從性等,為臨床醫生及藥學同行開展基於機器學習的預測模型研究提供方法和模式的參考。
1 機器學習概述
機器學習由計算機科學家Arthur Samuel於1959年提出,其被描述為"計算機在沒有程式設計的情況下的學習能力"[5],可被理解為基於真實世界資料或以往的經驗開發資料驅動的演算法,以學習和模仿人類的行為[6]。根據學習方式的不同,機器學習分為有監督學習、無監督學習和強化學習等。監督學習即輸入大量帶有標籤的樣本資料以建立一個模型並得到相應輸出值,主要被用來處理分類和迴歸任務,常見的演算法有邏輯迴歸、支援向量機和K—鄰近演算法等[7]。無監督學習即透過輸入無標籤的資料來學習資料的內在結構和關聯,其更多地被用來處理聚類和降維問題,常見演算法包括K—均值聚類和期望最大化聚類等[8]。強化學習即根據狀態和動作計算獲益,將獲益反饋到模型並對模型作出調整以獲得最大的獎勵訊號,常見演算法包括Q學習以及時間差學習等[9]。作為機器學習的分支之一,近年來深度學習在醫學領域的應用取得了巨大成功。其透過在輸入層與輸出層之間使用隱藏層來對資料的中間表徵進行建模,用於有監督或無監督的特徵學習、表示、分類和模式識別等,常見演算法有深度神經網路、迴圈神經網路和卷積神經網路等[10]。
2 機器學習在臨床藥物治療中的應用
2.1 藥物處方和用藥劑量預測
在藥物處方預測方面,尤其針對慢性病的逐步治療模式,常使用序列模式挖掘和深度學習技術等方法來推斷藥物之間的時間關係,並生成規則來預測患者將會被處方的下一種藥物[11]。WRIGHT等[12]學者使用序列模式挖掘方法,應用SPADE(Sequential Pattern Discovery Using Equivalence Classes)演算法從藥物類別和仿製藥水平挖掘2型糖尿病患者藥物處方的序列模式,該演算法能夠挖掘符合指南推薦的藥物治療模式且無需患者的所有用藥史。在藥物類別預測方面,SPADE能夠預測出90%的患者所用的藥物;在仿製藥預測方面,能夠預測出64.1%的患者所用的藥物。BEAM等[13]學者將機器學習和自然語言處理相結合,以提取患者的合併症、用藥史及醫生的處方偏好。透過權衡患者和醫生因素,研究影響安眠藥處方模式的醫患因素,以更深入瞭解醫生的處方行為。YELIN等[14]學者使用梯度增強決策樹推導的一種演算法對尿路感染患者的資料進行分析發現,透過篩選抗生素耐藥性的特徵,推薦最佳的經驗性治療藥物,透過該演算法推薦的處方正確使用抗生素的機率比醫生高4%,降低了藥物錯配風險。ROUGH等[15]學者根據住院患者的電子健康記錄中的結構化資訊,利用深度學習序列模型預測患者的特定用藥順序,該演算法能夠挖掘出與指南一致的藥物治療模式,因此,在入院時可以作為早期預警工具預測出院用藥種類,以便監測即將處方的藥物,減少重複用藥或遺漏用藥等。此外,朱立強等[16]學者採用非線性邏輯迴歸和支援向量機的方法建立了Ⅰ類切口手術患者使用抗菌藥物合理性的評價模型,使抗菌藥物預防使用率下降了7.41%,藥物品種選用合理率提高了16.53%,使用療程縮短了1.75 d。
對於個體差異大、治療窗窄、毒性較強的藥物,對給藥劑量進行正確預測可在一定程度上減少不良事件的發生。MA等[17]研究者使用堆疊泛化框架集成了支援向量機、隨機森林、近鄰演算法和梯度提升樹4種演算法,結合患者的臨床特徵和遺傳資料預測華法林劑量,該演算法適用於華法林低劑量維持治療的患者,相比於其他患者,其在實際穩定治療劑量20%以內的患者中預測能力提高了12.7%。ROCHE-LIMA等[18]學者使用7種機器學習方法,透過回顧性分析心血管疾病患者的臨床特徵和遺傳資料來預測華法林的使用劑量,該研究以平均絕對誤差和預測準確率來評估模型效能,結果顯示,隨機森林迴歸、多元自適應迴歸樣條(multivariate adaptive regression splines,MARS)和支援向量迴歸的預測準確性優於其他演算法。TAO等[19]學者建立了一種整合學習模型,以類似的衡量指標評價了模型對中國人群華法林使用劑量的預測效能。SU等[20]學者回顧性分析了2個重症監護病房研究資料庫中的患者資料,使用隨機森林、支援向量機、自適應增強演算法、極限梯度增強和淺層神經網路5種機器學習方法,以部分凝血活酶時間作為預測因子來預測肝素的治療效果,結果顯示,淺層神經網路以最高的F1值作為預測肝素治療效果的最適模型,該模型可用於最佳化患者的肝素劑量。此外,LEVY等[21]學者對接受抗心律失常藥物多非利特治療的患者的臨床資料進行了分析,與多種監督學習方法比較,一種深度強化學習演算法—Q學習演算法以96.1%的準確度更好地預測了多非利特的使用劑量。
2.2 藥物不良反應預測
藥物不良反應不僅是藥物開發失敗和藥物上市後撤市的主要原因,也是藥物治療失敗和治療被迫中止的原因。隨著藥物不良反應資料庫的出現,有監督的機器學習演算法已被廣泛用於藥物資訊提取和藥物不良反應的關係預測[22,23]。該類研究主要基於藥物生物學特徵、化學特徵和表型特徵等建立預測模型對藥物不良反應進行預測[24]。
藥物性肝損傷(drug induced liver injury,DILI)是最常見的不良反應之一,大量的基因表達資料為早期識別和準確預測DILI提供了有價值的資訊。HAMMANN等[25]學者基於藥物化學結構,構建了決策樹、K-鄰近演算法、支援向量機和人工神經網路4種機器學習模型以預測DILI,其中決策樹模型實現了89%的正確分類率。FENG等[26]學者基於Array Express資料庫中的基因表達資料建立了深度學習模型來預測DILI,該模型在準確率、精確度和相關係數等方面均明顯優於支援向量機模型,並透過外部資料集和動物實驗對模型效能進行了驗證。LAI等[27]研究者將結核患者的臨床特徵和基因組資料相結合,建立並比較了人工神經網路、支援向量機和隨機森林3種模型對抗結核藥物肝毒性的預測效能,其中人工神經網路表現最佳。DAVAZDAHEMAMI等[28]學者將時序藥物警戒網路和機器學習技術相結合,預測8種常見高風險藥物的藥物不良反應,結果顯示,梯度增強樹識別藥物不良反應的準確率高達92.8%。
2.3 藥物療效預測
在藥物療效預測時,常將患者臨床症狀和體徵的改善,以及實驗室檢查指標的變化作為待預測結果,以評估藥物療效。此外,還可應用機器學習方法挖掘現有臨床試驗資料或電子病歷系統中的資料來建立預測模型,對特定患者的特定藥物療效進行回顧性分析和前瞻性識別,從而對藥物療效進行精準評價。
CHEKROUD等[29]研究者篩選了抑鬱症患者的25個臨床特徵並建立了梯度提升機模型,以評估患者使用西酞普蘭治療12周後症狀是否緩解,該模型的預測準確率為64.6%。若將抗抑鬱治療反應的生物標誌物作為預測變數,可能會獲得更高的預測準確性。ATHREYA等[30]學者論證了將機器學習與藥物基因組生物標誌物相結合的可行性,以實現對兩種新型抗抑鬱藥西酞普蘭和依他普倫8周治療效果的預測。SAKELLAROPOULOS等[31]學者將基因表達資料與藥物反應相結合,構建了深度神經網路模型以預測癌症患者的藥物治療反應,並在多個臨床佇列上進行了外部驗證,結果表明,深度神經網路在藥物治療反應預測方面優於傳統的機器學習演算法。JIANG等[32]學者建立了支援向量機模型,用於識別對5-氟尿嘧啶/奧沙利鉑高度敏感的胃癌患者,該模型可將Ⅱ期和Ⅲ期胃癌患者進行準確分類,使用該模型預測的不同類別患者的5年無進展生存期和總生存期存在顯著的統計學差異。
2.4 藥物耐藥預測
隨著高通量測序技術的發展,藥物基因組學相關資料庫的建立和完善,以及電子病歷系統中大規模資料集的累積,機器學習現已被廣泛應用於抗菌藥物和化療藥物等敏感性相關的基因型/表型預測、臨床決策的制定和藥物治療方案的最佳化等方面[33]。
DAVIS等[34]學者建立了Ada Boost機器學習模型,用於識別鮑曼不動桿菌對碳青黴烯類抗生素、金黃色葡萄球菌對甲氧西林以及肺炎鏈球菌對β-內醯胺類抗生素和複方新諾明的耐藥性,實現了88%到99%的準確率。另外,該研究還將結核分枝桿菌對異煙肼、卡那黴素、氧氟沙星、利福平和鏈黴素的耐藥性進行了預測,實現了71%到88%的準確率。CHOWDHURY等[35]學者提出了堆疊的整合模型,以邏輯迴歸、決策樹和支援向量機作為基線模型,基於蛋白質序列的相似性來預測結核分枝桿菌對捲曲黴素的耐藥性;與最佳的基線模型支援向量機相比,整合模型預測準確性提高了2.43%。MANCINI等[36]學者建立了Cat Boost、支援向量機和神經網路3種機器學習模型,並集成了一個雲平臺來預測患者住院後發生多藥耐藥性尿路感染的風險。AN等[37]學者透過對58萬餘例癲癇患者的索賠資料進行分析,以預測患者在首次開具某種抗癲癇藥物時耐藥的風險,其訓練的隨機森林演算法表現最佳。DORMAN等[38]學者研究了紫杉醇和吉西他濱的生長抑制濃度與基因表達之間的相關性,該研究使用多因素主成分分析篩選出"強關聯"的基因,使用支援向量機來預測藥物的敏感性,對紫杉醇和吉西他濱敏感性的預測準確率分別為70.2%和57.0%。
2.5 藥物相互作用預測
在聯合用藥情況下,藥物相互作用通常是導致藥物不良反應發生和醫療成本增加的常見原因。因此,識別藥物相互作用是減少藥物不良事件和提高患者用藥安全性的關鍵。雖然已有文獻研究成果和可獲取的藥物相互作用資料庫可為機器學習的應用提供基礎,但對醫療資料中的藥物相互作用研究仍較為缺乏。
CHENG等[39]學者透過整合藥物相互作用資料庫中的藥物表型、治療、化學和基因組學相似性,提出了一種異構網路輔助推理(Heterogeneous Network-assisted Inference,HNAI)框架,在該框架中應用了樸素貝葉斯、決策樹、K-鄰近演算法、邏輯迴歸和支援向量機5種機器學習模型來預測藥物相互作用,其中HNAI模型ROC曲線下面積為0.67。KASTRIN等[40]學者基於Drug Bank、KEGG和Two sides等5個藥物相互作用資料庫中藥物間的拓撲和語義相似性特徵,比較了分類樹、K-鄰近演算法、支援向量機、隨機森林和梯度提升機模型的預測效果,結果顯示,隨機森林和梯度提升機對Two sides網路的預測效能最佳。RYU等[41]學者建立了深度學習模型,透過輸入藥物-藥物對或藥物-食物對的名稱及其結構資訊,生成了86種藥物相互作用,並對模型進行了外部驗證,預測準確率平均為92.4%。
2.6 藥物依從性預測
患者藥物依從性差是普遍存在的問題。良好的用藥依從性對於疾病的治療和管理至關重要。有研究者嘗試使用機器學習演算法來識別藥物依從性差的患者,從而有針對性地制訂提高藥物依從性的策略。
TUCKER等[42]學者採用決策樹、K-鄰近演算法、樸素貝葉斯、支援向量機和隨機森林模型,根據帕金森病患者使用非穿戴式多模式感測器接收的步態特徵來建立預測模型,實現對患者用藥依從性的遠端監控。MOHEBBI等[43]學者基於連續葡萄糖監測訊號,建立多層感知器和卷積神經網路模型對2型糖尿病患者使用胰島素的依從性進行預測,結果顯示卷積神經網路的預測效能最佳。LI等[44]學者使用機器學習方法識別使用降壓藥不依從的亞組人群,以制定針對目標人群的干預措施。WU等[45]學者採用30種機器學習方法建立了300個模型來預測2型糖尿病患者的用藥依從性,以用藥擁有率對患者的用藥依從性進評價,結果顯示,整合演算法預測效能最佳。
3 小結
隨著計算機技術的不斷髮展,機器學習在輔助臨床藥物治療決策方面展現出了巨大的潛力。此類方法為醫生和臨床藥師制訂藥物治療策略、應對藥物不良反應、監測藥物治療效果和最佳化藥物治療方案等提供了理想的工具。目前,機器學習在臨床藥物治療方面的研究主要基於醫院電子病歷系統、基因組學資料庫、藥物相互作用資料庫和藥物不良反應資料庫等,採用機器學習的方法,尤其是深度學習演算法,建立臨床預測模型以實現對目標人群或目標藥物的預測。但由於目前我國醫院電子病歷系統等資料庫缺乏規範系統的患者資訊錄入流程、有效的資料質控過程和資料孤島等缺陷,總體資料利用率有待提升。
此外,醫學機器學習是一項交叉學科,研究者常需掌握計算機、線性代數、機率論與數理統計等專業知識。因此,機器學習在醫療領域的廣泛應用尚存在巨大的學科壁壘,常出現"醫療工作者不懂機器學習,計算機工程師不懂醫學"的現象。開發醫療工作者簡便易用的機器學習建模工具可能是緩解該問題的有效措施。
未來,隨著高質量資料庫的建立和新演算法的開發,透過臨床科研人員與計算機研究人員的有機協作,機器學習有望更多地應用於臨床藥物治療的研究中。藉助於優秀的機器學習演算法和工具,可有效提高臨床預測模型在臨床實踐中的實用性,提高診療效率,實現個體化治療決策的智慧化。
本文文獻檢索策略:
英文檢索詞:machine learning、supervised learning、unsupervised learning、semi-supervised learning、deep learning、drug、medicine、prescription、dosage、dose、ADR、adverse reaction、therapeutic effect/response、treatment effect/response、drug resistance、DDI、drug interaction、drug-drug interaction、compliance、predicting、predict、prediction,結合運算子(AND、OR和NOT)檢索PubMed資料庫,共檢索3 352篇文獻;中文檢索詞:機器學習、監督學習、無監督學習、半監督學習、深度學習、藥物、藥物處方、藥物劑量、藥物不良反應、藥物療效、耐藥性、藥物相互作用、用藥依從性、預測,結合運算子(AND、OR和NOT)檢索中國知網、萬方資料知識服務平臺和維普網,共檢索104篇文獻。檢索時間為2010—2020年。
利益衝突
本文無利益衝突。
參考文獻 略