導語
大家好,這次給大家介紹一篇2021年3月22日烏普薩拉大學發表在Expert Opinion on Drug Discovery的一篇文章《The machine learning life cycle and the cloud: implications for drug discovery》本文的第一作者和通訊作者都為Spjuth Ola。
在藥物發現中整合機器學習(ML)需要管理資料和模型的整個生命週期,研發人員通常會對機器學習的生命週期的問題有所忽視,因此本文針對解決機器學習生命週期和雲的問題對藥物研發的影響進行了探討。
01 介紹
人工智慧(AL)和機器學習(ML)具有徹底改變藥物發現的潛力,已經應用於藥物發現的各個方面,包括藥物篩選、從頭分子生成、結構建模和藥物安全性評估等。建立有價值的ML模型主要依靠訪問具有足夠大小的觀測資料集。需要經過收集、協調、儲存和預處理資料才能為ML建模組裝資料集,因此在此過程中採用規劃周密的資訊學基礎設施,配備資料庫和資料管理管道,可以減少 ML 建模組裝資料集時的錯誤。與此同時,隨著生命科學儀器通量的不斷增長,導致資料量也在不斷增加。這就要求資料儲存和訓練所需的必要計算基礎設施有所提升。
圖1 機器學習的技術債務
02 雲計算和容器化
研發團隊依靠雲計算能夠不斷調整和重新利用底層硬體資源,以滿足藥物研發中不斷變化的需求。雲計算提供的服務級別如圖2所示。
圖2 雲計算中的服務模型
03 藥物發現中的機器學習生命週期
ML 生命週期由具有不同基礎設施和軟體要求的多個步驟組成(如圖3所示)。
3.1 資料採集
藥物發現包含來自許多不同型別實驗的資料,隨著 AI 建模的廣泛的使用,要求研發團隊擁有一個能夠快速訪問資料以便有效使用資料的資料管理解決方案。AI 生命週期中的資料收集步驟可以在藥物發現中包括不同的任務,例如執行實驗以生成資料、從資料庫中提取現有資料或選擇用於建模的資料。利用雲計算可以為儲存、資料庫和中介軟體提供可擴充套件的容量和按需基礎設施,無需前期成本。此外,在雲環境中進行建模時,在雲中託管資料可以輕鬆快速地訪問資料。但是大多數都與分析解決方案整合,並且通常不夠靈活,無法整合到更大的多供應商流程中。
3.2. 資料預處理
選擇並組裝資料後,執行一組資料預處理步驟是第二步。其中包括處理重複資料、缺失值、規範化、增強和質量控制等工作。雲計算提供促進預處理、簡化工作流的構建和執行的功能,可以提高透明度、可重複性和穩健性。
3.3. 模型訓練和驗證
構建資料集後,下一步是模型開發,包括模型訓練和驗證等步驟。該過程包括最佳化過程和超引數調整,這是一個既耗時又需要資源的過程。雲計算為藥物研發人員提供在需要時訪問大量資源和按分鐘付費的政策,完全消除了投資配備 GPU 加速器的成本。
3.4. 模型服務和推理
一個經常被忽視的問題就是在具有充分治理的生產級環境中向終端使用者提供開發的 AI 模型。這種模型管理和服務不僅需要模型的驗證和版本控制,還需要隱私、訪問控制、可審計性、日誌記錄和監控等功能,以及可以從故障中恢復的彈性基礎設施。這可以說是 ML 建模生命週期中技術上最具挑戰性的步驟,但幸運的是, Cloud和 Kubernetes平臺以及科學工作流可以促進可重複和有彈性的分析管道,用於藥物發現專案中的連續 ML 建模。
04 迭代藥物發現和對 MLOps 的需求
小分子藥物發現是一個迭代過程,在最初的高通量篩選或其他先導識別活動之後,隨後的先導最佳化階段通常遵循設計-製造-測試-分析 (DMTA) 迴圈(如圖4所示)。迴圈從設計階段開始,決定下一輪要在製造階段合成的化合物。新化合物在生產後進入測試階段,使用不同型別的測定進行評估,並對結果進行分析以指導下一輪實驗。ML 模型可以透過對來自測試階段的資料(通常用於目標活動)進行訓練的模型和對透過多個藥物發現專案收集的全域性資料進行訓練的模型(例如用於安全終點和關閉)來幫助分析階段的決策制定。特定於專案的模型通常較小,例如,可以是圍繞一個或多個支架開發的一個或多個 SAR 模型。這些通常由藥物發現專案中的科學家自己開發,但可能仍需要由團隊中的幾個成員使用。模型最好透過網路進行部署和提供。全域性模型通常更大,因為它們基於來自多個專案的資料,並且由於它們應用於每個週期和多個專案,因此對生產級模型服務和可訪問 API 的需求要高得多。然而,藥物發現組織內可用的全域性資料會不斷更新,並且需要不斷重新訓練全域性模型以包含最新資料。雖然傳統的 ML 建模和模型服務在很大程度上是藥物發現組織中的手動過程,但它可能會延遲 DMTA 週期,如果全域性模型未更新,則可能意味著對未經訓練的模型進行預測在所有可用資料上。
圖 4. ML 模型在藥物發現的 Design-Make-Test-Analyze 迴圈中的使用
在藥物發現中,MLOps 軟體試圖彌合許多組織中製藥專業人士、人工智慧建模師和服務提供商之間的脫節,以託管生產級 ML 模型並實現協作。圖 5說明了通常與 MLOps 相關的持續部署性質:目的是使從資料準備和實驗到 ML 模型訓練和驗證到交付具有標準 API 端點的生產級模型的過程自動化,目的是確保隨著資料的增加,科學家可以及時獲得最新的模型。
如今,藥物發現中的絕大多數 AI 模型都以批處理方式對資料進行訓練,其中生成和預處理資料集以形成獨立的訓練集,然後進行 AI 建模。資料集要麼在同一組織內生成,要麼在別處組裝並下載。一個關鍵的組成部分是適當的質量控制 (QC),目前參與 AI 建模的許多人對已經執行過此類 QC 的資料集進行操作,在許多情況下沒有透露細節。當 AI 模型用於決策時,對更新資料的訓練有更大的要求,因此關閉從資料生成到生產中的預測模型的迴圈變得至關重要。有幾個活動的報道與藥物發現,這裡的演算法決定下一個資料點應產生。為了利用這種連續 ML 建模的全部功能,包括資料提取、預處理、QC、培訓、驗證和部署在內的所有元件都必須整合到具有足夠版本控制的可重現管道中。
05 使用私有、敏感和受監管資料的機器學習
在機器學習生命週期中,資料是關鍵資產,而在藥物研發中,這些資料通常是敏感的、私有的或受監管的。因此利用混合雲設定可以透過在不同國家/地區的許多站點上覆制標準化基礎架構來幫助單個組織在內部克進行資料傳輸。然而,在這種混合雲上無縫管理應用程式並不是一項簡單的任務。如果需要或有機會跨組織協作,例如在兩個或多個製藥公司之間進行協作,情況就會變得更加複雜。此時聯合機器學習可以跨組織和資料孤島聯合構建模型,而無需移動或披露資料。如圖6所示,多個組織可以透過每個組織完全本地模型更新並以迭代方式採用聚合方案來共同訓練 ML 模型。
圖6 聯合學習
06 總結
人工智慧正在成為現代藥物發現的關鍵組成部分,尤其是深度學習方法。然而,這種趨勢給藥物發現團隊帶來了許多挑戰,既要為其科學家提供足夠的計算資源和軟體,又要為組織內的終端使用者管理和服務生產級模型。雲計算提供了許多有助於機器學習生命週期的元件,例如對計算資源的輕鬆且可擴充套件的訪問,以及為幫助資料科學家有效地使用 ML 建模而開發的工具生態系統。其中許多工具依賴於容器化技術,並且與 Kubernetes 等平臺一起使用,它們可以極大地幫助和幫助簡化 ML 生命週期。但除了技術資源和平臺之外,科學家和工程師還需要採用 MLOps 最佳實踐。對於需要持續建模的場景,例如資料定期更新,或者進行人在環或主動學習時,對資料和模型的可再現性和可追溯性的需求變得更加重要,以迎合所有人ML 生命週期的步驟。
僅依賴公共雲提供商在不必在本地維護任何基礎設施方面具有許多優勢,但會影響成本和資料隱私。在大多數現實場景中,藥物發現組織需要結合本地私有云基礎設施和公共雲。混合雲上的分散式機器學習是一個有趣的解決方案。
參考文獻:Spjuth O, Frid J, Hellander A. The machine learning life cycle and the cloud: implications for drug discovery[J]. Expert Opinion on Drug Discovery, 2021: 1-9.
宣告
本文系AIDD Pro接收的外部投稿,文中所述觀點僅代表作者本人觀點,不代表AIDD Pro平臺,如您發現釋出內容有任何版權侵擾或者其他資訊的錯誤解讀,請及時聯絡AIDD Pro(請新增微訊號plgrace)進行刪改處理。