01 介紹
藥物發現過程包括根據預定義的標準定製藥物概況進行多輪迭代設計、製造、測試和分析。一種令人滿意的化合物從發現階段到風險更高的臨床前和臨床開發階段平均需要3-5年時間並花費大約7億美元。因此,開發能夠加快藥物發現過程並鑑定高質量化合物的創新方法不僅對學術研究界和整個製藥行業非常重要,對普通公眾也非常重要。
近年來開發了多種計算機方法來預測藥物發現中的結合親和力,隨著時間推移,預測質量不斷提高。這些方法通常依賴於基於規則的物理模型或基於資料的機器學習(ML)和人工智慧(AI)模型。在這些計算方法中,自由能微擾(FEP)方法,一種基於統計力學的嚴格自由能預測模型,由於其準確性,在預測候選化合物及其生物靶標之間的結合親和力方面的可靠性吸引了越來越多的關注。FEP計算依賴於一系列定義明確的中間狀態的定義,以在兩個不同的物理狀態之間進行插值,並透過耦合引數的作用,逐漸將初始(參考)狀態轉換為最終(目標)狀態。典型的例項是計算兩種不同配體之間的相對結合能量(RBFE)或將配體的絕對結合可自由能(ABFE)的計算到其生物靶標。到目前為止,ABFE計算取得了實質性進展,相關應用也存在,使FEP在藥物發現研究中得到更廣泛的應用。然而,由於可擴充套件性、可負擔性、效率和適用場景的限制等問題,在藥物發現專案中更廣泛和普遍使用FEP的限制仍然存在。
為了克服這些限制,我們開發了XFEP,一個用於大規模FEP模擬的雲計算平臺。在XFEP中,RBFE和ABFE都得到了進一步最佳化,並輔以系統特定的定義力場(FFs)和增強的取樣。XFEP平臺將FEP計算與人工智慧模型和溼實驗室實驗相結合,構成了一個完整的計算平臺。在這項研究中,我們使用RBFE和ABFE計算研究了我們的XFEP平臺的效能,這些計算對應於藥物發現場景,包括命中識別、先導物選擇和最佳化、蛋白質-蛋白質相互作用中的蛋白質突變效應、藥物選擇性和耐藥性。這些應用示例凸顯了完全可擴充套件的FEP應用提供的新機遇,同時也讓我們討論了仍有待解決的挑戰。
二、方法
2.1 RBFE
徑向基函式計算是FEP在藥物發現專案中最常見和最廣泛的應用。XFEP工作流程利用AMBER軟體包進行自由能計算。徑向基函式計算按照分步方案分三個階段進行:放電、LJ(倫納德-瓊斯相互作用)和再充電。在去電荷階段,不存在於最終配體中的初始配體原子的部分電荷減少到0,λ視窗為0.0、0.25、0.5、0.75和1.0。在LJ階段,LJ引數與任何附加的鍵引數以及普通原子的部分電荷一起從初始狀態轉換到最終狀態,λ視窗為0.0、0.0479、0.1151、0.2063、0.3161、0.4374、0.5626、0.6839、0.7937、0.8849、0.9521和1.0。再充電階段逐漸增加最終配體的部分電荷,其λ值與用於去充電的相同。在這項工作中,每個λ視窗的模擬時間為2 ns。最後,使用多狀態貝內特接受比方法評估自由能。對於所有系統,從獨立隨機化的速度開始,重複模擬五次,透過對五次獨立執行求平均值,計算相應的∆∆G值。統計不確定性被估計為這五次執行的標準偏差。一種或多種化合物可用作將∆∆G值轉換為∆G值的參考。當將∆∆G轉換為∆G時,所有擾動的權重相同,這意味著假設所有擾動都將具有相同的計算誤差。此外,所有∆G值的權重也被認為是相同的。如有必要,在FEP使用的選定化合物對的擾動拓撲也可以從相同的最佳設計方法中匯出。
2.2 ABFE
絕對結合親和力的計算是相對自由能計算的特殊情況,其中目標配體是虛擬配體。ABFE方法包含了與徑向基函式方法大不相同的擾動,並有其自身的一系列困難和特殊考慮。例如,由於擾動範圍較大,ABFE計算比徑向基函式計算更難收斂。此外,因為靶配體被視為假配體,即整個配體從系統中“消失”,所以需要應用抑制的特定處理。
用於ABFE計算的平衡方案類似於用於RBFE計算的方案,除了在平衡方案結束時對複合物進行了額外的500 ps模擬。ABFE不需要配體之間的對映,取而代之的是選擇六個原子(三個原子l1、l2和l3來自配體,三個原子p1、p2和p3來自蛋白質)來進行Boresch抑制。一般來說,在進行ABFE計算時,有充分的自由選擇如何應用約束。在這項工作中,選擇如下:選擇原子l1作為最靠近配體幾何中心的配體原子,選擇原子l2作為與l1距離最大的配體原子,選擇原子l3作為與l1距離最大的配體原子,同時滿足角度l1-l2-l3在60°和120°之間的條件。選擇原子p1、p2和p3分別是離配體5°以內的非甘氨酸殘基的CA、CB和N原子。ABFE計算分兩個階段進行。在第一階段,六個約束被開啟,包括一個鍵l1-p1、兩個角l2-l1-p1和l1-p1-p2,以及三個二自由度l3-l2-l1-p1、l2-l1-p1p2和l1-p1-p2-p3,同時關閉所有配體原子上的部分電荷,λ視窗為0.0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9和1.0。在第二階段,配體和環境之間的LJ相互作用被關閉,同時保持約束開啟,λ視窗為0.0、0.1、0.2、0.3、0.4、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95和1.0。每個λ視窗的模擬時間為2 ns。最後,應用了一個分析修正項來說明約束的影響。ABFE計算的收斂通常是複雜的,因為解結合時結合位點的重排和相關的水擴散可能是非常緩慢的過程。
2.3 蛋白質突變
FEP還可用於研究蛋白質-蛋白質相互作用中的蛋白質突變效應、藥物選擇性和獲得性耐藥性。使用AMBER tLEaP生成目標殘基的側鏈旋轉體構象,並將其附加到初始殘基的骨架上。附加側鏈的非鍵合相互作用逐漸開啟,以鬆弛目標殘基的旋轉體構象。
2.4 系統特定的FF細化
FF是決定FEP預測準確性的關鍵因素之一。XFEP包括一個執行系統特定的F-F細化的模組。對於特定的FEP應用,系統特定的故障排除如下執行。首先,配體被片段化以構建更小的模型化合物,其設計方式使得單個柔性扭轉的化學環境代表配體中柔性扭轉的環境。然後,每30秒掃描一次模型化合物的柔性扭轉,以生成量子力學(QM)能量分佈圖。質量管理剖面是在B3LYP/6-31G*//RIMP2/cc-pVTZ水平上使用PSI4包計算的。最後,扭轉引數根據量子力學能量分佈重新調整,從一個內部開發的小類藥物分子(XFF)的FF開始,重新調整的引數被轉移到FEP模擬的完整配體。改裝過程可以以相對適中的計算成本顯著提高FEP計算的FF質量,FF細化中最耗時的部分是質量管理計算。
2.5 FEP模擬雲計算平臺
我們的XFEP平臺旨在為基於FEP的應用程式提供對相同級別的可擴充套件計算資源的訪問。該平臺支援RBFE和ABFE計算的模擬任務,以及相關的相對水合自由能和絕對水合自由能。XFEP旨在支援小分子配體、肽或突變蛋白與其生物靶標結合的研究。這些功能包括用於RBFE和相對水合自由能計算的擾動對設計、用於FF引數細化的模組、用於將增強取樣應用於擾動子系統的選項、用於電荷修改擾動的校正方案和LJ相互作用的分步和協同方案,以及用於一系列典型模擬任務的一系列預定義設定,包括高效和全FEP協議。這些選項和功能的管理可以透過為此目的開發的圖形使用者介面來訪問(參見圖一)。
三、結果
3.1 使用R組替換的徑向基函式計算的效能基準
我們用王等人的八個測試用例驗證了我們的XFEP工作流,分別是BACE、CDK2、Jnk1、MCL1、p38、PTP1B、凝血酶和Tyk2。XFEP工作流程產生的FEP結果,結合我們內部系統特定的FF引數,具有良好的準確性。此外,我們的結果顯示R2值與OPLS3e相當。這表明,就與實驗資料的相關性而言,我們的XFEP工作流程結合系統特定的F-F引數顯示出與FEP+結合最新的OPLS FF一樣好的效能。就RMSE而言,我們的工作流程顯示出比OPLS3e稍差的整體效能,對於所考慮的333個分子對的集合,RMSE大0.15千卡/摩爾。這主要是由於一些異常值的存在,導致MCL1系統的RMSE相對較高。對這些異常值的深入分析將是我們下一輪XFEP細化的重點之一。
另一個需要考慮的相關量是每次擾動的取樣時間,因為藥物設計專案中的計算資源通常是有限的。在我們的標準工作流程中,當前每次擾動的模擬時間與FEP+相似。此外,為了提高計算效率,我們還實現了一個最佳化的工作流,並將其作為基準,我們稱之為高效協議。在該協議中,我們將λ視窗的數量減少到11個,透過使用協調的λ方案來保持精度,並且我們還將模擬時間減少到每個λ視窗1 ns。我們已經驗證了這個過程產生的結果與用上述標準工作流程獲得的結果非常一致(參見圖三)。
系統特定的頻率響應誤差是作為XFEP平臺的一個模組來實現的,以減輕與由F F的缺陷引起的FEP預測異常值相關的問題。事實上,扭轉能量分佈的改善對生物目標Tyk2的預測自由能變化有顯著影響,並且系統特定的F-F細化可以被認為是改善FEP效能的通用工具。然而,為了識別給定系統的FF問題,需要精確的FEP預測模型來將FF誤差與其他誤差源分開。與ABFE計算相比,相對更精確的徑向基函式計算是識別潛在的徑向基函式問題的更合適的工具。在實際應用中,只有一個給定生物目標的化合物被排列在一起。因此,當轉換後的∆G值用於區分這些化合物的優先順序時,使用不同的參考化合物不會影響推薦結果。在有更多實驗測量可用的情況下,這些實驗∆G值都可以用作從∆∆G到∆G轉換的參考。
3.2 不同支架分子的ABFE效能基準
傳統的徑向基函式計算提供了一個實用而可靠的工具來對沒有太大差異的分子進行排序。然而,在藥物設計過程中,經常需要比較彼此結構相似性很小或沒有結構相似性的分子。為了驗證我們的ABFE協議,我們考慮了兩個不同的測試用例。首先,我們以之前用於替代RBFE計算的八個目標中的四個為基準進行計算。我們決定將比較限制在所有相關配體都是中性的四個靶點(CDK2、Jnk1、p38和Tyk2)。其他四個靶點(BACE、MCL1、PTP1B和凝血酶)不包括在內,因為它們的配體帶有淨電荷。ABFE計算是使用XFEP工作流程結合上述系統特定的F/r限制進行的。這些計算的結果如圖四所示。
圖四:CDK2、Jnk1、p38和Tyk2化合物的預測ABFE值和實驗資料之間的相關性
所有測試病例的高R2值表明,在相應的藥物發現方案中,配體與ABFE的排序是令人滿意的。然而,我們也注意到,所有測試系統的預測都會受到系統誤差的影響,即使預測結果和實驗結果之間的相關性很明顯。ABFE結果的範圍(BRD4系統從15到8千卡/摩爾)幾乎是實驗資料範圍(BRD4系統從10到6千卡/摩爾)的兩倍。這種系統效應可能是由於FF引數的不足,或者由於有限模擬時間引起的解結合時結合位點構象變化的不準確取樣。
3.3 RBFE在蛋白質突變方面的積極表現:蛋白質-蛋白質相互作用、耐藥性和藥物選擇性。
FEP計算已被廣泛用於研究蛋白質突變對各種熱力學量的影響。這樣的計算已經成功地用於預測耐藥性,設計選擇性化合物,最佳化肽抑制劑的結合親和力和熱穩定性。通常,研究蛋白質突變的FEP計算是透過擾動殘基的側鏈將一個殘基轉化為另一個殘基來進行的。這個過程類似於上面描述的R-群擾動。我們進行了FEP計算,以計算由單一突變引起的灰色鏈黴菌蛋白酶B (SGPB)和火雞卵粘液樣第三結構域(OMTKY3)之間結合親和力的變化。在之前的幾項研究中,這種蛋白質-蛋白質複合物已被用於驗證FEP計算的準確性。對五個選定的突變進行FEP計算,顯示結合親和力的變化範圍為3.0至8.5千卡/摩爾。計算值和實驗值的MUE、RMSE、Kendall’s τ和R2值分別為0.55千卡/摩爾、0.76千卡/摩爾、0.95和0.97(表3)。
表3:突變引起的SGPB和OMTKY3結合自由能變化的計算∆∆G值和實驗∆∆G值的比較(報告值單位為千卡/摩爾)
最後,對化合物CEP-701和絲裂原活化蛋白激酶(MAP4K)家族進行選擇性計算。透過突變與結合化合物直接接觸的殘基,計算MAP4K1/HPK1和其他異構體的RBFE差異。結果如表5所示。
表5:化合物CEP-701相對於MAP4K蛋白家族的選擇性透過XFEP計算並透過實驗測量(報告值以千卡/摩爾為單位)
這些例項表明,XFEP為研究與藥物發現相關的不同情況下的蛋白質突變提供了可靠的工具,例如蛋白質-蛋白質/肽相互作用、藥物選擇性和獲得性耐藥性。
四、討論
4.1 徑向基函式預測效能的統計分析
預測的準確性會受到許多因素的影響,如FF、FEP協議的物理嚴格性、建模質量和重要構象狀態的取樣。在單個對水平上,預測的∆∆G結果用於評估目標分子在結合親和力上是否比參考化合物更有利。然而,在大多數情況下,多個分子會一起評估優先順序。在這種情況下,預測的效能可以透過實驗值和預測值之間的相關係數(R2)和肯德爾秩相關係數(τ)來統計表徵。如果我們考慮與上面研究的八個系統考慮的333個擾動對相關的資料,我們注意到,正如在其他研究中假設的,預測誤差的分佈(∆∆Gexp-∆∆GFEP)很好地由高斯分佈N(μ,σ)表示。擬合曲線和相關擬合引數如圖6所示。
圖六:不同FFs下RBFE預測誤差∆∆Gexp-∆∆GFEP的機率密度分佈
事實上,對於給定的目標系統,由實驗測量的分佈和不確定性強加給它的實際預測精度和理論上限之間的比較,決定了FEP協議是否能夠得到實質性的改進。
4.2 雲計算平臺上可擴充套件、高效且經濟實惠的FEP預測
除了計算的準確性之外,高成本和長等待時間是限制FEP應用於真正的藥物發現專案的兩個主要因素,這些專案需要有效的DMTA迭代和對許多不同分子的評估來進行優先順序排序和假設檢驗。XFEP就是為了解決這些限制而構建的。
4.2.1.可擴充套件
FEP計算的本質,即對許多λ視窗(本工作中為11或22)和許多不同化合物的短模擬(即本工作中為1或2 ns),使其成為在雲計算平臺上以完全可擴充套件的方式使用的理想工具。充分利用這種可擴充套件性,一個專案的FEP計算的典型例項數量可以從幾十個或幾百個擴充套件到幾千個甚至更多,潛在地允許被評估分子的數量增加兩倍。
4.2.2.高效
為了加速FEP計算,我們啟用了氫質量轉移和協調λ方案。氫傳質允許使用更大的時間步長,這可以將模擬速度提高兩倍。協調λ方案可以將λ視窗的總數從22個減少到11個,這可以將模擬速度再提高兩倍。
4.2.3.價格實惠
透過這些努力來提高FEP計算的效率,一個分子的FEP計算成本可以從不到1美元到10美元不等,這取決於系統的大小、採用的FEP協議(高效還是完全)以及點例項模式中的節點是否可用於計算。在一個內部藥物發現專案中,FEP使用50-100個GPU卡在一週內完成了對5000種設計化合物的評估,這些化合物用於一個具有37000個原子的中型系統,總成本大約相當於一種新化合物的合成成本(2500美元)。
4.3 FEP在藥物發現專案中應用的新機遇
隨著學術界和工業界不斷努力改進FEP方法,在預測許多生物系統的相對和絕對結合親和力方面取得了相當好的成績。可擴充套件雲計算資源的高效部署使我們能夠在1周內完成數千個分子的FEP計算,平均GPU成本控制在每個分子不到1美元。這一能力為FEP預測應用於以前無法達到的新場景鋪平了道路。下面評論這種新應用的三個可能的例子。
第一個場景是用於分子生成和可擴充套件FEP應用的人工智慧方法的協同組合。在這種情況下,人工智慧被用作具有定向目標的快速設計思想生成工具,例如,用於基團替換、核心跳躍或具有定義標準的從頭分子生成,例如分子量、極性表面積、氫鍵供體和受體的數量、合成性和結合親和力。在這一人工智慧生成步驟之後,使用有效的方案選擇數千個分子進行FEP預測,並針對選定的生物靶標驗證其效能。然後,預測的結合親和力結果被用於下一輪具有強化學習的人工智慧模型細化,以生成用於後續FEP評估的新分子,從而產生自動迭代方案,該方案逐步提高生成的候選分子的質量。
第二種情況是在命中識別階段應用ABFE預測,由於ABFE預測的高成本和誤差,與徑向基函式計算相比,迄今為止應用有限。從藥物設計的角度來看,徑向基函式計算和ABFE計算屬於相當不同的應用領域。當接近化學精度(例如,1千卡/摩爾)對於目標化合物和參考化合物之間的正確排序至關重要時,RBFE更適合於命中-領先和領先最佳化。另一方面,對於命中發現過程中的虛擬篩選,僅要求準確性足以將活頁夾與非活頁夾分開,ABFE計算可能是一個有價值的工具。預計進一步的探索將展示可擴充套件的ABFE如何在更多的藥物發現專案中幫助更好地識別命中。
用於可擴充套件FEP計算的第三種應用場景是在命中引導和引導最佳化階段的虛擬合成孔徑雷達評估。從命中到領先階段的目標是確定兩到三個最有潛力發展成類似藥物的領先的命中系列。在命中引導和引導最佳化階段,使用DMTA迴圈構建合成孔徑雷達,從該迴圈中逐漸產生更多的實驗資料。透過對給定生物目標的有效預測效能,FEP可以應用於每個專案數千種化合物規模的虛擬合成孔徑雷達評估。這有助於對提出的假設進行快速排序,並有助於識別大多數真正的陰性化合物。在這種情況下,FEP有望加快DMTA迴圈,製造和測試的化合物更少,但成功率更高。
4.4 FEP在藥物發現專案中應用的剩餘挑戰
儘管上文討論了新的機遇,但為了進一步將FEP計算的應用領域和有效性擴充套件到藥物發現專案,仍有相當多的挑戰需要克服,其中一些挑戰如下:
a.RNA靶標FEP:據我們所知,RBFE和ABFE的計算都只應用於蛋白質靶標。然而,可能的核糖核酸靶點的數量遠遠超過可藥物的蛋白質靶點。研究表明,核糖核酸是一種合適的小分子藥物靶點。然而,針對核糖核酸的FEP預測面臨幾個主要挑戰,包括核糖核酸和相關金屬離子FFs的有限準確性、靈活核糖核酸結構的適當取樣問題等,解決這些問題將為FEP的藥物發現應用開闢一條全新的途徑,並有望在不久的將來成為整個FEP研究界感興趣的主題。
b.如何解讀FEP預測結果:從FEP預測的回顧性驗證中,我們知道在大多數情況下不可避免地會出現假陰性和假陽性結果。假陽性病例並不總是增加計算成本的無用副產品。事實上,它們也可以用來測試設計思想的假設,因為它們代表了無效化學空間的元素。這個化學空間與包含高親和力化合物的化學空間是互補的,而高親和力化合物又是化合物篩選的最終目標。FEP可以識別大多數真正的陰性病例。因此,良好的領域適用性和預測誤差對於解釋結果是重要的,並且可以從預測的和已經可用的實驗結果之間的比較中逐步獲得指導。此外,除了結合親和力之外,還應考慮其他因素,包括可合成性和專案資源等,以決定如何前進。
c.不同使用者導致的FEP效能的可變性:有許多變數控制給定生物目標和化合物的FEP效能,包括參考複雜結構的選擇、生物目標和小分子的處理、系統的建模細節、FF及其相對細化的選擇、FEP生產執行前系統的準備、RBFE化合物對之間的原子對映或ABFE約束的選擇。在真正的藥物發現專案中,FEP的使用者並不總是像開發方案的研究人員那樣有經驗,這在使用者之間造成了FEP效能的差距。為了緩解這個問題,需要做更多的工作來彌補使用者體驗方面的差距。
5 總結
在這項工作中,我們引入了XFEP,用於在各種藥物發現場景中進行RBFE和ABFE預測,XFEP以高效且經濟的方式為藥物發現專案提供大規模FEP計算。這些進步,加上用於目標導向分子生成和評估的人工智慧技術,為FEP在藥物發現階段的應用提供了更多的機會,包括命中識別、命中至領先和領先最佳化,不僅利用了R基團取代和核心跳躍,還比較了完全不相關的分子。從針對給定生物靶標的效能經過驗證的FEP開始,使用50-100個GPU卡,可以在一週內完成5000種設計化合物的可擴充套件FEP評估,成本大約相當於合成單一新化合物的成本。預計與人工智慧建模緊密結合的可擴充套件FEP應用將在藥物發現場景中得到更廣泛的應用。
參考資料:Lin Z, Zou J, Liu S, et al. A Cloud Computing Platform for Scalable Relative and Absolute Binding Free Energy Predictions: New Opportunities and Challenges for Drug Discovery[J]. Journal of Chemical Information and Modeling, 2021, 61(6): 2720-2732.a