Pharmacoprin是一種高解析度的藥效團指紋,可對分子的呈現、型別和藥效團特徵之間的關係進行編碼。
背景介紹
目前,指紋已成為編碼化合物結構最流行的方式之一,在化學資訊學被廣泛應用於相似度搜索、聚類和分類等任務。分子指紋的基本思想是對分子應用一個函式來生成一個位向量或計數向量。
另一種化學資訊學尤其是虛擬篩選中常用的技術是藥效團模型。藥效團是與生物靶點相互作用,並觸發生物效應的分子的各種結構特徵的空間取向。藥效團過濾器,本身可以作為篩選的一部分,甚至可以作為一個獨立的工具。指紋也經常在機器學習方法中扮演輸入的角色;因此,建立一個廣泛描述化學結構藥效團特性的指紋圖譜,可極大擴充套件該方法的應用領域。
將指紋圖譜與藥效團模型相結合的做法並不新鮮。McGregor和Muskal等人使用10549位元的指紋來描述三點藥效團,Wood等人的四點藥效團將其擴充套件到超過30萬位元,應用起來非常耗時且消耗CPU。ChemAxon在軟體中引入了一種基於原子對的二維藥效團指紋,這個指紋被定義為所有原子-原子藥效團特徵對及拓撲距離的集合,然而該指紋無法被轉換成二進位制向量。儘管前人已建立了高解析度的表示,但該主題仍留有進一步探索的空間。
主要內容
在本研究中,來自波蘭科學院藥理學研究所的Rafał Kurczab等人提出了藥效團指紋(以下稱為Pharmacoprint)的概念和構建,以二進位制形式描述藥效團特徵。Pharmacoprint在分類實驗中使用ML演算法(邏輯迴歸、支援向量機、線性支援向量機和神經網路)進行了評估,其效能優於其他流行的分子指紋(如ECFP4、Estate、MACCS、PubChem、Substructure、klekotra - roth、CDK、Extended和GraphOnly)和ChemAxon藥效特徵指紋圖譜。Pharmacoprint由39973位元組成;採用多種方法進行降維,其中最優的演算法不僅縮短了位串長度,而且提高了ML測試的效率。最後,Pharmacoprint產生了具有明確氫原子的三維(3D)結構作為輸入檔案應用到神經網路中,並使用監督自動編碼器選擇最重要的位元,使得可以最大化Matthews相關係數,最高可達0.962。相關的研究成果以 “Pharmacoprint: A Combination of a Pharmacophore Fingerprint and Artificial Intelligence as a Tool for Computer-Aided Drug Design” 為題釋出在國際著名期刊Journal of Chemical Information and Modeling上。
Pharmacoprint考慮並評估了指紋作為ML實驗輸入資料的應用(圖1)。
圖 1. 本研究中所進行實驗的一般方案。圖片來源於JCIM
專案地址:
https://github.com/lstruski/Pharmacoprint
Pharmacoprint的工作流程
該演算法的主要作用是識別分子中的藥效團特徵,並確定以鍵為單位的拓撲距離測量的內部特徵距離。使用者可自定義特徵定義和距離倉。
圖2. Pharmacoprint生成方案,其中兩個特徵,兩點和三點藥效團,和兩個距離倉定義一個38位元指紋。圖片來自JCIM
為了說明演算法是如何工作的,研究者假設只有兩個藥效團特徵(圖2中的A和B),兩個或三個特徵的所有可能組合,以及兩個距離倉(兩個或更少的鍵和兩個以上的鍵)。兩種藥效團特徵(A和B)可以組合成三對(AA、AB和BB)和四對三聯(AAA、AAB、ABB和BBB)。特徵對之間的距離可以認為是在第一個倉內(兩個或更少的鍵;bin “0”)或第二個倉內(兩個以上鍵;bin “1”),這意味著一個單一的兩點藥效團是由兩個位元來描述的。三點藥效團由8位元描述,因為三個內部距離,可以在第一或第二距離倉,可以產生8種可能的解決方案。這種表示的整個指紋由38位元組成。
在本研究中,為了測試Pharmacoprint的效能,研究者人員進行了以下設定:採用Gobbi和Poppinger最初列出的8種藥效團特徵型別(氫鍵受體、氫鍵供體、鹼性基團、酸性基團、疏水基團、鹵素、脂肪環和芳香環的連線點)和七個距離倉[(<1,3), (<3,4), (<4,5), (<5,6), (<6,7), (<7,8), (<8,100),以鍵為單位度量所有距離]。8個藥效團特徵、7個距離倉和所有的2點和3點藥效團的組合,共產生了39973位元的指紋。
表1. 本研究中所使用的受體列表,以及ZINC中的活性資料和化合物的數量。圖片來自JCIM
指紋比較
研究者比較了不同分子指紋圖譜和藥物學指紋圖譜的效率。使用了兩種非活性物質(ChEMBL的真正非活性物質和ZINC的假定非活性物質)。Pharmacoprint是透過以下設定生成的:無約簡演算法(所有39973位元指紋全部使用) ,生成氫原子位置確定的三維表徵。所有計算均使用三種ML方法(SVM、LSVM和LR)進行。
圖3. 本研究分析的所有指紋圖譜的MCC值箱圖。圖片來自JCIM
結果(圖3)顯示,Pharmacoprint在真假陽性化合物分類方面優於所有測試指紋。Pharmacoprint的中位MCC(Matthews相關係數,範圍為-1~1)和平均MCC均最高(分別為0.766和0.736);然而,ECFP4和FCFP4的結果相似(ECFP4的中位MCC = 0.754,平均MCC = 0.729, FCFP4的中位MCC = 0.749,平均MCC = 0.722)。Pharmacoprint的效能與廣泛使用的KRFP、ECFP4和FCFP4具有可比性(KRFP和Pharmacoprint的中位MCC為0.980,FCFP4為0.981,ECFP4為0.983)。
Pharmacoprint與ChemAxon PF fp比較(分別針對靶點和ML方法),結果顯示出了Pharmacoprint的優勢,45例中有37例MCC值較高。
表2. 比較Pharmacoprint和ChemAxon PF fpa的MCC值(3種ML方法和15種不同靶點計算)的差異。圖片來自JCIM
所有結果在p = 0.05的顯著性水平下,經Friedman檢驗進行了統計學分析。結果證明,ECFP4和FCFP4與Pharmacoprint的差異在統計學上並不顯著。Pharmacoprint與其他三種結構指紋圖譜(Ext、FP、KRFP)的差異也無統計學意義,但在等級上差異較大。六個剩餘的指紋圖譜,已證明在統計上比Pharmacoprint差。
輸入分子表示的影響
隨後的實驗只進行了Pharmacoprint表示,沒有用無約簡演算法來闡明化學結構,結果(圖4)表明在Pharmacoprint生成前,不管應用何種ML方法,適當準備化學結構是獲得高質量結果的關鍵。因此,為了保證結果的最高質量,化合物應制備為具有明確氫原子位置的三維結構。而在Pharmacoprint中,當藥效團特徵的數量增加2倍時,位元數就會增加10倍。這樣的分子會引入很多噪音。當化合物從2D轉換為3D時,觀察到結果的質量得以提升,從而確保了高分子量化合物的消除。因此,為了獲得高質量的結果,自動截斷是必須的步驟,但轉換為3D資料本身並不是必須的。綜上所述,初始資料準備是耗時的;然而,必須最大限度地利用這些資料,來建立機器學習預測模型的統計引數。
圖 4. 在三種不同的機器學習方法的分類實驗中獲得的輸入分子的不同表示的平均MCC值(15個不同的生物靶點計算)。圖片來源於JCIM
靶點依賴性
在分析不同靶點的結果時(圖5),可以發現無論採用哪種ML/約簡演算法組合,一些靶點的結果都優於其他靶點的結果。特別是,對活性化合物數量最多的生物靶點(如delta阿片類受體或5-羥色胺-HT6受體)的檢測結果較好。NMDA和NPC1受體的活性成分相對較少,結果最差。
圖 5. 透過不同的機器學習方法和約簡演算法獲得不同生物靶點的MCC值。圖片來源於JCIM
然而,HIV整合酶抑制劑卻沒有觀察到類似的結果,儘管和較差靶標的活性化合物的數量相似,但建立的分類模型卻非常有效 (MCC值達到了0.962,這是本研究中所實現的最大值)。與HIV整合酶抑制劑相比,在NPC1活性和非活性之間觀察到更高的內部差異,但在這種情況下,不良結果是由於活性和非活性之間的數量失衡(約1:161)。
以上結果表明,採用監督式自動編碼器對指紋進行約簡是最佳的方法;對於大多數靶點,該方法獲得的MCC值最高,與神經網路結合尤其有效。
圖 6. 本研究分析的所有5-HT1AR活性化合物中活性最好的化合物ChEMBL42393的結構以及相似性搜尋的每個指紋型別中最相似的三個化合物。圖片來源於JCIM
結論總結
本文介紹了一種描述化合物結構中藥效團特徵呈現的指紋圖譜。Pharmacoprint是最長指紋之一;在一定設定下生成的完整指紋由39973位元組成,但這是很容易縮減的。當作為ML方法的輸入時,這種表示優於其他11種常用的分子指紋中的9種,並在分離真正的活性和非活性上返回與ECFP4和FCFP4相似的結果。
如果Pharmacoprint是由定義了氫原子的3D輸入結構生成的,並將其作為具有監督自動編碼器功能的神經網路的訓練資料,則在分類測試中可以獲得高達0.962的MCC值。
參考文獻
Dawid Warszycki, Łukasz Struski, Marek Śmieja, Rafał Kafel, and Rafał Kurczab, Pharmacoprint: A Combination of a Pharmacophore Fingerprint and Artificial Intelligence as a Tool for Computer-Aided Drug Design, Journal of Chemical Information and Modeling Article ASAP. DOI: 10.1021/acs.jcim.1c00589.
中大唯信頭條號與中大唯信公眾號、唯信計算訂閱號均由中大唯信科技有限公司運營,歡迎關注轉發,未經授權禁止轉載