編輯 | 蘿蔔皮
在過去十年中,非法藥物市場因秘密生產的名牌藥物的激增而重塑。這些被稱為新型精神活性物質(NPS)的藥劑旨在模仿眾所周知的濫用藥物的生理作用,同時規避藥物管制法律。新精神活性物質濫用的公共衛生負擔迫使毒理學、警察和海關實驗室在執法緝獲樣本和各類生物樣本中對其進行篩查。然而,由於這些物質的化學多樣性,以及它們在非法市場上出現的短暫性質,識別新興的 NPS 非常困難。
不列顛哥倫比亞大學(University of British Columbia)、阿爾伯塔大學(University of Alberta)等機構的研究人員合作,研發了 DarkNPS;這是一種支援深度學習的方法,可僅使用質譜資料自動闡明身份不明的設計藥物的結構。該方法採用深度生成模型來學習未觀察到的結構的統計機率分佈,研究人員將其稱為結構先驗。
實驗結果表明,結構先驗允許 DarkNPS 以 51% 的準確度和 86% 的前 10 名準確度闡明未識別 NPS 的確切化學結構。該生成方法有可能使質譜法常規分析的其他型別小分子的從頭結構解析成為可能。
該研究以「A deep generative model enables automated structure elucidation of novel psychoactive substances」為題,於 2021 年 11 月 15 日釋出在《Nature Machine Intelligence》。
背景
過去十年見證了新精神活性物質(NPS)的可用性和爆炸性增加,也稱為「設計藥物」或「合法興奮劑」。NPSs 通常是透過對現有濫用藥物的化學結構稍加修改而產生的,產生的衍生物可以規避藥物管制立法,同時保留其精神活性。眾所周知的 NPS 的例子包括合成大麻素、合成卡西酮、迷幻色胺和苯乙胺,以及合成阿片類藥物。
NPS 是由不良化學家秘密合成的,他們挖掘科學和專利文獻,以識別針對與現有精神活性藥物相同的受體的化合物。這些化學家對這些化合物分佈缺乏控制,意味著新的 NPS 正在以每週大約一種化合物的速度不斷進入「灰色市場」。
與此同時,成熟的藥物可能會因立法而迅速從市場上消失。NPS 的藥理學和毒理學尚未得到很好的表徵,其中許多與危及生命的中毒症和死亡有關。因此,陶醉於 NPS 的患者給醫療保健系統帶來了沉重的負擔。這種公共衛生負擔迫使全球的法醫實驗室在執法緝獲的樣本中篩查 NPS。然而,這些物質的化學多樣性,以及它們在非法市場上出現的轉瞬即逝的性質,給新化合物的檢測和鑑定帶來了極大困難。
由於多種原因,在緝獲或生物樣本中識別新的設計藥物具有挑戰性。首先是候選 NPS 之間的高度結構相似性,它們通常是來自同一藥物化學系列的類似物。第二個挑戰是新化合物進入灰色市場的速度太快,這需要為以前未知的物質開發新的檢測方法。檢測開發需要大量的時間和精力,而 NPS 固有的新穎性意味著對於最近進入市場的 NPS,很少有分析參考材料。
當前,已經開發了許多分析方法來克服這些挑戰。從歷史上看,篩選主要透過免疫化學方法完成,但這些方法受到靈敏度低、無法提供成分解析的藥物譜以及建立新檢測所需的時間和精力的限制。
最近,質譜(MS)已成為 NPS 檢測和識別的主要方法。高解析度 MS(HR-MS)可以為給定分析物提供高度準確的質量測量值,縮小潛在候選物的列表,並允許與參考資料庫進行比較。串聯質譜(MS/MS)以診斷性子離子的形式提供附加資訊,從而實現更高可信度的分子鑑定。然而,MS 方法的一個主要缺點是,為了透過其精確質量或串聯質譜來識別 NPS,研究人員最低限度地要求其化學結構存在於參考資料庫中。這對識別剛剛出現在市場上的新設計藥物構成了障礙。
闡明這些新化合物的完整化學結構通常被認為需要正交技術——最常見的是核磁共振光譜。然而,NMR 的較低靈敏度需要大量的 NPS 材料作為輸入。
在實踐中,即使冷凍探針技術可以提高其靈敏度,核磁共振也只能應用於執法部門的緝獲,從中可以獲得足夠數量的物質。出於同樣的原因,在疑似 NPS 中毒的情況下,核磁共振不能用於篩查人體組織。
簡介
研究人員介紹了 DarkNPS,這是一個支援深度學習的系統,可僅使用 MS 資料自動闡明未識別 NPS 的化學結構。該方法基於使用化學結構的深度生成模型。這個家族的模型在化學和深度學習領域引起了極大的關注,因為它們有可能按需生成具有任意物理化學或生物特性的分子,從而解決所謂的「逆向設計」問題。
圖示:新型精神活性物質的深度生成模型。(來源:論文)
這項工作的大部分內容集中在產生對特定受體有活性的配體的可能性上。在這裡,研究人員尋求生成與一種或多種分析測量特性相匹配的類 NPS 分子。透過使用適用於低資料機制的策略來實現這一點,從僅約 1,700 個示例中學習設計藥物的強大生成模型。
圖示:生成的分子與已知的設計藥物非常相似。(來源:論文)
從這個模型中取樣然後隨機生成新分子,這些分子與現有的設計藥物填充相同的化學空間。研究人員使用一組保留的 194 個 NPS 來驗證 DarkNPS,這些 NPS 在檢驗後由法醫實驗室接收,這表明研究人員的模型成功預測了隨後出現在非法市場上的 90% 以上的 NPS。
圖示:取樣頻率定義了不可見分子的結構先驗。(來源:論文)
因此,從模型中取樣新分子的頻率可用於建議最有可能解釋準確質量測量的化學結構。生成的結構與 MS/MS 資料的整合進一步提高了結構解析的準確性。
圖示:未識別的 NPS 的自動結構解析。(來源:論文)
討論
這項工作成功的關鍵是研究人員能夠從少量示例中學習強大的化學結構生成模型。為了實現這一目標,研究人員嚴重依賴於從研究人員最近的基準分析中確定的有限訓練資料中學習強大的生成模型的策略。
在該研究中,研究人員試圖透過對來自四個化學資料庫的 SMILES 字串的隨機樣本訓練超過 8,500 種不同的語言模型,系統地剖析在低資料機制中學習穩健生成模型的要求。研究人員系統地改變了模型訓練的各個方面,從資料增強和分子表示到模型架構和超引數。研究人員的實驗結構還允許研究人員對用於評估生成模型本身的指標進行基準測試,並確定為模型開發提供良好基礎的指標子集。
圖示:在設計者解離脫氧甲氧塞胺之前應用結構。(來源:論文)
在這裡,研究人員利用本研究中開發的見解從僅約 1,700 個已知 NPS 中訓練了一個出色的生成模型。該資料集比傳統上用於訓練生成模型的資料集小几個數量級。研究人員的模型在如此少量的訓練資料中表現出驚人的良好效能,這可能是許多因素的基礎。非規範 SMILES 列舉的資料增強對模型效能產生了巨大影響,與之前的結果一致。另一個可能促成研究人員成功的因素是 NPS 的化學空間相對均勻。這一觀點與研究人員的發現一致,即當訓練集的多樣性較低時,生成模型更有可能在低資料環境中取得成功,並表明可能為許多具有生物醫學興趣的受限化學空間學習生成模型。
研究人員的方法的一個侷限性在於,它需要研究人員從生成模型中抽取一個非常大的樣本,以將每個獨特分子出現在模型輸出中的頻率製成表格。這是由於 SMILES 格式的冗餘(即,許多不同的 SMILES 字串可以對應於同一個分子)以及模型事先不知道給定 SMILES 字串在生成時的質量是多少的事實 仍在進行中。
研究人員發現 10 億個 SMILES 字串的樣本大小在化學空間覆蓋率和計算要求之間取得了合理的平衡,並且足以獲得對取樣頻率的可靠估計。然而,可以想象,未來的努力可以透過根據一種或多種實驗觀察到的特性調節分子生成來提高計算效率。
圖示:使用 MS/MS 進行高可信度結構解析。(來源:論文)
結語
儘管如此,UBC 模型由新型精神活性物質資料中心安全分發,已經被美國緝毒署、聯合國毒品和犯罪辦公室、歐洲毒品和毒癮監測中心以及德國聯邦刑事警察辦公室使用。
「現在有一個化學『暗物質』的完整世界,就在我們的指尖之外。我認為正確的人工智慧工具有一個巨大的機會來照亮這個未知的化學世界。」該研究的主要負責人 Skinnider 博士說。
論文連結:https://www.nature.com/articles/s42256-021-00407-x
相關報道:https://techxplore.com/news/2021-11-drugs.html