大家好,今天推送的文章來自於2021年11月發表在ACS Catalysis上的Machine-Directed Evolution of an Imine Reductase for Activity and Stereoselectivity。
生物催化是獲取難以合成或純化的手性分子的有效工具。然而,將酶應用於非自然反應通常需要進行一定程度的酶工程來獲得足夠活躍和穩定的生物催化劑。作者使用適度立體選擇性亞胺還原酶(IRED)作為模型系統評估了機器定向進化作為酶工程策略,並與深度突變掃描 (DMS) 和易錯 PCR 進行了比較。IRED催化的酮 1 向胺 2 的不對稱還原胺化,胺 2 是一種用於治療特應性皮炎的 H4 受體拮抗劑。由於IRED對仲胺和叔胺的立體選擇性,IRED 在整個管道中作為生物催化劑在藥物和候選藥物的合成中變得越來越重要。
首先,作者確定一種能夠催化 Cbz 保護的 3-氧代吡咯烷和甲胺之間的還原胺化的野生型IRED。作者進行基因組挖掘以尋找對所需 (R)-對映異構體具有更高活性的野生型 IRED(圖 1)。最終確定了最具 (R) 選擇性的野生型 IRED-88,選擇性為(ee (R) 30%),轉化率為70%。IRED-88提供了設計活性和對映選擇性的機會。在高通量條件下,酶在 384 孔微量滴定板中表達和篩選,表達 IRED-88 的孔產生大約 10% 的轉化率。
一個深度突變掃描 (DMS) 文庫(圖 2a),包含,在 IRED-88 序列的每個單獨位置上的所有 19 個氨基酸置換,並在 384 孔微量滴定板中表達。作者系統地繪製出 IRED-88 所有可能的 DMS 突變體中 82% 的序列-活性圖譜(圖 2a)。酶活性跨越四個數量級,從非活性酶(黑色)到活性增加的酶(黃色)。庫中活性的經驗累積分佈(圖 2b)表明,大多數變體破壞了酶活性。蛋白質結構的 N 端和 C 端對酶活性具有出乎意料的積極作用(圖 2a)。
接著,測量了 98 個 DMS 突變體的對映選擇性。結果範圍從純(R)-選擇性到純(S)-選擇性。S220T (96% ee)、S220N (80% ee)、A218M (76% ee)、Y177W (60% ee) 和 M129L (69% ee) 的 (R) 選擇性最高。幾個突變導致> 90% (S) 選擇性。A210Y 產生 97% ee (S)。位置 I212 對 (S) 選擇性有很大影響;I212E、I212K、I212N 和 I212S 的 ee 值分別為 93、95、96 和 94% (S)。值得注意的是,A218 位置的點突變證明可以翻轉立體選擇性(A218L,73% ee (S);A218M,76% ee (R))。使用Pareto前沿選擇(Pareto front selection),S220T被鑑定為最有效的突變。在高通量篩選條件下,與 IRED-88(c 10% 和 30% ee (R))相比,該變體產生了 70% 的轉化率和 96% 的 ee (R)。
在深度突變掃描的同時,對 IRED-88 進行了易錯 PCR (EPPCR)。突變率設定為整個基因的 1-4 個突變。與 DMS 文庫類似地篩選了大約 2800 個變體。然後,對 52 個獨特的變體進行手性分析。測量的變體中沒有一個對任一對映異構體產生大於 90% 的 ee。最好的 (S) 選擇性變體 (84% ee) 是 E29K/Y177F/I212T。根據Pareto選擇,該文庫中的兩個最佳變體是 E91D/A187S/A259T(c 54%、82% ee (R))和 E46D/H230Y(c 13%、89% ee (R))。
機器導向的進化
上述深度突變掃描和三輪易錯 PCR 測量超過 10000 多個突變體,產生了活性分佈的逐漸右移(圖 2b)。同時,作者的目標是測量由機器定向進化優先考慮的突變體的活性分佈,並將這些與易錯PCR 進行比較。作者使用從 DMS 和 EPPCR1 庫中收集的 IRED-88 突變體的測量值,編號大約 5000 個獨特的突變體,用 UniRep 1900 計算的蛋白質描述符訓練隨機森林序列-活性模型。該模型用於對提出的突變體進行計算機評分。雖然對映選擇性的訓練集要小得多,但建立了一個類似的 (R)-對映選擇性模型。根據隨機森林預測模型對計算機提出的突變體進行排序,並沿活性和 (R)-對映選擇性軸進行帕累託選擇,以預測跨越不同序列空間的 200 個突變體。其中,168個突變體被成功表達和篩選。與EPPCR1-3相比,它們一起展示了更大的右移累積分佈函式(圖 2b,“ML”面板),同時涉及的測量數量級更少。確定了 91 個突變體的對映選擇性。對映選擇性值是多種多樣的,這是在使用兩種模型評分的擬議突變體中應用Pareto選擇的結果。27個測量的突變體產生 ee (R) > 75%。S117H/A218M/A296T(c 74%,81% ee (R))和 A218M/A259T/A303 K(c 83%,79% ee (R))獲得最高 ee 值。
結構指導的機器導向進化
X 射線晶體學為我們提供了野生型 IRED-88 的 3D 結構(圖 3a)。這促進了結構引導和機器定向進化組合的測試以及突變線性可加性的研究。從深度突變掃描資料開始,根據以下三類選擇一組頂級活性突變體:在活性位點、鄰近活性位點和遠離活性位點。產生了雙重和三重突變體的組合,一些只包含單一類別的突變體,而其他的包含多個類別的突變體。使用來自 DMS、EPPCR1 和 EPPCR2 的資料,覆蓋大約 8000 個獨特的突變體,使用 UniRep 描述符訓練隨機森林模型,以對計算機生成的突變體進行評分。作者根據它們在每個突變組合類別中的預期活性對它們進行了優先排序。表達並測定突變體。與機器定向進化一樣,觀察到顯著的右移累積活性分佈(圖 2b,SGM 面板),對映選擇性跨越近乎完美的 (R) 或 (S) 選擇性酶。確定了 89 個變體的對映選擇性,該方法的前兩個變體,即 M129L/V175 K(c 71%,92% ee (R))和 M129L/A156S/Y177W(c 59% 93%,ee (R) 都共享一個活性位點突變 M129L(表 1)。僅此點突變導致 84% ee (R) 和 c 27%,主要影響立體選擇性而不是活性。V175 K 產生 71% ee (R) 和 c 56%,而 Y177W 單獨產生 80% ee (R) 和 c 43%。A156S 作為點突變產生 c 37% 和 65% ee (R)。
最後,為了實現對低N情況的真實模擬,從 DMS 庫中隨機挑選了 20 個突變體,並以它們先前測量的活性作為起點。擬合序列-活性模型,對來自該組的頂級突變體的雙重和三重組合進行評分。透過基因合成、表達和分析產生了 20 個變體,活動分佈再次右移(圖 2b,低 N 面板),儘管不如機器定向和結構引導的工程輪次那麼顯著。
本研究中使用的酶工程方法、模型和資料集的整體工作流程如圖 4 所示。下一步是對每個突變體池進行最終統一評估。透過帕雷託選擇對每個突變體庫進行排序,並選擇每個庫中的前兩個突變體,總共產生 14 個變體。觀察到的突變分佈在各種位置,覆蓋活性位點、鄰近和遠端殘基。
14 種選定的酶變體在搖瓶中表達,在 5 mM 濃度(圖 2c)下,這與高通量篩選條件相同,但由於在搖瓶中的表達得到改善而具有更高的酶濃度,包括野生型在內的所有酶都提供了接近定量的轉化。那些含有 S220T 的變體也得到 ee (R) > 95%。在 100 mM 底物濃度下, EPPCR2 和 EPPCR3、機器指導和一個結構引導都給出了高轉化率和高( R)-對映選擇性。對於低N工程命中 E261Q/S304 K 和 E261Q/A303 K/S304A,觀察到在 50 和 100 mM 底物濃度下對映選擇性降低,這可能是由於酶在較高底物負載下的穩定性問題。
結構引導的機器定向進化輪(SGM)提供了必要的資料集來測試關於突變效應可加性的想法。由於測量值是在 [0, 1] 範圍內轉換的分數,因此可以將測量值視為轉換機率。在突變效應獨立執行的假設下(即加性),人們會期望組合單個突變會導致它們的轉換機率成倍增加。作者將計算資料與測量的活性進行了比較。落在 y = x 線附近的活性表示正確預測酶活性的可加性,而偏離 y = x 線表示負或正上位性。如圖 3b 所示,只要突變位於活性位點,負上位性就很普遍。與活性位點相鄰的突變的參與有助於提高可加性的可預測性,儘管僅在考慮遠端突變時可加性最為明顯。這與活性位點和附近殘基中的突變具有很強的協同作用並且遠端突變(最有可能影響穩定性或表達)可以獨立起作用的假設一致。
透過實驗資料確認,作者已經表明機器定向進化是設計 IRED-88 的有效策略。透過僅篩選一小部分酶促變體,獲得了與來自傳統方法的那些具有相當的活性和對映選擇性的突變體。
END