微生物網路構建是微生物研究中一種流行的探索性資料分析技術。儘管迄今為止已經開發了大量的微生物網路構建工具,但是關於微生物網路的構建和解釋的一些問題還沒有受到足夠的重視。近日,比利時魯汶雷加醫學研究所Karoline Faust博士分析了該領域未來可能面臨的十大挑戰。
背景
得益於高通量測序技術發展,數百個生態系統的數千個樣本的微生物組成已成功解析。與基於個體間生物相互作用觀察而構建的大型生物體網路不同,微生物網路是從測序資料中獲得的資料構建的。微生物網路還可以在不同的分類水平上構建。微生物網路中邊界的生物學意義是不確定的,需要進一步分析和/或實驗驗證才能確定。雖然每年都會發表新的微生物網路推理演算法,但與資料預處理、混雜因素、評估和網路解釋相關的挑戰在很大程度上被忽視。
挑戰#1:分類單元相互作用是否影響微生物群落組成?
微生物網路中的邊緣通常被解釋為生物相互作用。然而,相互作用可能不存在或太弱,無法影響群落組成,或者群落組成可能以空間或時間解析度取樣,不足以檢測生態相互作用。區分隨機(包括中性)和確定性群落動態的快速測試將防止耗時的網路構建和誤導性解釋。因此,第一個挑戰是開發和評估相互作用驅動的群落動態的測定方法,並將其應用於微生物網路預測。
挑戰#2:豐富的資料應該如何預處理?
由於從一個特定分類群中選擇一個讀數的機率是由其在樣本中的比例決定的,因此保留了原始分類群的比例。稀疏性受到了批評,因為它有效地丟棄了部分資料,降低了微生物組比較的能力。除稀疏化(最簡單的是將計數轉換為相對丰度)外,還有許多其他預處理技術可用。透過實驗確定的OTU丰度也可用於調整總讀取計數。例如,如果營養物質濃度的變化改變了細胞密度,但沒有改變物種比例,那麼改變細胞總數是一個需要消除的混雜因素。因此,第二個挑戰是跨網路推理工具比較不同預處理技術的效能,以確定哪種組合效果最好。
挑戰3:如何處理稀有分類群?
測序資料中的大多數分類群僅在極少數樣本中發現。這意味著測序資料的很大一部分由零組成。在生態計數資料中,零可能代表檢測水平以下的真實缺失或存在(即分類單元存在,但其DNA未進入計數表)。在大多數樣本中,兩個具有匹配零的分類群具有強烈的相關性,但如果事實上它們在檢測水平以下隨機變化,這種相關性將是誤導性的。有兩種過濾方法來處理這個問題,這兩種方法都引入了一個任意閾值:第一種方法移除樣本太少的分類群(流行度過濾器),而第二種方法禁止在匹配零的數量太大時計算分類群對之間的關聯。
稀有OTU閾值如果過於嚴格,它會忽略由零攜帶的有價值資訊,即某些樣本中的分類單元比例較低。相反,如果太寬,則無法解決因匹配零太多而導致的偏差。根據研究問題的不同,可以透過將分類單元聚合到更高的分類單元來規避稀有分類單元的挑戰,例如,在科而不是屬級別上分析。
Filtering options for rare taxa.
挑戰四:如何應對環境因素?
微生物群落組成受到環境因素的強烈影響,如pH值、水分、氧氣水平和營養素。很難確定微生物網路中的邊緣是由於對環境因素的共同反應,還是代表兩個分類單一之間的直接相互作用。環境異質性問題與稀有類群的挑戰密切相關。由於仍然缺乏對這些不同技術的系統評估,第四個挑戰是評估處理環境混雜因素的不同策略。
Treatment of environmental heterogeneity.
挑戰5:高階相互作用(higher-order interactions,HOI)如何?
根據嚴格的定義,HOI是由其他物種改變的多個物種之間的相互作用。例如,如果一種微生物依賴於另一種微生物分泌的分子,而第三種微生物產生相同的分子,那麼前兩種微生物之間的交叉餵養關係就會減弱。在模擬中,HOI會影響群落的穩定性和多樣性,並在實驗中被證明會改變宿主的適應度。大多數微生物網路構建工具忽略了HOI。
挑戰#6:如何評估silico的微生物網路結構?
由於缺乏全面的生物學基準資料,微生物網路推斷的評估在很大程度上仍然是以電子方式進行的。人工資料集是透過多種方法生成的,依賴單一資料生成方法的評估將有利於那些假設恰好與資料生成背後假設最接近的工具。微生物網路的一個挑戰是為工具開發人員提供更異構的基準資料,並最終導致工具在更多樣化的環境中表現更好。
挑戰#7:如何在生物資料上對微生物網路構建進行基準測試?
生物資訊學工具基準的金標準是對已知結果的生物資料進行評估。在對生物資料進行網路推理時存在一些問題。首先,不清楚已知相互作用列表是否完整,因此不清楚預測的相互作用是錯誤的還是根本沒有觀察到。其次推斷的相互作用可能因HOI而不同於預期的相互作用,而不是推斷中的錯誤。總之,已知相互作用且測序資料可用的社群是微生物網路構建基準的黃金標準。因為這樣的資料集仍然很少,所以挑戰是一個實驗性的:生成更多這些基準資料以提高工具效能。
挑戰8:從微生物網路中的“毛線球”中能瞭解到什麼?
微生物網路推理演算法通常返回緊密相連的分類群的“毛球”,需要進一步分析以產生可測試的假設。到目前為止,只開發了少數專門用於微生物網路的分析工具。因此,第八個挑戰是開發更多處理資料整合和聚類分析的分析工具。
挑戰9:如何識別核心網路?
高通量測序可以對生態系統的多個例項進行排序,也可以跨不同的時間點對生態系統進行排序。在這些情況下,問題在於微生物網路是跨空間還是跨時間儲存的。回答這個問題的簡單方法是為每個樣本組分別構建一個微生物網路,代表一個區域、條件或時間點,然後計算這些網路的交點。生成的交叉口網路僅包含存在於所有特定網路中的邊,因此可以解釋為感興趣生態系統的核心網路。核心網路的識別比簡單計算全球交叉網路更具挑戰性,需要專用工具。核心網路是推斷網路,因此可能包含不代表互動的邊。因此,重要核心網路的存在並不意味著群落動力是普遍的。
挑戰#10微生物網路在多大程度上代表了生態系統?
網路是否能夠很好地代表生態系統,從而可以透過網路分析獲得系統級的見解。假設網路推斷足夠準確,網路屬性(如負邊緣百分比、模組化和網路密度)能否提供有關所研究生態系統的有用資訊?儘管一些理論研究已經解決了網路特性對生態系統穩定性的影響,但實驗證據仍然很少,並且並不總是與理論預期一致。因此,最後的挑戰是更深入地探索網路和生態系統屬性之間的聯絡。