誰能想到,一條不起眼的耳垂摺痕,可能與冠心病發病的機率相關,因為它們關聯著同一個基因。
在人類表型組研究中,醫生可以透過觀察外觀表型,來判斷患者罹患冠心病的風險。可以說,人類表型組研究是“後基因時代”的戰略制高點,如果這條線被研究透徹,從微觀到宏觀的各個維度表型之間的關係都能一覽無遺,屆時,或許人類健康之謎就能被徹底解決。
近日,復旦大學攜手曙光共同建設的國際人類表型組學研究平臺(以下簡稱:研究平臺),透過對人類表型組在物理、化學和生物層面進行跨尺度多維度研究,滿足人類表型組資料的儲存、共享和應用,形成服務全國的生物醫學大資料研究與應用設施。
表型資料與資訊科技 共築“生命健康密碼”
人類表型組的研究需要資訊科技提供強有力的計算工具,藉助先進的IT技術解決方案,完成海量實驗資料的儲存、讀取與挖掘處理。同時,資訊科技還有助於加強表型資料庫的資料管理、資訊傳遞、檢索和資源共享等。
作為跨尺度多維度人類表型組研究平臺,這裡設有人體成像與測量、睡眠與生物電、人體能量代謝艙等多個測量實驗室,可檢測約2萬個表型詞條,比如分子蛋白質組、分子代謝組、細胞表型、語音表型等等。這些人類表型組相關資料將用於探索基因、人體特徵與疾病健康之間的關係,為疾病預防與干預提供關鍵線索與指引,解讀人類生命密碼所需的關鍵資訊。
同時,研究平臺以海量表型資料資源的高等級安全儲存為核心,實現資料資源的匯聚、管理、共享和挖掘,形成我國人群健康表型組標準化技術體系,構建中國健康人群表型圖譜及資料庫。
高效儲存共享與應用 提高組學科研質量
人類表型組專案涉及的主要應用為基因測序、序列拼接軟體如SOAP2,BWA,BWASW 、Bowtie/Bowtie 2SHARCGS等,在計算時會產生海量的中間資料。儲存系統性能的好壞對計算效率將產生很大影響。因此,在人類表型組專案中,一方面要保證儲存系統的高讀寫效能;另一方面,要減少序列拼接程式執行時對儲存系統的影響。
針對生物基因領域測序產生海量小檔案的情況,曙光分散式儲存系統ParaStor透過Scale-Out橫向擴充套件、IB+RDMA高速互聯、核心態POSIX協議、智慧SSD Cache及小檔案聚合等技術,消除傳統的Scale-up縱向擴充套件儲存架構的效能侷限性,有效解決生物基因應用中對海量大檔案儲存場景高聚合頻寬、小檔案儲存場景高IOPS的儲存需求。
ParaStor可透過效能與容量的線性增長,滿足對儲存系統資料處理能力和擴充套件性的要求。此外,針對業務系統對可靠性、穩定性的需求,ParaStor分散式儲存系統透過多種技術手段,從物理底層到邏輯層全方位保證儲存系統高可靠性和高可用性。豐富的協議介面,多型別資料融合儲存,可以保證多業務共享。
在復旦大學國際人類表型組學研究平臺專案中,ParaStor大幅度提高海量人類表型組資料的儲存、共享和應用效率,在提升我國組學資料質量意識、引領國際標準研發、推動我國生物醫學領域原創研究的過程中起到了重要的作用。