從“神威·太湖之光”到“天河二號”,中國超算在全球超級計算機500強的榜單上也是“熟面孔”了。但這一次,中國超算在“世界500強”的姊妹榜上取得前八排名,再次令世人刮目相看。
今年的國際超級計算大會(SC21)近日正式公佈代表國際頂尖資料儲存效能的全球最新“IO500”榜。由上海交通大學醫學院附屬瑞金醫院轉化醫學大科學設施建設的大資料平臺ASTRA,位列全球第八。
這份榜單上強手如林,包括了華為、intel、谷歌等國際大公司以及鵬城實驗室、阿貢國家實驗室、廣州及長沙等海內外國家級超算中心的巨頭。解放日報·上觀新聞記者瞭解到,轉化醫學大科學設施此次“破圈”,系首次參評的醫療機構,這一平臺由瑞金醫院同仁和intel工程師經過近半年準備和反覆技術最佳化,才最終提交評測。
超算系統包括計算系統和儲存系統,如果說算力是“車”的話,儲存就是“路”——好車需要有好路。此前中國超算屢屢登榜的TOP500是針對計算系統的算力效能排名,而IO500則主要針對儲存系統性能進行排名。生物資訊學領域,在組學資料容量巨大的環境下,作為超算兩大指標之一的儲存效能更是必須接受挑戰。
轉化醫學大科學設施研究員呂綱表示,大科學設施的ASTRA平臺是醫學生物資訊領域第一臺在儲存效能上衝進全球榜單前十名的高效能生信大資料系統,從儲存效能上打破了生信行業的天花板,“隨著高效能計算技術與醫學研究的融合,高效的儲存技術對未來生信分析和AI技術臨床應用帶來重要的推動作用。”
這一專案由瑞金醫院國家轉化醫學中心生信大資料平臺建設完成,此次研究團隊成員包括生信大資料團隊負責人方海、共同負責人呂綱等多人,得到了國家轉化中心主任陳賽娟院士的關鍵性指導,以及瑞金醫院院方大力支援。
據瞭解,轉化醫學國家重大科技基礎設施(上海)是“十二五”期間國家重點規劃的16項重大科技基礎設施之一,於2013年7月經國家發展和改革委員會正式批准建設,是我國在生物醫藥領域第一個國家級大設施,大設施兩大建設主體為上海交通大學和上海交大醫學院附屬瑞金醫院。
生物標記物和新藥研發平臺,是轉化醫學國家重大科技基礎設施技術支撐系統的重要組成之一。而生信大資料平臺正是分別對生物標記物和新藥研發提供“生信”及“計算”基礎。包括生信分析、算力支撐、資料儲存等,主要圍繞基因組測序、轉錄組測序、蛋白質組學、代謝組學、藥物篩選等各種先進組學檢測技術與平臺,緊密結合各種患者生理生化指標,組織病理檢查、器官影像檢查、家族遺傳背景、疾病歷史診療資訊等形成多維度的資料流,然後透過各種生物資訊學手段進行原始資料的綜合分析和挖掘,提供與疾病診斷和治療相關的遺傳和臨床資訊。
待形成特徵資料,再透過機器學習、深度學習和人工智慧演算法整合特徵資料與臨床診療的方案,從而形成真正意義上的精準分析、輔助診斷和個性化醫療。
在轉化醫學的背景下,生信大資料平臺採取了定製化的高效能計算平臺技術思路,為生信計算的“存”“傳”“算”“用”4方面——資料儲存、資料傳輸、資料分析計算和資料整合應用完成量身定製。其核心硬體平臺主要包括液冷計算節點和融合計算節點,計算系統擁有高效能cascade lake計算核心超過4160核,雙精度計算能力超900萬億次,以及目前AI計算能力最強的伺服器DGX-A100等GPU計算節點,還有云伺服器節點與多路胖節點等。
其儲存系統則採用分層的高速分散式並行檔案系統與超高速非同步物件儲存構成,儲存容量為10個PB,兼顧容量和效能。
值得注意的是,今春《自然》雜誌線上發表了一篇來自上海市公共衛生臨床中心與轉化醫學國家重大科技基礎設施(上海)以及瑞金醫院等單位合作研究的論文:《與新冠臨床結果相關的病毒和宿主因素》。文章對上海市公共衛生臨床中心在2020年1月20日到2月25日期間收治的326例患者,進行了病毒基因組、臨床表現特點、免疫反應改變等資料的全面深度分析,揭示了新型冠狀病毒性肺炎的分子流行病學和臨床表現特徵,尤其是發現了向重症轉化的關鍵預警因子。
事實上,從1月27日收到第一例測序樣本,到完成基因組組裝和臨床資料分析、向國際資料庫遞交112個病例的SARS-CoV-2基因組高質量序列資料,以及文章撰寫提交等,只用了短短45天時間。
這其中,2020年1月剛剛上線ASTRA平臺提供了強勁算力和儲存支撐,可謂功不可沒。它在新冠研究過程中建立了具有重要公共衛生安全意義的應用演算法平臺,對國家疾病防控研究有所助益。
欄目主編:徐瑞哲 文字編輯:徐瑞哲
本文圖片來源:上海交大醫學院
來源:作者:徐瑞哲