◎ 科技日報記者 張佳星
近日,《自然》子刊報告了一種藥物開發的新技術,利用“達爾文進化論”的加速版,透過隨機程式化組裝快速生成數百萬個小分子組合,迅速找到了新的腫瘤精準治療的候選藥物。
利用不同的解決方案或研究思路,透過收集、彙總大量資料,實施資料探勘、分析,將高效地開發藥物或者制定有針對性的治療方案,越來越成為目前醫藥研發公司、醫療服務機構、醫院、診斷中心等開展精準治療的有效路徑。
在百萬乃至千萬級別的海量資料中發現有效目標,演算法和算力正成為醫藥研發領域不可或缺的核心技術。醫療大資料雲端化,將較好地彌補醫療行業在演算法、算力方面的“短板”,助推精準治療時代到來。
雲端化數倍增加資料探勘量
新冠疫情到來,醫療行業更加意識到,需要透過資料的雲端化,更好地駕馭更大量的資料,助推精準治療時代到來。
以阿斯利康為例,作為在研發新冠疫苗和藥物方面進展快速的跨國型藥企,據統計,它在24小時之內約需要進行510億個資料的統計分析,這些資料包括基因型別的資料和病患的資料。這些資料的分析支撐他們在2020年可以同時進行40多種新藥開發的專案。
但並不是所有的資料都是能直接就用的,在資料探勘之前,必須進行大量的“結構化”工作。但事實上,一些醫療機構在收集患者資料時,經常難以結構化,例如同樣的“浸潤”的描述,在不同科室學術術語不同,這使得在演算法挖掘時資料不大好用。
為了讓非結構化資料也能實現分析功能,很多醫療領域的科技公司都在努力地創新、嘗試。亞馬遜雲科技透過降低門檻、準備資料和標註資料,擴大機器學習在醫療領域的資料發掘範疇。
“我們釋出的應用中,之前對專業的標註有專門的設計,在新冠疫情期間,肺炎的資料透過專業團隊標註進行了及時跟進。” 亞馬遜雲科技機器學習相關負責人介紹,專業團隊擁有特定領域和專業的知識,並且符合客戶對於資料安全和隱私、合規等要求。
雲端化降低了資料探勘的門檻,讓醫療行業更好地駕馭患者資料,提供精準化的診斷、治療的方案,提高整個醫療服務運營的效率。
雲端化實現隨叫隨到的“儲存”
醫療大資料裡最常見的是影像資料,由於影像資料格式標準,因而容易獲取和使用。中科院分子影像重點實驗室主任田捷曾表示,未來的影像中心就像飛機駕駛艙一樣,是各種各樣資訊的綜合體;而未來的醫生則相當於飛行員,要處理各種各樣的資訊。
醫療影像資訊有著歸檔要求高、資料量大、儲存量大,對於雲端讀取的實時性提出更高的要求。醫療影像的資料長年不能刪除,需要歸檔很多年。在實際的應用中,這些影像資料可能一年都用不到一回,但也可能突然就會要求馬上呼叫這個資料。
醫療資料的儲存特殊性需要雲端儲存即滿足低成本的長期儲存,又要滿足即時快速呼叫的要求。透過智慧分層的技術,亞馬遜雲科技構建了及時索引的分層,可以幫助客戶在歸檔的資料裡面產生索引,在需要取用的時候,仍然能夠像熱資料一樣馬上就能索引到。而在不需要索引的時候,這些資料像歸檔儲存一樣,長期儲存在非常低的成本儲存層中。據介紹,這一技術可以使歸檔資料在毫秒級完成訪問,並將節省近70%的儲存成本。
雲端化實現低門檻的機器學習
無論是醫學領域還是資料科學領域都是注重實踐的研究領域。相關專家表示:人工智慧技術在醫學上的研究、應用,不是寫文章、不是談概念、也不是紙上談兵、更不僅僅是做篩查,而是要將技術與臨床緊密結合,解決實際臨床問題。
然而,缺乏跨學科的高水平人才,仍舊是讓醫療行業與資料探勘融合起來的難點之一。如何讓對資料和程式設計一竅不通的醫療學者快速上手機器學習呢?
“他們無需任何技術背景,可能連可以寫程式碼的開發人員都沒有,而且他們完全不需要具備機器學習或者其他的一些技術能力,就能夠用到我們的人工智慧或機器學習服務。” 亞馬遜雲科技機器學習和醫療人工智慧總監Taha Kass-Hout博士表示,只需要用自然語言去請求服務,透過聊天框搜尋就能夠使用機器學習服務。
人工智慧可以幫助客戶更好地去編撰資料,並對資料進行結構化處理、打標籤等工作,實現機器學習的託管型雲服務。
雲端化透過降低機器學習的使用門檻,大大加速了臨床治療的精準性。例如在慕尼黑白血病實驗室建立了世界上最大的白血病資料,透過把患者的基因資料和患者的電子病歷資料整合在一起,用於精準化的臨床治療。
編輯:劉義陽
稽核:王小龍