日前,第十五屆全國知識圖譜與語義計算大會(CCKS-2021)線上順利召開。會上公佈了CCKS-2021技術評測結果,雲知聲-中科院自動化所聯合實驗室在醫療科普知識答非所問識別賽道斬獲冠軍,並在面向中文電子病歷的醫療實體及事件抽取賽道獲得亞軍以及唯一的技術創新獎。
CCKS由中國中文資訊學會語言與知識計算專業委員會主辦,是知識圖譜、語義技術、連結資料等領域的核心會議。其中,CCKS技術評測致力於促進國內知識圖譜領域的技術發展,以及學術成果與產業需求的融合和對接,而“技術創新獎”的設立,專門用於鼓勵創新性技術的使用。
醫療科普知識答非所問(以下簡稱答非所問)是指標對問答形式的醫療科普內容,回答A和問題Q沒有關聯,即答案不能滿足所提問題。在醫療科普內容裡,一般有兩種答非所問形式,一種是回答A和問題Q完全沒有關聯,不能回答提問的問題;第二種是回答A和問題Q有關聯,但回答的方向不對,沒有回答提問的問題。該任務是第一次在CCKS進行開展,旨在識別出醫療科普知識中的答非所問語句,助力醫療健康科普事業的發展。
為應對樣本學習難度大以及訓練資料缺乏兩大核心挑戰,團隊提出了一個融合多策略的系統。該系統由基於對抗訓練和對比學習的深度學習融合模組與基於無標註資料增強和課程學習的模組共同組成。團隊成員包括夏飛、翁詣軒、夏茂晉、王強和黃金鳳。指導老師是何世柱、劉康、劉昇平和趙軍老師。在本次評測中,該系統在官方決賽測試集上取得了F1指標0.70698的最高分數。
B榜(最終)成績:
面向中文電子病歷的醫療實體及事件抽取賽道要求參賽者提供一個解決方案來同時解決醫療實體識別和醫療事件抽取兩個任務。其中醫療命名實體識別子任務,旨在對於給定的一組電子病歷純文字文件,識別並抽取出與醫學臨床相關的實體提及,並將它們歸類到預定義類別,比如疾病、治療、檢查檢驗等;而醫療事件抽取子任務旨在給定主實體為腫瘤的電子病歷文字資料,定義腫瘤事件的若干屬性,如腫瘤大小,腫瘤原發部位等,識別並抽取事件及屬性,進行文字結構化。
為同時解決醫療實體識別和醫療事件抽取兩個任務,團隊提出了基於序列標註的實體識別與事件抽取統一建模系統。此外,為了應對醫療領域標註資料稀疏的挑戰,該系統集成了基於大規模預訓練模型繼續預訓練、多粒度文字模式增強訓練、半監督領域自適應訓練等多種訓練機制。任務參與方包括螞蟻集團保險技術部、騰訊醫療AI實驗室、騰訊天衍實驗室、阿里雲、浙江大學、中國科學技術大學、協和醫學院等知名研究機構及高校。最終團隊獲得亞軍以及賽道唯一技術創新獎。
答非所問技術與醫療命名實體識別和事件抽取技術作為基礎技術已經應用於雲知聲醫療產品中。雲知聲智慧醫療解決方案應用智慧語音識別、自然語言理解、臨床知識圖譜等人工智慧技術,為醫療行業的各參與方提供豐富的產品和解決方案。覆蓋醫政醫管、臨床診療、醫保管理、患者服務多個業務領域。服務於衛健委、醫保局、醫院管理者、醫護人員、患者等多類使用者。賦能醫療領域智慧化建設,助力提升行業智慧化水平。