健瀾科技：醫療大資料生態下基於標註引擎的醫生畫像研究

醫療大資料生態下基於標註引擎的醫生畫像研究

原創鄭濤王覓也等

隨著醫療資訊化建設的發展，大資料在醫院文化建設的應用也層出不窮。本研究從醫院文化視角出發，透過構建醫生畫像來提升醫生職業幸福感和成就感，激發醫生工作積極性，促進醫生為患者提供更好的醫療服務。結合當下醫療大資料背景，以醫院業務系統、網際網路渠道系統和相關管理系統的資料為基礎，文章提出大資料平臺下的醫生畫像體系架構，並設計以標籤模型為核心的標註引擎，透過該引擎生成涵蓋臨床、科研、教學、管理特徵的醫生畫像，並將畫像結果透過應用服務定向推送給醫生，實現醫生畫像的視覺化呈現。醫生畫像的應用不僅有助於醫院精細化管理，還能增強醫生榮譽感、使命感，提升醫院文化軟實力。

隨著人們生活水平的發展進步，民眾對醫療服務的要求也日益增加。《“健康中國2030”規劃綱要》提出要大幅提升健康服務能力，加強醫療服務人文關懷。醫生是提高醫療服務質量的重要力量，但在實際醫院環境中，大部分臨床醫生不僅肩負著救死扶傷的重任，還需要面對比較複雜的醫患關係，這可能導致醫務工作者職業幸福感不高，嚴重時還會形成職業倦怠，不利於醫療服務的質量。針對這一現象，結合當下醫療大資料的背景，本研究從醫院文化視角出發，透過構建醫生畫像來提升醫生職業幸福感和成就感，促進醫生為患者提供更好的醫療服務。

近年來，健康醫療大資料已經被廣泛應用於醫療衛生行業，本研究在此背景下研究基於標註引擎的醫生畫像，從臨床、科研、教學、管理多個維度分析醫生畫像的標籤資料，並透過訊息平臺等定向推送給相關醫生。一方面，標籤資料可以量化醫生的工作量，激發醫生工作積極性，對醫生的行為起著引導和約束作用，促進醫院精細化管理；另一方面，本研究對醫生畫像的應用能夠充分發揮醫院文化的導向、凝聚、激勵作用，提升醫生幸福感和歸屬感。

使用者畫像研究現狀

醫生畫像的本質其實是使用者畫像在醫生群體的應用，即使用者資訊標籤化，是大資料技術的重要應用之一，透過將使用者行為特徵進行整合、統計分析後凝練出一類使用者標籤，目的在於挖掘使用者潛在價值資訊，勾畫使用者全貌，並用視覺化的方式展示出來。最近幾年，各個學科領域的從業人員從不同角度對使用者畫像進行了研究。王正友等人在研究影片領域精準推薦時認為，透過評估使用者的偏好興趣，將權重較高的標籤所包含的內容推薦給使用者，這樣更能符合使用者需求和喜好。李一男等人在文章中指出在醫療領域中使用患者畫像可以幫助醫護人員高效識別目標患者、預測可能出現的併發症、為患者提供精準的照護服務。席巖等人介紹了基於微博資料的使用者畫像研究以及基於大資料的使用者畫像分類。楊麗靜等人的文章探索患者360檢視實現居民慢病趨勢分析、醫療費用檢測、病人治療效果評估等功能。在當前醫療行業中，針對患者畫像的研究及應用逐漸豐富起來，但對醫生畫像的構建相對缺乏，也並未形成行業內統一認知。現有對醫生畫像的研究主要從患者角度出發，透過挖掘醫生醫療質量的資訊和患者對醫生的評價特徵，為患者提供精準的醫生推薦，實現“智慧就醫”。與現有研究不同，本研究從醫生角度出發，在傳統的評價維度之外，構建一個多維度、立體化的醫生畫像模型，以此增強醫院文化塑造，促進醫療服務更加人性化，讓醫院管理更有溫度。

基於標註引擎的醫生畫像

醫療大資料生態下基於標註引擎的醫生畫像架構如圖1所示，由下至上分為三個層次，依次為資料來源系統層、醫療大資料平臺層、資料應用服務層。由於醫生畫像包含臨床、科研、教學、管理四個方面的資料，因此需要將來源於不同系統的資料進行採集、清洗、轉換、載入後，按主題分類儲存在醫療大資料平臺的資料倉儲中心，經過處理分析後透過標註引擎生成每位醫生的畫像結果，最後採用訊息平臺等定向推送給相應醫生，並在客戶端實現資料視覺化呈現。

圖1 基於標註引擎的醫生畫像架構

資料來源系統層 大多數醫院經過數十年的資訊化建設，現在都有較為全面的業務或支撐系統，這些系統主要有三類：醫院業務系統、網際網路渠道系統和相關管理系統。其中，常見的醫院業務系統有醫院資訊系統（HIS）、檢驗系統（LIS）、電子病歷系統（EMR）、手術麻醉系統等，這部分系統的資料可以反映大部分醫生的臨床工作特點。另外，隨著當前智慧醫療政策的推進，遠端會診系統、聯合門診系統、線上診療系統等網際網路渠道系統應運而生，這些系統的資料也是本研究構建醫生畫像的基礎。除此之外，與醫生畫像相關的很多科研、教學、管理資料存放於相關管理系統（如：醫院人力資源系統、科研管理系統、重大事件管理系統等）或者醫院的一些職能部門，這些資料同樣需要考慮納入。由於資料來源來自不同的業務場景，資料型別和結構多種多樣，因此本研究構建醫生畫像的首要工作就是將這些資料準確、高效地採集，並根據實際情況進行清洗處理，為進一步分析處理提供資料支撐。

標註引擎 醫生畫像從多個角度全面刻畫醫生特徵，資料來源於多個系統，需要藉助醫療大資料平臺來完成構建。通常醫療大資料平臺的搭建會涉及到多個核心子系統，本研究根據研究方向將重點放在與醫生畫像相關的資料倉庫和標註引擎。其中，資料倉庫解決源資料、初步標籤值和畫像結果資料的儲存問題，分別對應圖1中的資料倉儲中心、標籤資料中心、畫像資料。標註引擎根據標籤策略及規則為醫生“打標籤”，該過程分為三個步驟：標籤設計、資料統計、畫像生成，並由多個模組共同實現，這也是本研究的研究重點。

標籤設計 標籤設計的目標是根據醫生資料抽象出一個標籤模型，如圖2所示。標籤模型按層級結構展開，其中一級分類即標籤主題，包括臨床屬性、科研屬性、教學屬性、管理屬性四大主題。臨床屬性針對醫生在臨床醫療服務方面的資料，是對一位醫生最基本的特徵刻畫；科研屬性是醫生投入到科學研究中的事件描述，有助於醫生了解自身的學術影響力；教學屬性用來刻畫醫生在醫療教學方面的特徵，反映醫生對臨床教學工作的積極性；管理屬性則是為了反映醫生在醫院的日常管理和麵對重大事件如地震救災、抗擊疫情、援非援藏等方面的工作情況。

圖2 標籤模型

二級分類承接自一級分類，並對各個標籤主題進行細分，以臨床屬性為例，分為5大類：患者畫像、節假日、門急診、住院、手術。其中患者畫像分析醫生提供診療服務物件的來源地、國籍、民族等資訊，幫助醫生了解其診療服務的輻射情況、患者複診動力等。節假日針對醫生在一些特殊日子的臨床工作資料，反映醫生工作的辛苦與奉獻，傳遞一種溫情和關懷，提升醫生職業幸福感。而門急診、住院、手術則是對醫生參與的臨床工作進行分類展示，體現了醫生的工作負荷、工作效率、診療質量等。

三級分類即標籤列表，是對標籤內容的展開及標籤規則的制定。標籤型別一般有3種：統計類、規則類、挖掘類，本研究採用統計類和規則類標籤。統計類標籤從醫生診間服務、入院服務、手術操作等行為資料中進行統計計算得出標籤值，如：門急診總人次、出院患者平均住院日、手術總檯次等。規則類標籤是基於特定規則產生，如：患者來源城市分級分佈，先梳理並確定一線、新一線和其他城市的定義範圍，再根據所確定的範圍規則計算患者的不同城市來源分佈情況。

標註引擎的建設核心是標籤畫像的規則和策略，因此設計一個層級合理、結構清晰的標籤模型對於刻畫全面、立體的醫生畫像是非常重要的環節。

資料統計 標籤模型設計完成後，考慮到源資料結構化程度的差異，先將一些非結構化資料透過自然語言處理（Natural Language Processing，NLP）技術轉化為方便統計的結構化資料，再進入到資料統計環節。此環節分為兩步，第一步根據標籤規則對原始資料進行統計加工，得到初步標籤值。如一天中最晚結束手術時間，是根據手術醫生施行手術結束時間在20:00至次日6:00之間的資料進行計算得到的最晚時間；再如患者來源人數最多top3的城市，將醫生實際治療患者的來源城市進行整合、統計，輸出人數最多的3個城市。第二步對計算出的初步標籤值進行分類和異常判斷。分類的原因是便於後續資料應用時不同分類對應不同的畫像使用場景。根據帕累託分析法原則，按照低（0～20%）、中（20%～80%）、高（80%～100%）三個區間劃分，標識出不同醫生標籤值的分佈情況。異常判斷用來識別醫生的每個標籤值是否有異常，能進一步確保資料準確。本研究採用箱線圖方法進行異常判斷，分別將在全院和科室範圍內超過上下四分位1.5倍的標籤值打上異常標籤以便做畫像處理。

大資料平臺下，透過ETL策略配置及作業排程中心完成統計處理的過程，統計後的資料分割槽分級儲存在標籤資料中心不同目錄中，這樣能減少ETL作業載入時間，保證標註引擎的效能。

畫像生成 由於初步標籤值分散在不同的中間表並存儲於不同目錄下，因此畫像生成環節以醫生為維度，將屬於每位醫生的全量標籤值匯聚到一張目標表中，這樣不管查詢、解析還是推送都更加便捷。在匯聚之前，根據實際情況對初步標籤值進行最終處理，處理方式主要有2種：模糊化處理、規則化處理。

模糊化處理針對在統計時被判定為異常的正確資料，這些異常通常是有原因的，在進行模糊化處理時只輸出所在的資料區間而不列出具體標籤值，這樣較好的規避了一些特殊情況下的資料。

儘管資料在進入大資料平臺時已經對資料質量和準確性進行了驗證處理，但仍然存在部分醫療業務需要而產生的特殊資料，需要進行規則化處理。透過定製化的策略對標籤值進行輸出限制，如內科學的醫生不出現外科手術類的標籤值，醫技超聲學科醫生沒有治療類的標籤值等。另外，規則化處理還會針對資料輸出格式、輸出型別進行統一處理。

畫像生成過程也是透過ETL排程作業實現，是標註引擎的最後環節，最終會輸出不同醫生的完整畫像資料。

資料應用服務層 資料應用服務是醫療大資料生態下的門戶視窗，構建醫生畫像的最終目的也是將畫像結果透過應用服務定向推送，使每個醫生能全面瞭解自己的臨床、科研、教學、管理情況，促進醫生工作積極性的提升。本研究採取的推送方式有多種：推送平臺、郵件平臺、視覺化等。推送時可以將資料與一些溫情、有力量的文字相結合，傳遞出激勵、凝聚的正能量，提升醫生的職業成就感和工作倖福感，加強醫院文化軟實力。

以某大型三甲綜合醫院為例，實現了近2 000名醫生畫像的構建，科室範圍包括心臟內科、血液內科、骨科、消化內科等20多個業務科室，醫生角色涵蓋了麻醉醫生、內科醫生、外科醫生、醫技醫生等，醫生的畫像結果如圖3所示。每位醫生畫像根據標籤模型產生標籤值，以疫情期間援助地區與天數為例，其統計了全球新冠疫情期間，醫生參與的各種抗擊疫情工作，如前往武漢、黑龍江、西藏支援，一定程度反映醫生的無私奉獻和家國情懷。該醫院實際外出參與抗疫的醫生260人次，透過本研究的標註引擎，實際推送該標籤260人次，有效接受260人次，經後續調查隨訪，95%的醫生反饋效果良好。

圖3 醫生畫像應用

討論與建議

作為專業性很強的知識型工作者，醫生是醫療行業發展的核心力量，因此提升醫生職業幸福感和歸屬感對促進更好的醫療服務具有重要意義。隨著醫療資訊化建設的不斷推進，大資料的應用為醫院文化建設探索新方法提供了更多的可能性。在此背景下，本研究提出了大資料平臺下的醫生畫像體系，並設計以標籤模型為核心的標註引擎，透過該引擎生成涵蓋臨床、科研、教學、管理特徵的醫生畫像。本研究的創新點在於：①從醫生角度出發，構建一個多維度、立體化的醫生畫像模型，提升醫生職業成就感，有利於醫生為患者提供更好的醫療服務；②從醫生最長手術時長、最晚結束手術時間等人文關懷角度進行標籤設計，使醫生畫像更豐富飽滿，大資料的應用更加人性化和有溫度；③充分考慮重大事件的影響，將參與抗疫、援非等特殊事件的資料納入畫像，也進一步促進醫院管理，增強醫生榮譽感、使命感。但本研究仍然存在一定的侷限性，後續將主要進行兩方面的工作：①繼續擴充套件醫生畫像的標籤列表，豐富醫生群體的畫像構建；②將會納入更多角色，比如為護士、藥師、行政後勤等其他醫務工作者進行標籤設計，為醫院精細化管理工作和軟實力提升奠定基礎。

【引用本文：鄭濤王覓也宋雪李楠.四川大學華西醫院資訊中心四川大學華西醫院醫療資訊化技術教育部工程研究中心[J]. 中國數字醫學,2021,16(7)39-43.】

健瀾科技公司堅定不移地以推進醫療行業“數字化、智慧化”為目標，成功打造了醫療AI領域現象級產品——“機器人醫生”，形成了“雲影像+雲診斷”與“網際網路+人工智慧”一體化的智慧醫療服務生態產品體系。

截止目前，公司累計實施了近500個醫療AI資訊化建設專案，合作醫療機構1000多家（包括300多家三級醫院），專案遍及全國20多個省。透過生態建設以及眾多AI功能的加持，目前累計服務患者6000餘萬人次，託管AI服務資料量達5000萬，處於國內醫療AI行業第一梯隊。

健瀾科技將在“健康中國2030”與醫療新基建等新形勢下，以醫療大資料運營、數字醫衛、智慧醫療、智慧醫保、健康城市為主要發展方向，致力於成為國內最優秀的醫療健康AI服務提供商和運營商。

分類： 科技

時間： 2021-09-19

健瀾科技：醫療大資料生態下基於標註引擎的醫生畫像研究

醫療大資料生態下基於標註引擎的醫生畫像研究

相關文章

反殺“大資料殺熟”面臨認定難舉證難等困境
演算法面臨更強監管禁止"大資料殺熟"立法程序加快反殺"大資料殺熟"面臨認定難舉證難等困境核心閱讀對演算法予以更嚴格的監管,已是勢在必行.近期,多部法律規 ...

大資料的威脅有多大，你要警惕
你是否好奇,2021年7月盛傳的"國內某約車平臺把使用者資訊打包發給美國,會有什麼威脅"? 你是否好奇,為什麼頭條.抖音等平臺會推送你喜歡的內容,你周圍的人嗎? 它們都有共同的關鍵 ...

北京國際大資料交易所資料交易系統上線
來源:人民網 9月30日,北京國際大資料交易所(以下簡稱"北數所")基於自主智慧財產權開發的資料交易平臺IDeX系統上線.北數所IDeX系統是國內首家利用綜合資料技術.探索資料交易 ...

專家解讀“十一”大資料：黃金週揭示經濟發展基本面
中國旅遊研究院副院長李仲廣解讀"十一"大資料柴雅欣薛鵬今年"十一"假期是全面建成小康社會後的首個國慶黃金週,各地統籌疫情防控和經濟社會發展,在精準做好疫情 ...

小米投資大資料服務商數說故事DataStory，持股6.81928%
廣州數說故事資訊科技有限公司日前發生工商變更,註冊資本由2248.27萬元增至2401.76萬元,新增股東為小米關聯公司瀚星創業投資有限公司(持股6.81928%),Achiever Ventures ...

健瀾科技：醫療大資料生態下基於標註引擎的醫生畫像研究

醫療大資料生態下基於標註引擎的醫生畫像研究

相關文章

反殺“大資料殺熟”面臨認定難舉證難等困境 演算法面臨更強監管 禁止"大資料殺熟"立法程序加快 反殺"大資料殺熟"面臨認定難舉證難等困境 核心閱讀 對演算法予以更嚴格的監管,已是勢在必行.近期,多部法律規 ...

大資料的威脅有多大，你要警惕 你是否好奇,2021年7月盛傳的"國內某約車平臺把使用者資訊打包發給美國,會有什麼威脅"? 你是否好奇,為什麼頭條.抖音等平臺會推送你喜歡的內容,你周圍的人嗎? 它們都有共同的關鍵 ...

北京國際大資料交易所資料交易系統上線 來源:人民網 9月30日,北京國際大資料交易所(以下簡稱"北數所")基於自主智慧財產權開發的資料交易平臺IDeX系統上線.北數所IDeX系統是國內首家利用綜合資料技術.探索資料交易 ...

專家解讀“十一”大資料：黃金週揭示經濟發展基本面 中國旅遊研究院副院長李仲廣解讀"十一"大資料 柴雅欣 薛鵬 今年"十一"假期是全面建成小康社會後的首個國慶黃金週,各地統籌疫情防控和經濟社會發展,在精準做好疫情 ...

小米投資大資料服務商數說故事DataStory，持股6.81928% 廣州數說故事資訊科技有限公司日前發生工商變更,註冊資本由2248.27萬元增至2401.76萬元,新增股東為小米關聯公司瀚星創業投資有限公司(持股6.81928%),Achiever Ventures ...

反殺“大資料殺熟”面臨認定難舉證難等困境
演算法面臨更強監管禁止"大資料殺熟"立法程序加快反殺"大資料殺熟"面臨認定難舉證難等困境核心閱讀對演算法予以更嚴格的監管,已是勢在必行.近期,多部法律規 ...

大資料的威脅有多大，你要警惕
你是否好奇,2021年7月盛傳的"國內某約車平臺把使用者資訊打包發給美國,會有什麼威脅"? 你是否好奇,為什麼頭條.抖音等平臺會推送你喜歡的內容,你周圍的人嗎? 它們都有共同的關鍵 ...

北京國際大資料交易所資料交易系統上線
來源:人民網 9月30日,北京國際大資料交易所(以下簡稱"北數所")基於自主智慧財產權開發的資料交易平臺IDeX系統上線.北數所IDeX系統是國內首家利用綜合資料技術.探索資料交易 ...

專家解讀“十一”大資料：黃金週揭示經濟發展基本面
中國旅遊研究院副院長李仲廣解讀"十一"大資料柴雅欣薛鵬今年"十一"假期是全面建成小康社會後的首個國慶黃金週,各地統籌疫情防控和經濟社會發展,在精準做好疫情 ...

小米投資大資料服務商數說故事DataStory，持股6.81928%
廣州數說故事資訊科技有限公司日前發生工商變更,註冊資本由2248.27萬元增至2401.76萬元,新增股東為小米關聯公司瀚星創業投資有限公司(持股6.81928%),Achiever Ventures ...