摘 要
本文圍繞多源異構科技大資料的匯聚融合和演化分析難題,分析科技大資料匯聚融合的具體需求,理順並最佳化科技大資料匯聚融合業務流程。在此基礎上,設計一套面向開放協同的科技大資料匯聚融合與演化分析平臺技術架構。最後,重點介紹該平臺所涉及的關鍵技術,包括多源異構科技大資料採集和清洗技術、科技大資料匯聚融合機制、科技大資料分散式儲存、科技大資料實體智慧匹配、科技大資料檢索服務介面、基於區塊鏈的科技大資料交換與可信確權等。該平臺的實現能夠為多源異構科技大資料的匯聚、融合、演化和應用提供堅實的理論基礎與支撐。
關鍵字
科技大資料;匯聚融合;開放協同;演化分析
0 緒 論
科技大資料不同於傳統論文資料,也不同於一般意義上的網路及行業大資料,資料內容包括科技成果資料、科技活動資料,以及網際網路自媒體科技資訊資料。科技成果資料包括各學科內記錄形成的資料、資料、文獻、報告、網路科技報道等承載知識的資料;科技活動資料包括科技實體資料與知識關係資料,其中科技實體資料包括科技專案、學術會議、科技團隊、科技組織、科技人才、科技機構、科技獎項、科技主題、科技概念、研究裝置、研究模型、研究方法等,知識關係資料包括語義關係及計量關係等;網際網路自媒體科技資訊資料,特別是微信資料,每天釋出的科技資訊及時、權威及互動性較好。
科技大資料理論與技術研究是一項順應目前科技行業資訊化技術水平發展、服務政府職能改革的科學研究工作,主要目標是強化科技與經濟執行監測分析,實現科技管理者、參與創新創業的科研機構、企業和個人的全方位、一站式的雲管理和服務平臺,實現科技資源、科技資料、科技服務、科技管理的互聯互通和開放共享,推進科技資料共享和業務協同,以資訊化提升資料化管理與服務能力,及時準確掌握科技發展宏觀和微觀動態,為科技政策的制定提供依據。
多源異構科技大資料融合技術,是一種針對多個數據來源的大規模科技類資料及其資源進行資料匯聚、過濾、融合,以及知識提取的一系列方法的統稱。多源異構科技大資料的有效融合,不僅能夠滿足科技企業、事業單位、科研院校,以及廣大科研人員和公眾對科技資料的檢索、瀏覽,並且滿足了他們對科技資料內容的豐富度、準確性、實時性等方面的要求。加快科技服務業發展,是推動科技創新和科技成果轉化、促進科技經濟深度融合的客觀要求,對於深入實施創新驅動發展戰略,推動經濟提質增效升級具有重要意義。
本文基於國家重點研發專案“科技大資料理論與技術”,深入分析當前多源異構科技大資料的匯聚融合需求及難點,結合當前主要科技大資料資源和資料儲存機構,理順並最佳化科技大資料匯聚融合業務流程。進一步的,基於分散式計算、雲端儲存、大資料、人工智慧等前沿支撐技術,設計一套面向開放協同的科技大資料匯聚融合與演化分析平臺技術架構,重點介紹該平臺所涉及的關鍵技術。
1 科技大資料匯聚融合需求
我國科技服務業仍處於發展初期,存在科技資源共享困難、服務模式單一等問題,具體體現在科技資料孤島化、科技知識隱性化、科技價值斷鏈化、科技服務盲目化等具體問題。《國務院關於印發促進大資料發展行動綱要的通知》中指出大資料已成為推動經濟轉型發展的新動力,這也給科技大資料服務業的發展帶來新契機。開放共享經濟環境下,藉助於雲計算技術、大資料和人工智慧等技術的資訊精準定位與科技資料探勘,探索多源異構科技大資料的採集、匯聚、融合,有利於實時跟蹤各項科技資料的生命週期和應用場景,進而促進科技向生產力的快速轉化。本文深入調研國內各大科研院校、科技企事業單位和科研人員對科技大資料的使用現狀,分析他們對多源異構科技大資料的匯聚融合要求和資料使用需求。
1.1 多源科技大資料的高效匯聚
不同科技企業、事業及相關單位需要從多個不同來源的科技資料提供商或者網站獲取各類科技資料和資源,例如中科院科技資源共享平臺、科學資料庫平臺、知乎、新浪科技等;同時,國內各個院校及科研機構需要從多個不同來源的科技資料庫及文獻資料庫中獲取各類文獻和科技資訊,例如中國知網、百度文庫等網站。因此,廣大科技大資料使用者希望透過單一的科技大資料檢索平臺,以規範化的、統一的服務介面方式,呼叫不同來源的科技大資料,實現不同資料來源之間的資訊互補,形成實時全面的科技大資料。
1.2 異構科技大資料的有機融合
由於各個資料來源存在各種不同結構、不同儲存介質、不同格式的科技大資料,如何將這些異構的科技大資料進行有機融合,是當前科技大資料處理領域的研究重點。例如,非結構化科技資料存在實體識別缺失問題,導致其與結構化科技資料在融合過程中存在語義鴻溝,無法進行實體匹配;又如,以文字格式儲存的科技資料和以影片格式儲存的科技資料無法實時的轉換和檢索。因此,廣大科技大資料使用者希望在多源科技大資料匯聚之後,對各資料來源的異構科技資料進行元資料提取、資料格式標準化、科技資料去重和過濾等一系列操作,最終得到統一規範的、無歧義、無冗餘的規模化科技大資料。
1.3 科技大資料的演化分析
每一條科技資料從產生到釋出、轉發、引用、轉化、更新,以及消失的過程被稱為該科技資料的整個生命週期。資料生產者、使用者和管理者都希望能夠有效地對每一條科技資料的生命週期進行有效跟蹤,以視覺化方式跟蹤及分析其演化過程。科技大資料的演化分析能夠清晰地跟蹤和量化分析各類科技資料在各個生命週期環節中的情況,從而為相應的科技資料管理方案和各級決策提供科技依據。
2 平臺業務流程分析
在分析多源異構科技大資料的匯聚融合和演化分析難題及其需求的基礎上,結合當前可用資源,設計出適合於當前實際應用場景的科技大資料匯聚融合與演化分析業務流程,如圖 1 所示。
首先,各個科技資料使用者(國內各個科技企事業單位、各個科研機構和院校、科研人員以及公眾),透過科技大資料匯聚融合與演化分析平臺提供的規範化資料檢索介面,分別設定相應的檢索範圍和資料處理規則、資料演化及展示方式,形成檢索條件,傳入相應的資料檢索介面。接著,平臺接收各科技資料使用者的資料檢索請求,分別呼叫相應資料來源所提供的資料訪問介面,並分別到目標資料庫或者網路中執行資料檢索和資料獲取行為。在獲取到各個資料來源的科技資料之後,平臺將使用語義關聯、多粒度資料對映、科技資料實體識別與匹配、科技資料清洗等大資料處理技術,對檢索結果進行有效處理。最後,根據使用者需求,執行相應的資料展示、資料傳輸、以及資料演化分析等功能,從而實現各科技資料使用者對多源異構科技大資料的實時檢索、高效匯聚和有機融合。
與其同時,平臺將以雲計算分散式儲存及開發框架為支撐,實現跨領域跨學科的科技大資料自動監測與採集。透過基於時空深度特徵的實體識別和匹配,完成科技大資料的動態演化分析,實現從科技大資料記錄層、知一識實體層到知識關係層的智慧資料融合的生命週期管理機制。
3 平臺技術架構
根據需求分析和業務流程設計結果,本文提出一套面向開放存取的科技大資料匯聚融合與演化平臺設計方案。該平臺的技術架構,如圖2所示。
平臺能夠根據充分利用雲計算系統和分散式儲存技術,形成協調統一的科技大資料分散式儲存與處理模式,以高效儲存科技文獻、科技資源、政策標準和其他科技大資料。在此基礎上,平臺使用資料探勘、智慧匹配、時空關聯、演化分析等科技大資料分析技術,對分散式儲存的科技大資料進行高效分散式並行分析,以獲取滿足各科技資料使用者需求的資料處理功能。同時,平臺能夠基於神經網路學習模型和特徵表示學習等技術,對多源異域構科技大資料進行有機融合,並且實現跨領域、跨學科的科技大資料自動監測與採集。進一步的,平臺利用線上知識圖譜中所蘊含的豐富結構化文字與連結資訊,建立多源異構、碎片化資料之間的語義關聯和多粒度層次之間的語義對映,順利完成科技大資料的實體識別和匹配。在此基礎上,該平臺實現了以多粒度知識服務為核心的大資料處理架構與引擎,實現從元資料記錄層、知識實體層和知識關係層的智慧資料融合與演化分析。最後,平臺能夠提供跨系統、跨業務、跨場景的大資料共享交換機制技術,構建支援資料交換、可信確權與追蹤保護的科技大資料資源融合系統平臺,實現科技大資料的生命週期管理。
4 平臺核心技術
科技大資料匯聚融合與演化分析平臺的實現,主要依賴於雲計算、大資料和各類人工智慧技術,具體而言,包括面向科技大資料的分散式儲存技術、基於人機融合的資料匯聚與融合構建技術、面向科技大資料的智慧化實體識別與匹配技術、科技大資料的匯聚融合和演化分析技術、科技大資料的可信確權和生命週期管理技術等。平臺所用的核心技術和它們之間的聯絡,如圖3所示。
4.1 面向科技大資料的分散式儲存技術
平臺利用科技大資料的雲計算分散式儲存框架構建方法,實現分散式儲存中的一致性、可用性、分割槽容錯性等應用需求。採用雲計算系統平臺分散式管理方法,對採集到的海量多源異構科技資源資料進行分散式儲存。同時,平臺基於開放協同的科技大資料服務平臺架構,為資料匯聚融合、實體識別及多維度資料分析奠定基礎。
4.2 人機融合的資料匯聚與融合構建技術
平臺採用多源異構資料採集和清洗、科技資源資料結構分類、高效流轉和安全可靠交換機制,以及科技服務規則設計與科技服務構件加工技術。並且使用不同的深度學習和機器學習等人工智慧模型,以完成匯聚的科技大資料進行對齊融合技術、基於特徵表示學習的人機融合資料處理方法。最後,平臺採用動態化的資料與服務需求管理、資料分佈多樣化和資料流動關聯化的科技大資料匯聚融合方法,提升科技大資料的智慧匯聚融合效率。
4.3 面向科技大資料的實體識別與匹配
平臺採用科技大資料實體識別技術,形成科技大資料在多維度上的統一描述。建立以模糊度為目標變數的多元邏輯迴歸模型,構建人工標註資料學習的模糊度,該技術能夠有效解決異構科技大資料之間的語義對映的模糊性問題。同時,平臺採用科技大資料實體的智慧匹配技術,物化大資料摘要到粒度層次的對映,確保科技大資料多粒度對映的語義敏感性。
4.4 科技大資料的匯聚融合與演化分析
平臺採用科技大資料智慧探測與匯聚融合技術,實現實時自動監測、自動採集與多型別資料智慧匯聚。同時,制定了科技大資料外部特徵與內容語義特徵關聯機制,形成一套對多源異構知識進行解析、篩選的有機關聯機制,分別從元資料記錄層、知識實體層和知識關係層進行全面的智慧化資料融合。最後,平臺採用符合科技資料的生命週期採集和跟蹤方法,實現動態、實時地刻畫資料的演進變化過程。
4.5 科技大資料的資料交換、可信確權、追蹤保護與生命週期管理
平臺採用跨平臺、跨系統、跨業務、跨場景的大資料共享交換機制技術,實現多源異構業務資料的無縫接入等。同時,平臺運用資料可信確權與追蹤保護和科技大資料的生命週期劃分與管理方法,實現跨時空跨系統跨平臺資料的動態生命週期劃分、生命週期的資料侵權監控與實時侵權取證。
5 結束語
本文圍繞科技大資料價值評估的難題,綜合考慮從資料、資訊、知識的集層式增值建模方法,形成科技大資料價值鏈的全過程刻畫,構建基於特徵選擇和人機協同的第三方價值評估指標體系,透過構建交易機制與盈利模式、定價策略與價值分攤模型,對科技大資料交易與服務進行協同設計,為科技大資料價值鏈構建和探索發展商業服務模式提供堅實的理論基礎與支撐。介紹了符合科技大資料的生命週期採集和跟蹤方法,並構建演化分析模型,實現動態、實時地刻畫資料的演進變化過程;提出科技大資料的安全可信保護策略,以及跨領域大資料互動管控方法和雲安全科技大資料服務確權追蹤方法,實現科技服務實時可檢測,保證大資料邊界訪問控制與安全可控,以及科技大資料跨領域服務的多級封裝,實現資料的安全統一驗證,最終形成支援資料交換、可信確權與追蹤保護的科技大資料服務平臺。
(參考文獻略)
選自《中國人工智慧學會通訊》
2021年第11卷第4期
科技大資料理論和技術專輯