中國網/中國發展門戶網訊科學資料是指將研究物件抽象化和概念化後所形成的、用於科學研究活動的相關事實記錄。科學資料的形式包括統計資料、實驗結果、觀測結果、訪談記錄、影象和聲音等,是證實科研發現或支撐學術觀點的證據,也是進行理論推理的基礎。隨著大資料時代的到來,海量科學資料帶來了豐富的基礎性科技資源,科學研究水平逐漸開始依賴於對科學資料的積累,以及將科學資料轉化為知識和科研產出的能力。科學資料管理是指協調並規範對科學資料的採集、生產、儲存、使用、共享等活動。對科學基金資助機構而言,科學資料管理就是對被資助者設定並監督其科學資料採集、生產、匯交的標準和流程,加強科學資料儲存與共享的軟體系統與硬體設施建設,推動被資助專案所產生的科學資料的開放共享,發揮科學資料所蘊含的價值。
當前,在國家科學資料管理政策的指導下,一些部門特別是國家級科學資料中心制定了具體的科學資料管理方案,有效開展了科學資料管理的實踐。但科學基金資助機構尚未形成成熟的科學資料管理方案。科學基金資助機構是資助科學研究的主要渠道之一,對科學基金資助機構的科學資料管理具有重要意義:一方面,科學基金資助機構承擔著所資助專案的管理責任,如何把所資助專案產生的資料收集好、管理好、利用好,是一項重要的任務;另一方面,科學基金資助機構掌握大量的科學資料資源和相關資訊,與資助方、專案承擔者及其所在工作單位存在緊密和長期的合作關係,具有科學資料管理的先天條件和優勢。因此,提高科學基金資助機構的科學資料管理水平,進一步促進科學資料開放共享,是提升我國科研水平和創新能力的重要途徑,具有重要的戰略意義。
科學資料管理需求產生的驅動因素
科學研究正規化轉變
在科學史中,無論“經驗正規化”“理論正規化”或“計算正規化”,用資料研究科學規律始終扮演著重要的角色。隨著資訊科技革命的發展,科學資料越來越容易被生產(收集)、儲存、處理、分析和傳播,科學資料總量呈幾何式增長,這使得任何單一的傳統研究正規化都無法有效應對密集型資料的挖掘和整合。因此,科學研究正規化開始轉向“第四正規化”,即“資料驅動正規化”。在此背景下,學科交叉融合與科學資料爆炸式增長相互促進,科學資料管理越發成為整合資料資源的必要手段。
大資料時代推動
近年來,高度連線的世界和迅速發展的電子資訊相關的軟、硬體裝置使得資料產生的範圍、方式、途徑發生了革命性變化。資料在型別格式、組成結構、存在形態等方面也趨向複雜化。在雲計算、大資料分析工具、並行資料庫等技術工具的支撐下,從海量資料中挖掘出新的知識變為可能,科學資料越發成為科學研究的“金礦”;圍繞科學資料的儲存、分析、傳播和應用等要素的科學資料管理正越來越影響著一個國家的科技水平。
開放獲取運動興起
開放獲取(Open Access)是致力於推動科研成果共享,藉助網際網路自由傳播的特性來促進科研交流,推動便捷出版,提高科研效率的行動。在資料資源領域,科學資料的開放共享能夠減少重複勞動,縮短科研週期。然而,在複雜的科研場景下,資料的展現形式和獲取途徑難以滿足知識共同體的需求,需要科學的激勵機制和質量控制體系來保證科學資料的有效流動,從而形成博弈策略的穩態平衡。因此,實施科學資料管理也是開放獲取運動的必然要求。
除了上述因素以外,不斷擴張的科學資料邊界、資料結構多樣性、資料權益及資料隱私保護等因素也是驅動科學資料管理不斷髮展的重要因素。因此,各國政府對科學資料資源提高重視,不斷加強政策引導以推動資料開放共享。
部分發達國家科學資助機構的科學資料管理實踐
美國主要科學資助機構的科學資料管理實踐
美國國家科學基金會(NSF)要求所資助的科研專案在專案申請階段應提交“資料管理計劃”(Data Management Plan,DMP),以加強對所資助科研專案產出的科學資料的管理。在 DMP 中,專案申請人需要對專案實施中產生的所有科學資料及其元資料的格式、內容標準、訪問許可權、共享計劃等內容進行闡述。該計劃是專案稽核的先決條件和重要評判依據。美國國立衛生研究院(NIH)同樣制定了科學資料管理相關政策,並要求專案產生的科研資料要符合 FAIR 原則,即:可檢索(findable)、可訪問(accessible)、可互動使用(interoperable)和可重複使用(reusable)。
英國主要科學資助機構的科學資料管理實踐
英國研究理事會(RCUK)等科學資助機構是英國科學資料管理政策的主要制定者。RCUK 釋出了多項科學資料管理政策,提出了包括資料成長、長期儲存、共享和開放等方面的資料管理政策的基本原則,指出科學資料管理需要遵循的 5 項原則:明確研究人員、研究機構和資助者的責任和義務;在收集和篩選科學資料時,應保證資料質量;資料共享時應提高科學資料的查詢效率,提供訪問的許可權;科學制定科學資料管理政策辦法,提高公共科研基金的使用效率和使用效益;對具有長期價值的科學資料進行妥善儲存。
澳大利亞主要資助機構的科學資料管理實踐
澳大利亞國家資料服務局(ANDS)為科研工作者提供資料管理服務,以致力於提高科學資料的價值。ANDS 對科學資料管理中需要考慮的關鍵步驟進行了研究,並明確了在這些步驟下的責任劃分。澳大利亞研究理事會(ARC)、澳大利亞國家衛生和醫學研究理事會(NHMRC)等科學資助機構認同 ANDS 所擬定的科學資料管理計劃,要求所資助的專案遵循這些規定,並鼓勵研究團隊將專案產出的科學資料及出版物儲存在指定的資料庫中以便於開放共享。
基於全生命週期的科學基金資助機構科學資料管理思路
基於上述分析,部分發達國家科學資料管理實踐注重從宏觀角度把握科學資料生命週期內的各項管理環節,尤其圍繞 DMP 展開對科學資料從產生到再利用的各階段的把關控制。以 DMP 為抓手的管理思路值得我國科學資料管理實踐借鑑。然而,現行科學資料管理活動往往限制於資料生命週期的各個離散的發展階段中,不利於將各階段有機聯結。
根據科學資料生產前、中、後 3 個時期,可將科學資料的生命週期劃分為:資料的計劃、資料的生成/收集、資料的處理、資料的儲存、資料的共享、資料的再利用 6 個階段。由於科學資料的產生和應用具有連續性特徵,需要執行科學資料管理的環節不能完全與資料生命週期的各階段一一對應。因此,本文提出全生命週期視角下的科學資料管理的總體思路(圖 1)。
全生命週期視角下的科學資料管理強調管理環節對資料生命週期各階段的延伸影響和長期支援。在職責劃分上,依託單位指導並管理科研團隊,共同承擔對科學資料產生前和產生中的任務,即制定並按照 DMP 產出和匯交符合要求的科學資料。第三方共享平臺負責資料匯交完成後的資料儲存、共享和再利用等階段的工作。科學基金資助機構的職責貫穿資料的全生命週期:在科學資料的計劃階段,應推動 DMP 的制定、實施和考核;在資料產生的初期,應著手啟動科學資料匯交管理,從軟、硬體設施為科學資料匯交儲存提供先決條件,並從利於資料共享的角度設計匯交流程和匯交模式;在資料產生後,應啟動科學資料開放共享和科學資料的可持續維護,建立高效的共享機制,不斷髮掘資料的價值,直至科學資料過於陳舊,不再被人使用,即科學資料生命週期終結。
DMP 的制定和實施
DMP 的制定和實施應該在資料產生前和初期產生階段進行,對應的是科研團隊準備和提交專案申請書階段。科學基金資助機構應要求科研團隊提交詳盡的 DMP,並嚴格按照 DMP 對科學資料生命週期各階段進行評估。專案團隊需要透過 DMP 描述在專案研究過程中將要收集或產生的資料,並且明確在專案研究過程中如何管理和儲存這些科學資料,以及在專案結題後如何共享。作為貫穿科學資料全生命週期的綱領,DMP 為資料倫理論證、追溯科學基金資料責任人提供了透明化路徑和依據。科學基金資助機構應建立先匯交專案科學資料、再驗收專案的機制,將 DMP 執行的情況作為專案結題評審的重要考核指標,並把基於資料全生命週期的 DMP 執行情況作為申請新專案資質的條件。
科學資料匯交管理
科學資料的產生具有階段性和持續性特點。因此,資料的匯交應發生在一定時間段內,即資料生成/收集到資料處理階段。科學基金資助機構可設定靈活機制,允許科研團隊隨時將成熟的科學資料進行匯交,以提高資料的時效性,使其儘快被共享,提升其價值。應建立基於元資料的科學資料匯交模式(圖 2)。元資料即“資料的資料”,是對科學資料進行規範化的描述資料。科學資料產生後,以依託單位為資料匯交單元,將下屬各專案團隊的科學資料和元資料匯交至科學資料匯交共享平臺;平臺進行初步驗收和分揀,將元資料進行儲存,並將科學資料存放至相應學科的科學資料中心。各學科科學資料中心在科學基金資助機構的指導下對科學資料進行匯交質量評價。評價結果反饋後,對於不合格的資料,科學資料匯交共享平臺應要求依託單位和專案團隊進行整改和重新提交。
科學資料進行匯交後,基於元資料的儲存模式為科學資料的共享和再利用提供了便捷和開放的途徑。科學資料的共享交由第三方進行,應平衡利益相關者的利益訴求,引導各方積極推動科學資料的開放共享。科學資料共享的利益相關者包括:政府、科學基金資助機構、科學資料中心、依託單位、資料生產者、資料使用者、同行評審專家、受試者和出版者。科學資料的共享需要資料全生命週期利益相關者共同參與,可構建科學資料共享機制體系(圖 3);各利益相關者應該透過制度和利益協調來實現科學資料共享的目標。政府作為資金提供者和管理政策的頂層設計者,應該建立全方位的政策引導體系,規範監督和引導各利益相關者的行為;科學基金資助機構作為科學資料共享組織系統的中樞,應聯結各利益相關者團結協作,與科學資料共享平臺、資料出版商建立合作聯盟的管理模式。
科學資料的可持續維護
科學資料的可持續維護貫穿資料的儲存、共享和再利用階段。對科學資料的可持續維護是資料全生命週期管理的重要組成,是實現科學資料不斷髮揮價值的重要保障。應建立面向用戶的資料獲取技術體系,構建高效合理的儲存層次結構,對熱資料進行快取或預取,將冷資料遷移至低速儲存裝置,從而最佳化系統性能分配,提高使用者的資料獲取便利程度。在資料溯源方面,應對提交的資料建立唯一標識,確保科學資料能夠按照統一的標準進行整合,從而保證科學資料能夠依據標識進行溯源,進一步確保科學資料可以被應用、比對。同時,建立基於身份證號碼或開放研究者與貢獻者身份(ORCID)的身份標識體系,用於確定科學資料與資料負責人的對應關係,保障科學資料的回溯和追蹤。
科學資料是科技創新和經濟發展中不可或缺的基礎性資源。在科學研究正規化變革、大資料時代發展等因素的推動下,科學資料對科學研究的重要意義日益凸顯。科學基金資助機構作為主要的科研專案資助和管理實體,需要提高科學資料管理水平,推動科學資料的開放共享。本文從資料生命週期的各階段入手,提出聯結和推動資料生命週期健康發展的科學資料管理的關鍵環節,包括:DMP 的制定與實施、科學資料匯交管理、科學資料開放共享和科學資料的可持續維護。其中,DMP 作為科學資料管理的綱領性檔案,伴隨科學資料生命週期的各個階段。科學資料匯交管理應以發揮科學資料的最大價值為目標;應透過資料庫的建立和資料匯交流程和模式的設計,為資料的特色化匯交和便捷共享打下良好的軟、硬體基礎。科學資料開放共享延續科學資料匯交的管理體系,透過多方共同參與的共享機制提高使用者和資料共享中心的良性互動。同時,為延長科學資料壽命,應對科學資料進行可持續維護,透過資料唯一標識、資料溯源、最佳化資料儲存等手段,最大化科學資料價值,以持續推進科學資料開放共享,不斷增強科技創新能力。
(作者:趙秋紅、李元睿、鄧修權、張楚、張保豐,北京航空航天大學 經濟管理學院;《中國科學院院刊》供稿)