隨著數字技術的發展,人們對歷史類資料庫提出了新的要求。歷史資料如何以數字化的形式呈現以便服務於科研等問題亟待解決,而問題解決的可行途徑之一是建立一個可持續擴充套件的歷史研究共享平臺。
把握學界與社會需求
在大資料背景下,資料庫帶來了資料獲取方式的變革,學者們希望藉助技術手段實現多維的資料分析,發現資料間的關係。資料庫不僅能夠為研究提供論據,還可以使新的知識湧現出來。以大資料為支撐,透過技術手段用資料發現新知識的學術研究,或可稱為“數字學術”,主要體現出以下需求。
1.資料互證。比較研究是判別資料真實性的有效方法之一。將不同視角的人所留下的資料對比閱讀,才能更為全面、真實、深刻地反映時代發展樣貌,學術研究方可推陳出新。資料主要分為兩類:一是檔案、報刊、田野調查、日記、書信等原始資料;二是著作、論文、報告等研究成果。目前,能夠實現同主題文獻比對互證功能的資料庫,有人民出版社的“人民金典語義查詢系統”等。
2.知識關聯。知識關聯有兩層含義:一是指將讀者想要了解的事物與其他相關事物關聯;二是指知識與資料關聯,即每一條知識資訊或知識關聯資訊都要有據可依,方便讀者快速查閱原始資料。目前,在歷史學界影響較大的人物資料庫“中國曆代人物傳記資料庫”(CBDB),採用了地理資訊系統(GIS)、親屬關係、社會關係等作為勾連人物知識的脈絡。
3.自定義標引、歸類、統計和視覺化呈現。學界有一種提法叫“量化資料庫”,這一概念強調“可適用於統計分析軟體”進行量化研究,因此能夠帶來研究方法的變革,使新技術“真正介入研究的核心”,從資料分析中發現問題。在全文檢索基礎上的文字分析和資料視覺化工具的開發,是目前資料庫發展的趨勢。現有的一些資料庫,在文字分析、資料處理功能上有所推進。比如,臺灣歷史數點陣圖書館(THDL)提供詞頻分析、契約文書買賣角色分析、人物相關性分析、契約空間分佈展示等功能;Gale Scholar整合了國外常用的第三方資料探勘和資料分析軟體,為讀者提供詞庫、詞頻分析工具和視覺化展示。
4.學界對人文知識的把關和社會觀念的引領。各類人文網路社群不斷出現,已自發形成了公共史學的新場域。但民眾往往難以辨別野史、謠傳等內容,這給學界賦予了更多的社會責任。然而,目前學界與社會多處於疏離狀態。我們亟須正視在網路環境下人文知識的傳播問題,探尋一條適合人文學科發展的新路。
資料庫主要是資料的集聚,而平臺則更強調互動功能。歷史類資料庫應向歷史研究共享平臺轉變,以不斷滿足學術研究和社會發展的要求。
關注資料庫建設制約因素
目前,我國的歷史類資料庫建設在智慧化、共享性方面尚無法滿足學界與社會需求。發展掣肘的原因主要在以下方面。
1.版權壁壘,難以打通知識生產與知識儲存,實現資料的彙集和共享。建設資料統一共享開放平臺是學界廣泛呼籲並持續推進的,但是目前“資料孤島”、重複建設現象仍較為嚴重。國內較大型的資料庫主要限於期刊、圖書等資料型別。除營利性資料庫外,大多資料庫僅限於原創機構內部使用。造成這種現狀的主要原因是版權壁壘,檔案、圖書、報刊、調研資料等各有所屬,未來需要在整合圖書館、檔案館、博物館、出版單位、調研機構等方面有所突破。
2.缺乏知識服務意識,難以打通資料蒐集與學術研究,實現研究過程的積累。基於研究而建設的結構性資料庫往往缺乏共享機制,很多功能和成果只能在論文中體現,導致在資訊搬運、組織標引等方面造成了不少重複勞動。其主要原因是學界偏重研究成果的獲得,而缺乏知識服務意識。所謂知識服務,即以領域知識體系建設為基礎,融合相關技術,構建領域知識匯聚機制,對領域知識進行採集與沉澱,開展知識組織,設計並生產知識產品,以知識產品為紐帶與聯結器,連線知識創造與知識應用,並提供多樣化服務模式,促進知識創新與再創造。
3.平臺運營規則和標準制定滯後,難以打通學術研究與公共文化,實現學術引領作用。鑑於目前各資料庫著錄標引規則不統一的情況,以及對元資料多元化的需求,需要制定一套基本的著錄標引體系編輯框架以方便學者操作。鑑於知識傳播渠道的拓寬,可能導致大眾認知的片面與混亂。網路倫理和道德引領意義重大,應制定一套學科培訓、優質資源推薦和資源上傳的稽核、釋出的通用標準。這些規則的制定不僅需要學界的參與,還需要有關政府部門強有力的支援。
4.跨學科合作尚未形成有效的驅動鏈條。歷史共享平臺需要有跨學科的合作,甚至可能形成跨產業的新業態。資料的蒐集需要法學對著作權等各項權益的保障。資料整理需要圖書館學、檔案學參與規則的制定。在多媒體的環境下,音影片剪輯的藝術性凸顯。各基礎學科需要與計算機技術結合,才能開發出便利學術研究的平臺功能。平臺的建設和運營維護需要持續的技術和資金支援,目前尚未形成有效的驅動鏈條。
建設歷史研究共享平臺
在數字人文飛速發展的背景下,平臺建設已具備了學科基礎、社會基礎、技術基礎。建議以下面幾點為抓手,推動數字技術與學術研究深度融合,在資源、知識關聯、知識服務三個方面實現可持續擴充套件,推進人文基礎學科嚮應用學科的思維轉變。
1.立體資料庫。資料庫是“大資料”的產物,其首要條件是資料浩繁,主要包含兩層含義。一是資料型別、來源多樣化,以滿足“上下左右”論證的需要。二是資料連結立體化,方便追根溯源,主要實現如下功能。(1)全文數字化是增加功能的一個基礎要素。相較於掃描,全文數字化成本較高,因此有些大型公益型資料庫往往做不到全文數字化。(2)資訊整理的規範化是保證資料學術價值和資源共享的要點。要充分尊重資源原有的儲存形式和形成環境,形成一套資源整理、上傳的國家規範。(3)多維度檢索功能、知識關聯及其關聯資訊可追溯到來源資料的功能。只有功能與資料密切勾連,才能切實對歷史研究有所幫助。(4)文獻比對功能。其難點在於歷代用語各有不同,自然語言處理的難度較大。
2.編輯後臺前臺化。開拓新領域和學術深耕越發成為研究的發展趨勢。面對多樣、複雜的學術研究,如何精準滿足使用者需求,成為越來越難做的工作。數字學術不斷崛起,但並非每位學者都具備統計學等知識和計算機技能,因此需要藉助軟體工具處理海量資料。元資料的著錄標引不能僅限於國家標準所規定的範圍,而是要將資料庫著錄標引的後臺提供給使用者去自定義處理,使人文學科研究者由其自身研究需要引導資料庫開發,實現在研究中不斷生長、互惠共贏的平臺發展模式。
3.擴大公眾參與,注重教育和協商,引導人文研究健康發展。支援公眾參與平臺建設,線上公開徵集資料、開展網路調研、開放糾錯和評論視窗等,都是可行的方法。前提是做好協商和教育。一是建構法律保障的預防性機制。平臺應向受眾做好必要的說明,尊重受眾的有關權利和自主性,透過充分協商,簽署版權法律檔案。不過,限制不宜過度擴張,不應影響學術研究的創新性。二是注重學術引導。增強稽核機制,有利於校正公眾討論的盲目性。將文獻資料、調查資料和學術研究三者結合起來,形成人文研究的閉環,打造研究主題社群。人文研究或將成為提高民眾文化素養、深化愛國主義教育的引擎。
4.精準推送,實質性推動學術進步。如何向讀者推送資料庫中個人感興趣的優質資料,如何挖掘出普遍關心的問題從而促進學術探討,資料庫內容可能引發哪些新的研究點,或可透過分析平臺訪問日誌實現。目前,在電商、檢索平臺已獲得廣泛運用的使用者行為分析演算法,也適用於學術平臺,可以使知識生產更有針對性、引導性。一是平臺服務質量全面提升,使用者的忠誠度也能隨之提高,方可形成新的業態。二是聚集興趣點相近的人群,可以減少資料蒐集和學術研究的個別性和零散性,從而對推動學術發展發揮實質性作用。
在數字人文飛速發展的背景下,將知識生產與知識儲存打通,將資料蒐集與學術研究打通,將學術研究與學術引領作用打通,將文化傳承與公共文化打通等,是未來的發展趨勢。歷史研究資料庫也應從史料型資料庫向量化資料庫,再向可持續擴充套件的歷史研究共享平臺發展,推動數字學術化和學術數字化,推動數字技術與學術研究深度融合。可持續擴充套件性透過共享、互通、互動來實現,主要體現在三個方面:一是資源不斷充實,二是知識關聯不斷豐富,三是知識服務功能不斷最佳化。目前,平臺建設已具備學科基礎、社會基礎、技術基礎,亟須社會各界共同推進。未來或可融合學術研究和公共文化領域,發動各界突破壁壘,集中解決資金和技術問題,激發知識經濟和文化創意產業,加快歷史學為社會服務的步伐,實現歷史學從基礎學科嚮應用學科的轉型。
(作者單位:中國社會科學院當代中國研究所)
來源:中國社會科學網-中國社會科學報 作者:李二苓