sponsored links

當古籍修復遇上人工智慧

光明日報記者 韓業庭

北京大學數字人文研究中心、北京大學-位元組跳動數字人文開放實驗室、北京大學人工智慧研究院聯合主辦的“古籍智慧資訊處理”系列研討會日前在線上舉辦。

在研討會上,北京大學數字人文研究中心主任王軍算了一筆賬:我國現存古籍約有20萬種,從1949年到2019年,共修復整理出版了近38000種,照此速度,要將現存古籍全部修復整理出來,可能需要三百年的時間。不過,若利用人工智慧技術輔助修復整理,大概二三十年就能完成。

王軍所說的“利用人工智慧技術修復古籍”,並非遙遠的科學設想,它正在成為現實中的生動實踐。“古籍智慧資訊處理”系列研討會第一講開講後不久,位元組跳動宣佈向北大教育基金會提供捐贈,支援北京大學—位元組跳動數字人文開放實驗室研發“古籍數字化平臺”,利用智慧技術加速中華古籍資源的數字化建設,預計三年內完成10000種精選古籍的智慧化修復整理。

古籍文字轉化正在智慧化

很長一段時間裡,古籍保護主要採用原生性保護方式,即把古籍當作“文物”保護起來。後來出現再生性保護方式,對古籍進行影印再造和影像儲存,讓古籍得以以紙本或縮微膠片的形式存在。現有的數字化古籍很多是由縮微膠片轉換而成,解析度較低且影像多為黑白色。

即便將所有古籍用數字化手段影印出版,古籍也是“死”的,人們無法方便地使用。北京大學中文系教授楊海崢舉了個簡單的例子——影印的古籍沒有標點符號,非常不便於閱讀。另外,這也不利於對古籍內容進行檢索,想查閱某個內容,得逐篇逐頁閱讀原文,很難快速找到想要的知識。因此,要提升傳統古籍的利用率,必須將古籍內容轉化為數字文字。過去,這種轉化主要依靠專家人工錄入,時間成本極高。

“資訊科技的發展,尤其是人工智慧和大資料技術的出現,為古籍的修復整理帶來了革命性變化。”王軍說,近年來,包括北京大學在內的不少高校、科研機構在古籍數字化上開展了不少開拓性的工作,在OCR(光學字元識別)、AI句讀、實體識別等方面積累了比較成熟的技術和經驗。以OCR應用為例,用電子裝置對紙本古籍一掃,古籍上的內容就會轉錄到計算機中,並生成相應的數字文件,效率比人工錄入提升了不止千萬倍。

據瞭解,利用人工智慧和大資料技術,北京大學數字人文中心在從先秦到明清跨時代的大規模古籍文字語料整理上,已實現對古文字的自動句讀,平均準確率達到94%,同時還實現了對人名、地名、時代名、職官名、書名的自動識別,在中古史料上的準確率接近98%。

在這些方面,位元組跳動等網際網路公司也有很多經驗和技術積累。例如,OCR技術在今日頭條、抖音等平臺的圖片文字識別、字幕翻譯,以及商業化業務中的各類卡證票據及行業文件識別等領域均有廣泛應用。“這些技術可以逐漸向古籍智慧數字化的方向上遷移。我們在古籍數字化平臺開發中,與北大在技術上能優勢互補,進行有效的打通與融合。”位元組跳動人工智慧實驗室總監李航表示。

王軍介紹,“古籍數字化平臺”將會進一步提升古籍整理的準確率、智慧化水平和開放度。一方面,可以對重點文字進行精校,滿足專家學者對資料準確度的要求;另一方面,利用智慧平臺上的文字識別、校對工具,學者和古籍愛好者可以在線上一站式完成古籍整理工作,而不用像以前那樣先在word文件中進行整理編輯,再傳遞相關的文件,在提高效率的同時,也方便公眾參與。

古籍利用有望智慧化

四川大學中國文化全球傳播大資料中心教授王兆鵬認為,技術的進步為古籍修復整理智慧化帶來兩個面向:一是古籍文字轉化智慧化,二是古籍利用智慧化。

把紙質古籍上的內容轉化成數字文字,只是古籍修復整理的第一步。在此基礎上,要解決的另一個問題是,如何將海量晦澀難懂的古籍內容進行整理歸類,形成可互動、可觸控、視覺化的數字人文作品,以方便人們查閱使用。否則,錄入計算機的古籍依然會繼續“沉睡”。

基於人工智慧技術,目前我國已建立多個古籍整理自動化和視覺化平臺。比如,王軍主持設計和研發的“《宋元學案》知識圖譜視覺化系統”,對240萬字的《宋元學案》進行了文字處理和分析,將2000多位宋元理學學者、近100個學術流派所涉及的人物、時間、地點、著作等提取出來構造成知識圖譜。然而,不少平臺的智慧化水平仍然較低,比如輸入關鍵詞,搜尋出的內容各自孤立、凌亂無序。王兆鵬認為,更智慧的古籍整理利用平臺,應該從1.0版向2.0版演進,比如內容檢索應“以類相從”,檢索出的內容應彼此關聯,且由人工智慧進行有機分類。

北京大學與位元組跳動合作研發“古籍數字化平臺”是提升古籍整理和利用智慧化水平的一次嘗試。“我們合作的技術核心是將人工智慧和大資料應用在海量的古籍文獻上,實現古文字知識圖譜的自動生成和對古籍內容的智慧化整理,讓古籍能夠以文字的形態加以檢索、關聯閱讀和深度挖掘利用。”李航說,未來,“古籍數字化平臺”不僅是一個古籍智慧整理平臺,還將是一個面向讀者的數字化閱讀工具,將提供免費開放的訪問服務。

王軍預計,隨著人工智慧技術的運用,古籍文獻中所蘊藏的古代歷史文化知識將不斷被抽取出來,構造成各種各樣的知識庫,並將會以知識圖譜的形式支援網際網路前端應用。

由於在網際網路產品研發、設計方面存在優勢,網際網路公司等社會力量的加入會進一步保障古籍數字化平臺的服務質量。“我們有優秀的產品經理、設計師、軟體工程師,能夠不斷最佳化、創新古籍數字化平臺的產品功能,提供更好的使用者體驗。”北京位元組跳動企業社會責任部產品總經理唐塏鑫表示,目前今日頭條的設計團隊和抖音的開發、測試團隊已經加入“古籍數字化平臺”的開發工作。

需要跨學科通力合作

隨著人工智慧技術在古籍修復整理領域的廣泛應用,作為古典文獻專業的老師,楊海崢經常被學生們問到一個問題:“學古典文獻的同時,還要學人工智慧嗎?”雖然楊海崢不能確定,但一個事實是,人工智慧技術與古籍修復整理的結合,將開闢出全新的交叉學科領域,利用人工智慧技術修復整理古籍肯定需要更多複合型人才。

王軍認為,在這種情況下,高校古典文獻學等相關專業如何培養兼具技術與學術能力的古典文獻學人才,如何形成多學科交叉的課程體系等,都是亟待解決的問題。

此外,人工智慧並非“絕頂聰明”。在華南理工大學電子與資訊學院教授金連文看來,古籍影象增強、修復,複雜版式古籍文件影象版面分析等問題都有待解決。而在對古籍內容的分析整理中,目前最大的技術難點是人工智慧對古籍中人名、地名等專有名詞識別後,如何進一步實現關係提取,從而為古代歷史文化知識圖譜的自動生成準備技術條件。

因此,楊海崢認為,在古籍整理中,人文社科學者還是要積極介入,並加強與技術人員的合作,那樣才能更好地利用機器而不是被機器牽著鼻子走,從而保證結果的準確性。

人工智慧技術的發展帶來了古籍整理研究方法、思路的根本改變。業內的一個共識是,利用人工智慧推進古籍修復整理需要進行跨學科、跨環境、跨文化、跨地區合作。正如王軍所言,“古籍保護需要社會各界的共同努力,應歡迎更多古籍收藏機構、研究機構和熱心古籍事業的個人加入,這樣才能打造出一個開放的‘古籍數字化平臺’”。

《光明日報》( 2022年04月11日09版)

來源: 光明網-《光明日報》

分類: 財經
時間: 2022-04-10

相關文章

美聯儲恐將加息,全球股市暴跌,A股明天也會遭遇中秋劫嗎?

美聯儲恐將加息,全球股市暴跌,A股明天也會遭遇中秋劫嗎?
好好的一箇中秋節,資本市場卻演繹出了一箇中秋劫,A股會不會跟著一起暴跌?我們又該如何看待市場的暴跌呢? 這幾天是中秋節小長假,A股跟著一起休市過節,但港股和海外市場並沒有休市,沒想到的是它們活活變成了 ...

玩家講述|新能源車企獲329億元補貼 有公司獲補貼超過5年總利潤

玩家講述|新能源車企獲329億元補貼 有公司獲補貼超過5年總利潤
近日,工信部發布<關於2016-2020年度新能源汽車推廣應用補助資金清算稽核初審情況的公示>(以下簡稱公示).本次公示主要清算涉及2016年-2020年完成銷售上牌的109.74萬輛新能 ...

為什麼看好煤炭板塊,炭未觀止,且跌且珍惜(連結附股)
今天煤炭股集體暴跌,給了機會,很是看好,為什麼呢? 1.增產效果沒有達到預期目標. 先看幾個產能大省,內蒙古鄂爾多斯地區部分煤礦因月底煤管票短缺出現停產.減產現象:陝西地區的則出現個別地方煤礦因裝置檢 ...

郭坡村的美好生活

郭坡村的美好生活
茂盛的絲瓜藤纏繞出一片綠海,青翠飽滿的絲瓜懸掛其間:一旁平整開闊的土地上,收割後的高粱還留下一茬青苗:不遠處一千多畝桃園裡,晚熟的黃桃還在等待遊人採摘--行走在潼南區柏梓鎮郭坡村的田間地頭,各色農產品 ...

爭議不斷的動力電池暗戰,究竟改變了什麼?

爭議不斷的動力電池暗戰,究竟改變了什麼?
圖片來源@視覺中國 文丨腦極體 作為新能源汽車的核心動力組成部分,電池的效能在很大程度上決定了車輛的綜合表現,其技術路線的爭論一直存在.究竟哪種電池更適合當前的純電動車,似乎一直沒有一個定論.由於動力 ...

“超跑SUV”HiPhiX太科幻!翼展門對標Model X,超大三聯屏沒對手

“超跑SUV”HiPhiX太科幻!翼展門對標Model X,超大三聯屏沒對手
提到"超跑SUV"你可能心裡會有概念,再跟你提"高合"這個品牌相信很多人都沒聽說說過,但是提到展翼門設計以及車燈自帶表情包,如果你關注汽車行業,那你一定不陌生, ...

從拉閘限電看中國未來的投資機會

從拉閘限電看中國未來的投資機會
最近拉閘限電這事頻頻上頭條.這究竟是怎麼了?其實拉閘限電這事幾乎是年年都有,但是今年似乎更明顯.從資本市場上來看,凡是"觸電"的上市公司的股價都是刷刷的上漲,有些甚至創歷史新高.而 ...

每個睡在長沙的人,都沒空在長夜痛哭

每個睡在長沙的人,都沒空在長夜痛哭
每個睡在長沙的人,都沒空在長夜痛哭 原創 劉原 劉原 今天 收錄於話題 #文和友1個內容 #長沙1個內容 #劉原2個內容 這個漫長的夏天,我獨自帶著倆娃,在北迴歸線附近看了許多的雲,走了許多的橋,彷彿 ...

日系品牌燃油車賣得火熱,可為何一涉及到新能源就集體遇冷?

日系品牌燃油車賣得火熱,可為何一涉及到新能源就集體遇冷?
在眾多合資車企中,日系品牌在國內有著絕對的話語權,這裡主要指的是以豐田.本田.日產為代表的"日系三劍客",相比德系車而言,日系車不僅在價格上相對實惠,在保值率以及品質上也是受到了國 ...

美股新能源汽車股20日集體走低
美股新能源汽車股20日集體走低 中證網訊(記者 周璐璐)當地時間9月20日,美股新能源汽車股集體走低.據Wind資料,截至收盤,蔚來跌6.23%,小鵬汽車跌6.25%,理想汽車跌7.49%,特斯拉跌3 ...

恐慌指數飆升30%!全球市場集體下挫,道指盤中暴跌近1000點,恆大ADR重挫30%,滴滴緊急闢謠…發生了什麼?#熱點覆盤#
點藍字關注,不迷路~ 繼港股.歐股下挫後,當地時間9月20日,美股三大指數集體跳空低開,隨後更是低開低走,截至收盤,納指跌2.19%,標普500指數跌1.7%,為5月份以來最大跌幅:道指跌1.78%. ...

高階車8月銷量集體啞火,汽車消費升級擱淺,新能源還在漲?

高階車8月銷量集體啞火,汽車消費升級擱淺,新能源還在漲?
自從2018年以來,中國車市步入寒冬,增速明顯放緩.不過,偌大的汽車市場仍在上演幾家歡喜幾家愁的老套"劇情".既有站在淘汰邊緣乃至直接退場的車企,也有一手握著高階車一手抓住新能源車 ...

銀行股集體大跌!萬億招行一度重挫12%,地產衝擊傳聞不斷,風險真有那麼大?#熱點覆盤#
泥沙俱下! 9月20日,港股市場遭受重挫.截至當日收盤,恆指跌去822點,跌幅高達3.29%,其中恆生地產指數狂跌6.7%.分析人士認為,恆大事件持續發酵可能是一個導火索,一些關於香港地產商的傳聞也在 ...

暴跌超6%,下調三季度交付量,理想的未來還理想麼?

暴跌超6%,下調三季度交付量,理想的未來還理想麼?
​連續兩個月(7-8)交付量超越小鵬.蔚來,理想汽車終於在新能源車月銷量排行榜上揚眉吐氣一把了.造車新勢力的座次註定要改寫成"理小蔚"? 但是好景不長,昨夜一則訊息,使得美股中概新 ...

中國十大風電潛力龍頭,綠色新能源的下一個風口

中國十大風電潛力龍頭,綠色新能源的下一個風口
忽如一夜春風來,千樹萬樹梨花開.分散式光伏試點的落地今天直接帶火了光伏建築一體化,以及相關光伏製造和建築材料行業.同時綠色新能源板塊下各個題材再度集體爆發.氟化工.風能.儲能.HIT電池.鹽湖提鋰.虛 ...

新能源時代,鋰礦就是石油,美國虎視眈眈,中國如何保護海外鋰礦

新能源時代,鋰礦就是石油,美國虎視眈眈,中國如何保護海外鋰礦
前言: 如果說鐵礦石代表了現在,那麼鋰礦就是未來. 不幸的是,這兩樣可以改變世界格局的戰略礦藏,中國都儲量不足.更不幸的是,跟鐵礦石一樣,全球主要的鋰礦分佈地,又在澳大利亞,和號稱美國後花園的南美洲. ...

新能源、光伏等行業開始套人了,該來的總會來

新能源、光伏等行業開始套人了,該來的總會來
9月份以來熱門行業先是高位滯漲,之後便迅速進入下跌通道,僅僅半個月時間,新能源行業就整體下跌了10%,光伏行業整體下跌了14%.至於大家眼中象徵高科技的半導體晶片行業就更慘了,最近一年已經腰斬了,暴跌 ...

醫療暴跌30%,葛蘭、趙蓓的基金可以抄底了嗎?

醫療暴跌30%,葛蘭、趙蓓的基金可以抄底了嗎?
最近的市場讓人很陌生,指數天天漲,但手上的基金要死不活. 去年火爆的核心資產跌成屎,消費跪了,白酒不香了,就連醫療也扛不住了. 在二季度時,醫療和新能源.半導體一樣,還是黃袍加身的好賽道,高呼yyds ...

這車油耗僅2.1L,不限行無購置稅,帶你看奧迪A6L新能源

這車油耗僅2.1L,不限行無購置稅,帶你看奧迪A6L新能源
去年01月,BBA三款中大型豪華轎車在3個月之內齊齊插電,在插電式混合動力轎車市場提供了一次完美的集體示範,三者之間既進行了十分激烈的競爭比較,又相互合作建立了一個全新的細分市場. 一年多時間過去了, ...

新能源汽車2025目標最快明年實現
來源:蓋世汽車 鍾琳 (原標題:新能源汽車2025目標最快明年實現,PHEV將在A.B級車市場大有可為) "無論從技術革新.還是從產業佈局來看,燃油車一統江湖的時代基本上結束了." ...