“漢典重光”首批實(shí)現(xiàn)海外20萬頁中文古籍“數(shù)字化回歸”
中新社北京5月18日電 (記者 孫自法)中國海外古籍“數(shù)字化回歸”項目“漢典重光”平臺18日下午在北京中國科技館正式發(fā)布,通過先進(jìn)的人工智能(AI)技術(shù),一批珍藏于美國加州大學(xué)伯克利分校的中文古籍善本,,以數(shù)字化方式回歸故土,落地“漢典重光”古籍平臺,。
“漢典重光”平臺稱,首批20萬頁古籍已完成數(shù)字化,,并沉淀為覆蓋3萬多字的古籍字典,,公眾可通過該平臺翻閱、檢索古籍,,這20萬頁古籍的識別準(zhǔn)確率達(dá)到97.5%,。
“漢典重光”項目由阿里巴巴公益基金會、四川大學(xué),、美國加州大學(xué)伯克利分校,、中國國家圖書館、浙江圖書館合作開展,,旨在尋覓流散海外的中國古籍并將其數(shù)字化,、公共化,,讓普通人也能親近古籍,通過古籍與先賢對話,,與優(yōu)秀傳統(tǒng)文化對話,。
2019年,阿里巴巴和四川大學(xué)提出“數(shù)字化回歸”設(shè)想,,獲得中文藏書量排名全美第三的加州大學(xué)伯克利分校支持并達(dá)成共識,,將伯克利東亞圖書館的中文古籍善本逐步數(shù)字化。
本次首批數(shù)字化的20萬頁古籍中,,包含40余種珍貴宋元刻本,、寫本;明清至民國時期著名學(xué)者錢謙益,、翁方綱,、王韜的抄本、稿本,;著名藏書樓嘉業(yè)堂,、密韻樓的抄本,還有清文瀾閣《四庫全書》零本等,。
為將伯克利提供古籍的掃描圖片和編目數(shù)據(jù)全部文字化,,阿里巴巴達(dá)摩院技術(shù)團(tuán)隊與四川大學(xué)專家聯(lián)手研發(fā)出一套全新的古籍識別系統(tǒng),以97.5%的準(zhǔn)確率完成對20萬頁古籍的整體識別,。目前,該系統(tǒng)已能批量識別百本古籍,,并沉淀覆蓋3萬多字的古籍字典,。
比起專家錄入,這套人機(jī)交互的識別系統(tǒng)將效率提升近30倍,。隨著古籍識別規(guī)模的擴(kuò)增,,機(jī)器還會自我進(jìn)化,不斷提升準(zhǔn)確率和效率,。阿里巴巴達(dá)摩院院長張建鋒表示,,阿里計劃將這套技術(shù)工具連同古籍?dāng)?shù)字化平臺一并捐贈,交由權(quán)威公共機(jī)構(gòu)長期運(yùn)營,,同時,,阿里仍將在古籍?dāng)?shù)字化工作上持續(xù)投入人力物力。
據(jù)了解,,因邦交,、貿(mào)易、戰(zhàn)亂等,,歷史上中國古籍時有出海,,近代以來,,戰(zhàn)爭和動蕩更加劇了古籍的損毀和流散。據(jù)不完全估計,,散居海外的中國古籍超過40萬部,、400萬冊,包括甲骨簡牘,、敦煌遺書,、宋元善本、明清精槧,、拓本輿圖,、少數(shù)民族文獻(xiàn)等。(完)