变“带货”为“带岗”,银川这场招聘会为残疾人提供246个就业岗位! 首届中卫·房车文化节暨消费惠民活动启动 秋季跟风刷酸 小心焕肤不成反“烂脸” 不再“守着黄河缺水喝” 被基础设施网“包裹”的幸福 银川经济技术开发区:在“新赛道”寻求新动能 金凤区法院一审公开宣判一起涉养老诈骗案件 来吧,展示!首届“西部数谷”算力产业大会等你来 宁夏水投集团:三项制度激活企业原动力 彭阳:“玉豆共生”实现一田双收 通贵乡4对新人举办中式集体婚礼 惠农区一男子遭遇“同城约会”骗局 宁夏政协十一届常委会第三十次会议在银召开 风与光,宁夏算力出圈的密码 体教融合,铺就学生健康成长路 周知!宁夏这项缴费标准定了!每人350元 中卫:在戈壁荒漠写“云天” 宁夏建设城乡现代社区服务体系 工信部将继续完善婴幼儿配方乳粉追溯体系 新版研究生教育学科专业目录2023年起实施 00后走向职场,求职心态更多元 生态修复后,典农河将更加靓丽 若缓刑期间违反禁止令,法院会怎么处理? 老年代步车任性上路何时休 九三学社智汇宁夏同心科创工程启动仪式举行 宁夏第25届推广普通话宣传周开幕 中国航油持续10年帮扶佟记圈村 宁夏明确最新疫情防控要求 数聚宁夏 算领未来|银川华信智:以数字化赋能制造业“提质增效” 发案数大幅下降 银川公安坚决打赢“百日行动”收官战 数聚宁夏 算领未来|宁夏共享集团持续打造"互联网+双创+绿色智能制造"产业生态 宁夏唯一!宁夏盐池县成为全国首批47个创新型县(市)之一 利通区开展节日常态督查持之以恒正风肃纪 明年四月起执行生活饮用水卫生新标准 平罗县持续开展文化市场执法检查行动 “科技方”为宁夏草原生态“强筋健骨” 【地评线】贺兰山网评:莫让全社会为个人失当行为“买单” 2022年宁夏秋冬农田水利基本建设启动会在西吉县召开 兴庆区法院少年家事法庭撑起未成年人成长“保护伞” 中秋节假期宁夏道路运输平稳有序 宁夏药监局部署开展装饰性彩色隐形眼镜专项整治 宁夏深化职称评审改革 预防孩子近视先从保护“视力银行”开始 四川7市(州)强降雨 紧急转移12712人 百场“青绿”,舞出文化之美(奋斗者正青春) 总怀疑自己有病 可能患上了“疑病症” 四川震区危险化学品企业安全有序恢复生产 【黄河安澜】沐浴朝阳 黄河两岸丰收在即 粤剧表演艺术家白超鸿逝世 从艺八十多年 欧冠综述:拜仁2:0击败巴萨 利物浦迎小组赛首胜
你当前位置:首页 >国际新闻 >

科技守护文明:中国古籍“回家”之路

2021-05-22 20:37:26来源:新华网

新华社成都5月20日电 中国是世界四大文明古国之一,中国浩如烟海的文献典籍记录了历史。然而遗憾的是,近代以来超过400万册中国古籍由于种种原因流散海外。

阿里巴巴达摩院、四川大学、美国加州大学伯克利分校近日公布,他们花费两年多的时间,教会了AI识别中国古籍,将它们以数字化的形式接回故土,置于网络公益平台,向所有人开放。

这个项目的名字叫“汉典重光”,意为让失落的珍贵古籍重放光芒。“汉典重光”以97.5%的准确率,识别了20万页古籍,覆盖3万多字的古籍字典。

现代科技照亮中国古籍“回家”之路

中国古籍拥有非常庞大且复杂的知识体系,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。所涉及的范围也是极其广泛,有应对自然灾害、流行疫病、经济波动、政治斗争、外交危机、气候变迁等的经验,有战争、瘟疫、地震、洪涝灾害、病虫害等方面的经验总结,还有医疗、中药、养生、家具、服饰、饮食文化等生活经验。

加州大学伯克利分校的东亚图书馆是全美三大东亚图书馆之一,90万册藏书里四成都是中文书,还有不少甲骨文和拓片。第一次到这儿的中国学者总感觉在穿越历史的“虫洞”,这些古籍不能运回中国,那就用数字化手段让古籍的内容“回家”。

2019年,阿里巴巴和四川大学提出“数字化回归”设想,四川大学历史文化学院副院长王果与中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,最后获得加州大学伯克利分校支持,达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。

前所未有的挑战

据王果介绍,“汉典重光”的分工非常明确——采集侧把纸质书变为影印版,数字化生产侧把影印版变为文字版,应用侧为文字版增加检索、字典和知识图谱等研学系统。东亚图书馆完成第一个环节后,四川大学将和达摩院共同完成另外两个步骤。其中,四川大学将提供一切非计算层面的专业支持,并与达摩院的机器视觉实验室合作,共同开发古籍AI技术。

首批数字化的古籍共20万页,包含40余种珍贵宋元善本。刚开始大家对这个项目很有信心,但实际一上手才知道难度有多大。

首先是中国古籍的载体很多,纸、布、竹子、木头、甲骨、石碑……几乎所有能用的载体都被古人留了字,不同载体上面的字识别起来差别非常大。年代久远的纸张大多残缺不全,上面还布满斑点,而且排列非常复杂。古人喜欢从上到下,从右到左,还非常喜欢在上面做批注。

字迹的精美也成了负担。隶书、楷书、草书、行书都漂亮,但也真难认。大部分字还是手写的,不但两个人写的同一个字不一样,同一个人写的同一个字也差别很大,很多字还有不同写法。

团队原有的OCR(图像文字识别)的识别准确率只有40%,这显然是不够的,较早涉足古籍识别的Google Books(谷歌图书)针对的都是英文古籍,对中文也不适用。

大量创造性和创新性的辛勤劳动

没有前车可鉴,只能自己来了。“这就像教小朋友识字,确实难,但也有简单的部分,我们就由易到难慢慢做。”王果说。

前所未有的开拓性成果,包含着中国学者大量创造性和创新性的辛勤劳动。

达摩院的古籍识别算法,用AI替代人工,大幅压缩了专家标注工作量。在机器为主进行识别的97.5%的内容中,约有1%(1万字左右)需要专家录入;机器不能识别的余下2.5%(2.5万字)的文字,全部交给专家做后期标注。相比人工专家录入,百万字书籍的数字化工作量从1000天降低到了35天,效率比人工专家录入方案提升近30倍。这种古籍识别算法,为中华古籍的回归提供了另一种可行可期的思路。

非计算机层面的工作也非常重要,四川大学专门组织了30多个历史系学生来做标注,这很耗神,眼力、脑力缺一不可,但这个过程没法省略,就像学生要学习,算法也要迭代,“只有数据够多够好,机器才能搞定”。

这是一件非常难但非常有意义的事情。古籍识别的挑战巨大,但大家还是想通过技术让古籍活起来,用科技守护文明。

据了解,达摩院、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆将继续投入人力、物力,扩大古籍数字化回归的数量,让所有蒙尘的古籍重焕新生。

达摩院院长张建锋表示,阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,最终将成为一个开放的网络平台,供大众检索学习。(新华社记者 童芳)