刚刚,字节跳动携手北大,要搭建一座特别的“图书馆”

字节跳动03-18 16:23

3月17日,字节跳动向北大教育基金会提供捐赠,全面支持“北京大学-字节跳动数字人文开放实验室”的工作,研发古籍数字化平台,搭建一座古籍“智能化数字图书馆”。

双方将携手合作,优势互补,通过古籍数字化,保护、整理珍贵的中华文化资源,并推动这些资源向公众开放。

最方便的穿越方式是什么?

当然是阅读古籍。

打开儒道经典,领略古人深邃的哲思;阅读历史、笔记,见证一个时代的风貌;在古诗文中,跟着文豪畅游八方……

但即便在科技发达的今天,对普通人而言,查找、阅览、研究古籍,仍不够方便。

我国现存古籍约20万种。据不完全统计,其中已经数字化扫描影像的有8万种,而以文本方式存储,能进行归类、检索的仅有3-4万种。

因此,大量中国典籍瑰宝在网上找不到,更无法通过关键词进行检索。要进行研究,只能先从头到尾看一遍。

有没有可能,让古籍能够“上网”、能分门别类地展示、支持查找检索,不再需要一页页翻看呢?

这正是“北京大学-字节跳动数字人文开放实验室”正在推动的事情:搭建开放、共享、高质量的古籍数字化平台。 

古籍新生.jpg

这个平台将分成两部分:

(1)面向读者的数字化古籍阅读工具

“北京大学-字节跳动数字人文开放实验室”将调动国内外的相关力量,在三年内完成一万种精选古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,为读者提供开放的古籍“数字图书馆”。另外,通过文本数字化,这些古籍将能够进行全文检索,不再需要一页页从头看起。

(2)开放的古籍数字化智能整理平台

如果你有收藏的古籍,这个平台能够帮你把纸页变成可查找的电脑文本。通过智能平台的文字识别、校对工具,学者和爱好者可以在线上平台一站式完成古籍的整理工作。

另外,平台还将在迅速数字化大量古籍的基础上,对重点文本进行精校,满足专家学者对常用资料的准确度要求。

通过古籍数字化实现“穿越”的背后,离不开科技的支持。

让古籍变成可检索的文本一直面临诸多难题。古籍常常字迹不清,存在许多生僻字和异体字,语法、书写规律等也都与现代书籍不同。

在“北京大学-字节跳动数字人文开放实验室”中,多种先进技术正逐步解决这些困难:

OCR(光学字符识别)技术类似于一种智能扫描仪,先用电子设备检查纸上每个字的形状,再用字符识别方法,把这些字一个个“认”出来,并转换为电脑能够处理的文本。

句读对于古籍数字化也十分必要。古籍的“标点符号”——句读,与现代汉语差异很大,有的版本甚至没有句读,要靠算法帮忙断句。这需要数字化平台更智能,具有更高的语言处理能力。

实体识别是另一种重要的技术。古籍中存在大量的人名、地名、物品名等“实体”词汇,地方志、中医著作等类别的古籍,也常常具备自己的“专属词库”。要实现古籍搜索,这些实体就会成为检索的关键词,平台将通过算法把这些实体识别出来。

当然,这些技术的实现基础,是庞大的古籍修复与整理工作。这项工作仍然需要通过人工,用一张张纸、一支支板刷来完成。 

古籍修复.png

文化传承是字节跳动公益重点关注的一个领域。

2021年6月17日,字节跳动联合中国文物保护基金会,在国家图书馆成立古籍保护专项基金,初期启动资金人民币1000万元,用于修复《永乐大典》“湖”字册等105册(件)珍贵古籍、培养100名修复人才等项目。

如今,当初进行修复的古籍也将逐步通过平台进行数字化。

我们相信,在不久的将来,越来越多的古籍将在互联网上获得新生,越来越多的人将共同参与进来,守护珍贵的文明记忆。 

电科技(www.diankeji.com)是一家专注于全球TMT行业的领先资讯媒体。

作为今日头条青云计划、百家号百+计划获得者,2019百度数码年度作者、百家号科技领域最具人气作者、2019搜狗科技文化作者、2021百家号季度影响力创作者,曾荣获2013搜狐最佳行业媒体人、2015中国新媒体创业大赛北京赛季军、 2015年度光芒体验大奖、2015中国新媒体创业大赛总决赛季军、2018百度动态年度实力红人等诸多大奖。

投稿、商务合作请联络微信公众号

声明:本站原创文章文字版权归电科技所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表电科技立场,图文版权归原作者所有。如有侵权,请联系我们删除。

//59087780b049bbb54ef4ba547ea51910