您的位置: 首页 > 实时讯息 >

字节跳动:持续推动古籍数字化进程

近日,《2024字节跳动企业社会责任报告(中国)》发布。这份报告围绕“科技让生活更美好”,介绍了过去一年字节跳动用科技连接社会善意的实践成效。近年来,字节跳动运用AI等技术持续推动古籍数字化进程。

中华文明拥有数千年的悠久历史,典籍是传承中华文明最重要的载体。它们是中国古典学不可或缺的研究基础,是社会大众继承和发扬传统文化的宝贵资源,同时也是世界理解中华文明的重要途径。

国际著名图书馆学家钱存训先生判断:“至于中国书籍的产量,直到十五世纪末,比世界上各国书籍的总数还要丰富。”通过“中华古籍保护计划”十余年的普查,第一次估算出中华典籍文化遗产总量,即传世古籍大约有20万种,50万个版本。从1999年“文渊阁四库全书”数据库发布以来,古籍数据库已经成为中国古典研究不可或缺的基础设施,同时大多数的重要典籍也都已经数字化。但由于最方便使用的古籍图文库基本上都是商业数据库,这就限制了普通公众的访问。另一方面,随着人力校对成本越来越高,新加工典籍品种的重要性越来越低,那么扩容商业古籍库的边际收益会断崖式下跌。这就导致现阶段古籍数字化工作成果有些“养在深闺人未识”,不能被公众充分利用,并且发展建设难以为继。

2022年10月,字节跳动公益上线了识典古籍平台——一个完全公益的古籍智能阅读和整理平台。首先,识典古籍充分吸纳了人工智能等新技术在古籍数字化方面的成果,创建大字符集解决方案,利用OCR(光学字符识别)技术识别古籍图像文本,再通过人工校对快速高效地持续扩容古籍图文库。据了解,目前识典古籍已免费公开1.6万余部古籍,每月有超240万用户访问量,平台计划到2025年底发布3—4万部古籍。按这一速度,预计在2026年底,平台发布的古籍品种数量就会达到甚至超过目前所有商业和公益古籍图文库的总和,这必将给社会公众及海内外学者利用古籍带来极大便利。

识典古籍飞快的建设速度得益于人工智能等科技的力量与大众的力量。“众筹建设”是公益古籍数字化项目的重要路径之一。识典古籍采用了同样的动员爱好者力量的方法,2024年,在全国高等院校古籍整理研究工作委员会的指导下,联合字节跳动公益以及国内多家古籍研究机构发起了“我是校书官”活动,1000余所高校1万余名学生报名参加,整理1600余部古籍,校对总字数超过6亿,这一字数相当于一部《四库全书》的四分之三。2025年3月,“我用AI校古籍”活动发起机构扩大到全国20余所高校,倡议社会公众和学生能够以“人人都校一卷书”的热情参与进来。

在当今时代,要完成这项壮举,向数字技术借力无疑是必由之路。识典古籍除了古籍文本识别校对功能以外,还充分利用自动标点、自动分段、自动校勘、自动结构整理等AI技术,使其成为古籍整理和研究的数字人文平台。在传统古籍整理过程中,文本的录入和校勘是耗费工作量最大的环节,而且还极容易出错,而引入数字整理平台之后,据专家测算,至少可以提高五倍效率,将极大加快古籍整理工作的进程。同时数字整理平台可以方便保留所有过程文档,易于追溯和查证。《儒藏》工程是新中国成立以来最大规模地系统整理海内外儒学典籍的一项基础性文化建设工程,收录自先秦至清末重要儒学文献。2024年12月,《儒藏》数字化项目启动,字节跳动公益捐赠2500万元,支持北京大学开展《儒藏》编纂与研究工作。《儒藏》“大全编”将以数字化方式整理,后续相关成果也将在识典古籍上线,面对公众开放。

在新时代的大背景下,做好古籍工作,做好传统文化的创造性转化,数字科技是必须要凭借的先进手段。而乘数智时代的大潮,也正可以助力古籍等文化瑰宝的存续传承,以待进一步发掘与发展。翻看《2024字节跳动企业社会责任报告(中国)》,可以发现除了古籍数字化,字节跳动在焕发文化活力方面还有不少作为。当下,新技术正在为传统文化的挖掘和再创作提供新工具和新思路。在非遗传承方面,过去一年,有上千名非遗代表性传承人活跃在抖音,1379万网友在抖音分享自己的非遗体验,非遗团购商品订单量同比增长了356%。在文物保护与活化方面,字节跳动联动全国各大博物馆、创作者,通过直播、短视频等方式普及文物知识。现在,大多数国家三级以上博物馆的内容都能在抖音找到。

近日,教育部等九部门发布《关于加快推进教育数字化的意见》,指出“聚焦集成化、智能化、国际化,扩大优质教育资源受益面,促进人工智能助力教育变革”。无论从继承和发扬中华优秀传统文化,还是迎接数智时代的挑战来说,识典古籍都值得全民的广泛关注和参与。

从去年风靡全球的游戏“黑神话悟空”,到今年的动画电影《哪吒2》,都是传统文化创造性转化的极佳案例,而浩瀚的典籍文化遗产正是文化产业取之不尽的素材资源。如何更好地利用它们,等待我们给出令时代满意的答卷。(中国科学院自然科学史研究员 孙显斌)

来源: 光明网