海外古籍数字化回归:如何做到“为天下人所用”?

来源 :新华月报 | 被引量 : 0次 | 上传用户:haizhi19841029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  流散海外八十多年后,文澜阁本《四库全书》中的《宋百家诗存》重现大众视野。
  在扫描影像中,这本中国古籍上的水浸、虫噬、霉变历历可见,每一处都是历史的风霜。1790年左右,《宋百家诗存》随《四库全书》入藏杭州文澜阁,清咸丰年间在太平军入杭后散失,1861年左右被嘉业堂收藏。抗战时期,部分嘉业堂藏书流落到了上海,可能被日本人收购,并于1949年辗转到了美国,如今藏于加州大学伯克利分校东亚图书馆。
  东亚图书馆收藏了大量中国古籍善本,截至2021年5月18日,其中二十万页被扫描影像、读取文字,以数字化形式回归祖国。
  这是海外古籍回归项目“汉典重光”的成果之一。这批数字化古籍善本中既有宋元本,也有明清至民国时期著名学者的稿本、抄本,其中一些是以前很少有人见过的珍贵藏本,比如清文澜阁本《宋百家诗存》。
→ 源自文澜阁的《宋百家诗存》及乾隆朱印 达摩院/供图

  古籍流散海外的原因多种多样,实体回归几乎是不可能的,比较可行的办法是数字化回归。
  此前的古籍数字化平台,大多是展示扫描后的古籍图片,读者只能在这些平台阅读图片,无法就书中内容进行检索分析。此次汉典重光的数字化团队不仅将古籍扫描,还将扫描下来的图片识别转化成了电子文字。搜索某一字词,可以跳转到字词所在书本的具体章节段落。
  这些古籍资源将向公众免费开放。阿里达摩院院长张建锋表示,汉典重光古籍数字化平台将被捐赠给权威公共机构长期运营。

“让蒙尘的古籍重焕新生”


  四川大学历史文化学院教授陈力是汉典重光项目的古籍专家。陈力的父亲是教历史的,1977年,陈力作为恢复高考的第一届考生,填报的所有志愿都与历史、中文、图书馆相关,最后被省内第一志愿四川大学历史系录取,从此“一辈子都在做这个”,对古籍积累下一份深厚的感情。
  在汉典重光项目之前,陈力已经参与过古籍数字化项目。他曾经在国家图书馆工作18年,其中一半的时间分管古籍,经手过哈佛大学燕京图书馆的一个古籍数字化回归项目。2009年,燕京图书馆馆长郑炯文专门从美国飞到中国商量相关事宜,目录都筛选完成了,也做完了一部分书的扫描,但项目最终因为资金、技术等没能达到预期而搁浅。
  这次未竟的合作在某种程度上成为汉典重光项目的起源。在哈佛大学访问期间,高晓松看到了燕京图书馆的古籍数字化系统。高晓松创办的杂书馆收藏了几十万种民间古籍,他产生了想让流失的古籍回归的想法,并于2017年10月28日第一次在钉钉上和阿里达摩院秘书长刘湘雯沟通这件事。
  达摩院联系上了燕京图书馆,馆长依旧很愿意配合。但哈佛大学是一所私立大学,最后拍板的是哈佛董事会,这件事被董事会否决了。
  与燕京图书馆的合作中止后,达摩院团队继续寻找海外古籍回归的机会。他们联系上了四川大学历史文化学院副院长王果,王果找到了陈力。二人很快加入团队,给项目命名为“汉典重光”。“汉典”指中国古籍,“重光”是陈力提出的,意为“让蒙尘的古籍重焕新生”。
  在团队讨论中,陈力重点考虑的是项目的可行性——还是得找到愿意合作的海外图书馆。陈力首先联系的是加州大学伯克利分校东亚图书馆原馆长周欣平。周欣平1998年曾到四川大学访问,与陈力进行过古籍数据系统检索功能的讨论。周欣平多次提及“古籍是天下之公器,要为天下人所使用”,如今受到陈力邀约,欣然同意合作。
  陈力和王果去伯克利进一步沟通,与周欣平达成共识。在资金落实之前,伯克利那边就开始了工作,并很快提供了十万页的古籍掃描版。
  早在十多年前,上海图书馆曾对东亚图书馆的古籍馆藏做了初步整理,编好了目录。但是目录没法代替古籍本身,只有看到全书的原貌才能算是真正了解这本书的历史,比如这次的重点回归书目之一、晚清思想家王韬的《瀛壖杂志》,字迹密密麻麻的手稿,记录的是这位洋务运动先驱人物自1840年代末期所亲历的上海开埠初期发展史。

和机器一起认字


  此前国图与燕京图书馆的合作主要是扫描古籍、回归影像,汉典重光团队更进一步,从单纯的扫描图像变成了内容识别整合,使古籍真正数字化,做到阅读清晰、查询方便,为后续的分析研究打下基础。
  团队的算法负责人何梦超2017年参与过古籍OCR(对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程)项目,对北京龙泉寺的十本藏经进行识别。普通的OCR识别在现代印刷文本的使用上已经达到了很高的水平,2017年何梦超参与的《大藏经》项目里也能做到97%的准确率,但放到古籍上面,准确率降到了百分之三四十。
  古籍的数字化录入,比现代印刷品的数字化录入难得多。由于古籍本身文字状况的特殊性,古籍数字化无法套用已有的现代汉语词典和机器学习模型,需要团队从头搭建古文数据库和古文字识别人工智能模型。
  何梦超去四川大学与陈力探讨,陈力提到古籍文字种类非常多,而何梦超发现,其中很多字都是重复出现的。他想到了单字识别、再聚类的数据收集方法。也就是说,把一册古籍里的字全部切分开来单个识别,然后把形状、笔画类似的字放入一个类别,再让对古文字有所了解的人对聚类进行审核——拎出不属于这个类别的字。最后给这个类别打上标签,也就是这一类图片字的打印版原型。
  这是一项庞大的认字工程,几千册古籍,每册几千组文字需要人工审核。人手不够,团队招募对古籍感兴趣、有一定知识的大学生加入。
  四川大学历史文化学院2018级本科生张楚珏是第一批加入的,她想借这个机会增加自己对古籍的认识,也补充一点零花钱。   最初,机器识别、分类的单字图片让张楚珏感到疑惑——有的图片里有两个字,有的图片里不是字而是符号。
  机器“认错字”的原因是技术团队低估了古籍版式的复杂性。现代印刷品有通用的规范版式,古籍的版式则多种多样,在竖排文字中可能突然出现一些横排文字,同样宽度的空间,有时写着一列大字,有时写着两列小字。在二十万页古籍里就有近百种版式,技术团队将它们一一区分,机器识别准确率大大提高。
  版式问题解决之后,进入正式的人工审核环节。古文中的字有很多讲究,同一个字在不同使用情况下、不同朝代不同版本的书籍中,都可能有不同的写法,即一个字可能有多种异体字。比如国家的“国”字,有简体的“国”,繁体的“國”,还有“太平天囯”里没有一点的“囯”。在分组时,一个字的每种异体字都要单独分为一组。
  分组后,在电脑上把这些古汉字打出来也是一件难事。常用输入法一般都打不出异体字,就算有也在相当靠后的位置。加入的前两个月里,张楚珏一直都在摸索打古文字的方法。她找到了三个能够检索古文字的字典网站,即便遇到不认识的字,也可以通过检索部首找到这个字。
  学生们渐渐驾轻就熟,某个期末周,团队忽然发布了四万字的审核任务,一位男生一人就完成了一万字左右。

“万里长征第一步”


  陈力在图书馆工作多年,收到过不少读者、专家对古籍馆藏的意见,其中最常见的就是关于全文检索,即通过关键字词的搜索来辅助自己的研究。纸质书时代,已经有不少这样的工具书,国内燕京学社给古代具有代表性的文献都编了索引,比如一个字在《尚书》里出现了多少次,都在什么地方。但这样的工具书使用起来依然比较繁琐。
  2021年5月18日,汉典重光在中国科技馆举办发布会,会后,包括国家图书馆、浙江图书馆、四川大学图书馆和一些私人馆在内的二十多家机构向该团队发来祝贺,并表示愿意在后续过程中与该团队合作,将自己的馆藏数字化并开放给公众使用。
  古籍的数字化最早是从美国开始的。1970年代末,美国线上电脑图书馆中心和图书馆联盟先后推出了《朱熹大学章句索引》《王阳明传习录索引》《戴震原善索引》等数据库。1980年代以后,中国台湾、香港和大陆相继开始了中文古籍数字化项目。
→ 在汉典重光技术团队看来比较复杂的古籍版面样式达摩院/供图

  目前中國规模最大的古籍保护计划是2007年国务院提出布置的“中华古籍保护计划”,截至2016年,中国古籍保护网的“全国古籍普查登记基本数据库”已累计发布涉及13个省份及中直系统的96家单位所藏388963部3587347册古籍的普查数据。
  计划的又一成果“中华古籍资源库”也于2016年在国图上线,古籍总量超3.3万部。但与大多古籍数字化项目一样,“中华古籍资源库”仅停留在扫描处理提供古籍影像的程度,在内容检索和分析上依然困难,且提供的扫描版本总量也不及全国普查结果的十分之一。
  据媒体报道,国家古籍保护中心办公室副研究馆员赵文友做过一个估算,如果将全国尚未数字化的40万个版本的古籍全部数字化,采集、组织、加工、存储、管理等费用大约需要60亿元。而国家古籍保护中心每年用于古籍数字化工作的经费仅1000万元,很多地方图书馆的古籍数字化经费更是捉襟见肘。
  在官方组织的古籍影像保护计划之外,国内也有商业公司对部分古籍做过数字化磁盘存储处理,《四库全书》早在2000年就已经有了全套电子版录入的光盘版本,由北京书同文数字化技术有限公司研制,在国内古籍数字化进程中具有里程碑意义。然而,这套磁盘并未能解决生僻字的输入问题,记者随机选取的一页,就有22个无法显示的字。
  官方项目资金容易短缺,商业公司项目又不可避免涉及盈利,各种条件的掣肘下,古籍数字化的发展一直都没能实现飞跃。此次公益性质的汉典重光平台,在古籍数字化上趟出了一条新路径。
  过去古文字录入高度依赖人工,此次的古籍OCR机器学习模型的建立准确率高达97.5%,效率是人工的近30倍。然而,陈力认为目前的汉典重光平台只走了“万里长征第一步”,还有无数难题等待解决。“机器处理有规律的东西好办,处理无规律的东西就不好办,而古籍无规律的东西居多。”陈力说。比如《瀛壖杂志》手稿,这次的模型系统就还没有办法做到自动识别。书中满篇都是杂乱的批校,毫无规律可言,想要识别还是得进行大量人工干预。“批校的字都很草,人都不一定认得出来,更不用说机器了。古籍识别不是可以一个方法用到底的。”
  技术团队也意识到数字化的进步空间还很大,目前97.5%的准确率是基于这样一个前提:训练集和最终的测试数据来自同一批书。如果用目前标注出来的三万字字库去识别一本新的古籍,很可能达不到这个准确率。
  即便达到97.5%的准确率,与国家对印刷品万分之二的错误率要求相比,也相差甚远。要提高准确率,需要优化模型算法,更要扩充字库容量,将更多的古文字纳入这个字库。这也是达摩院把汉典重光捐赠给社会的初衷——希望更多的人参与到系统的搭建之中。
  “苦恨年年压金线,为他人做嫁衣裳”,这是陈力的微信签名,也是图书馆工作的真实写照。2021年5月底,专家团队和技术团队再次碰面,商讨古籍数字化的下一步。
  (摘自5月27日《南方周末》。作者为该报特约撰稿人)
其他文献
今年7月1日,北京天安门广场,庆祝中国共产党成立100周年大会在这里隆重举行。  习近平总书记发表重要讲话,代表党和人民庄严宣告——  经过全党全国各族人民持续奋斗,我们实现了第一个百年奋斗目标,在中华大地上全面建成了小康社会,历史性地解决了绝对贫困问题,正在意气风发向着全面建成社会主义现代化强国的第二个百年奋斗目标迈进。  这是中华民族的伟大光荣!这是中国人民的伟大光荣!这是中国共产党的伟大光荣
(一)这是中华民族的伟大光荣!这是中国人民的伟大光荣!这是中国共产党的伟大光荣!  2021年7月1日,庆祝中国共产党成立100周年大会在北京隆重举行。在天安门城楼上,习近平总书记代表党和人民庄严宣告——  “经过全党全国各族人民持续奋斗,我们实现了第一个百年奋斗目标,在中华大地上全面建成了小康社会,历史性地解决了绝对贫困问题,正在意气风发向着全面建成社会主义现代化强国的第二个百年奋斗目标迈进。”
“我代表党和人民庄严宣告,经过全党全国各族人民持续奋斗,我们实现了第一个百年奋斗目标,在中华大地上全面建成了小康社会”。7月1日,在庆祝中国共产党成立100周年大会上,习近平总书记的庄严宣告,令广大中华儿女振奋不已,也让世界的目光再次聚焦中国。这一刻,必将载入史册。  “民亦劳止,汔可小康。”中华民族孜孜以求的千年梦想,在此刻成为现实;中国共产党人坚持不懈的百年奋斗,在此刻结出硕果。在中华民族伟大
魏书生刚教书的时候,曾要求犯错误的学生写检讨书。那些检讨书往往是千篇一律,如出一辙,“我犯了一个大错误……给别人,给集体造成了不好的影响……我大错特错……请老师原谅……今后一定下决心改正……决心做到以下几点”云云。  魏老师觉得,这样写浮皮潦草,不能触及内心深处,不容易找到纠正错误的有效方法,于是在1979年提出了新的要求:用写有心理活动的说明书,代替检讨书。在说明书中要使用心理描写的表达方法,描
中国在碳排放领域的重要转变  习近平主席早在浙江工作期间,就提出“绿水青山就是金山银山”的科学论断;担任总书记和国家主席后,他又多次强调并践行这一科学理念,也扭转了过去我国在全球气候变化方面的立场。大家知道,在这之前,我国对气候变化的态度是主要强调不能抑制经济增长,作为发展中国家不能承诺约束性硬指标。2020年9月,习近平主席在联合国大会上提出了中国“30·60”碳目标,在国际上做出了中国的承诺。
发展绿色金融,是实现绿色发展的重要措施,也是支持绿色产业和经济社会可持续发展的重要举措。习近平总书记主持召开中央财经委员会第九次会议时强调:“要完善绿色低碳政策和市场体系,完善能源‘双控’制度,完善有利于绿色低碳发展的财税、价格、金融、土地、政府采购等政策,加快推进碳排放权交易,积极发展绿色金融。”  绿色金融可引导和激励更多社会资本投入绿色产业,同时有效抑制污染性投资,不仅有助于加快我国经济绿色
随着人们生活水平提高,私家车数量迅猛增长,现在各大城市都出现了一个问题——交通拥堵。为解决这一问题,并减少城市温室气体排放量,各地出台了一项方案,那就是公交优先,大力发展公共交通。  而公交车数量增加,会导致同一时间在同一个站台停靠的公交车越来越多。公交车的线路牌挂在汽车前面挡风玻璃中间和车身右侧,如果几辆公交车同时进站,后面公交车的线路牌就会被前面的公交车挡住,候车的乘客特别是老人、小孩、抱小孩
放开三孩政策,是我国在“单独二孩”和“全面两孩”政策之后第三次放宽生育政策,是在适度宽松型生育政策的道路上又向前迈进了一步。  国际上通常认为,总和生育率1.5左右是一条警戒线,七普结果显示,2020年我国总和生育率为1.3,已经达到超低生育率的临界值,必须引起高度警惕。我国生育率需要有所提高,这是共识。当然,单纯地依靠生育政策的优化和宽松,以达成适度生育水平的目标,仍然不够。为了落实“十四五”规
“风在吼,马在叫,黄河在咆哮……”  “北风那个吹,雪花那个飘,雪花那个飘飘,年来到……”  无论何时何地,当这些乐曲声响起,总有人会跟着哼唱。因为,这些音符,已经成为民族基因里的红色印记。  80多年前,在中国共产党抗日民族统一战线感召下,大批爱国知识青年和艺术家奔赴延安。他们与长征而来的文艺战士、陕北红军中的文艺战士一起歌唱、写作、演戏、作画,为抗日救亡提供了丰富的精神弹药。  他们到战斗前线
未来的某一天,校长通知你说,你被解聘了,明天有老师代替你了。而你第二天来到学校,看到代替你走进教室的是一位机器人教师……  这一幕在未来会不会上演呢?我认为,至少不能说一定不会发生。我们先来看看机器人教师最近几年的亮眼表现:2009年可以被称作“机器人教师元年”。这一年,机器人“萨亚”登上了日本东京一所小学的讲台。再看韩国,2009年30名“蛋形机器人”在小学讲英语,2012年他们在400所学龄前