论文部分内容阅读
随着信息技术特别是网络技术的发展,用信息处理手段对现存的古籍进行加工处理具有现实意义,给传统古籍研究带来了生机和新的机遇:一方面使以往繁重的古籍整理工作变得更加便利、快捷;另一方面利用信息技术、网络技术,也能使我们的古籍保护、展示和研究手段达到一个新的层次。
本文将对先秦地名知识库的自动构建方法进行研究。先秦地名知识库不仅提供了丰富的文献地名知识,而且可以服务于基于内容的古代文献信息检索。这是除了普通关键字检索、分类检索之外提供的一种极具特色的检索方式。将传统的古籍文献检索由单一检索转换为多元检索、由定向检索转换为关联检索、由静态检索转换为动态检索。
通过检索,我们不仅可以进一步得到丰富的地名信息,同时也将搭建起先秦文献其他知识库之间在语义、语用等方面的关联,以此为基础进行多维信息上的深度挖掘,建立历史事件、历史人物和历史地理等知识及其相互关系的检索,并获得各种古籍资料在内容上的潜在相关性,从而可以为用户提供更全面、更准确的检索结果。
为了实现这个目标,本文首先详细介绍了地名知识库的结构,包括构建知识库的总体思路、数据项介绍、数据提取以及填充等过程。接着以《左传》为主要实验语料,研究如何利用条件随机场模型对文献地名进行自动识别和分类。实验结果表明:地名自动识别实验开放测试的准确率最高能够达到91.9%,而召回率最高只能达到70.1%。地名自动分类实验开放测试的准确率、召回率、F值则稳定在79%-81%之间。在地名识别和分类的基础上,我们进一步利用最大熵模型抽取地名之间的关系信息,得到文献中所有的实体之间层级关系实例。该实验的精度大约在70%左右,通过实验分析,我们还可以进一步提高实验精度到90%左右。本文的最后,提出了本课题在下一步研究中的工作以及改进方向。