先秦地名知识库构建

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:sandy323199000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术特别是网络技术的发展,用信息处理手段对现存的古籍进行加工处理具有现实意义,给传统古籍研究带来了生机和新的机遇:一方面使以往繁重的古籍整理工作变得更加便利、快捷;另一方面利用信息技术、网络技术,也能使我们的古籍保护、展示和研究手段达到一个新的层次。   本文将对先秦地名知识库的自动构建方法进行研究。先秦地名知识库不仅提供了丰富的文献地名知识,而且可以服务于基于内容的古代文献信息检索。这是除了普通关键字检索、分类检索之外提供的一种极具特色的检索方式。将传统的古籍文献检索由单一检索转换为多元检索、由定向检索转换为关联检索、由静态检索转换为动态检索。   通过检索,我们不仅可以进一步得到丰富的地名信息,同时也将搭建起先秦文献其他知识库之间在语义、语用等方面的关联,以此为基础进行多维信息上的深度挖掘,建立历史事件、历史人物和历史地理等知识及其相互关系的检索,并获得各种古籍资料在内容上的潜在相关性,从而可以为用户提供更全面、更准确的检索结果。   为了实现这个目标,本文首先详细介绍了地名知识库的结构,包括构建知识库的总体思路、数据项介绍、数据提取以及填充等过程。接着以《左传》为主要实验语料,研究如何利用条件随机场模型对文献地名进行自动识别和分类。实验结果表明:地名自动识别实验开放测试的准确率最高能够达到91.9%,而召回率最高只能达到70.1%。地名自动分类实验开放测试的准确率、召回率、F值则稳定在79%-81%之间。在地名识别和分类的基础上,我们进一步利用最大熵模型抽取地名之间的关系信息,得到文献中所有的实体之间层级关系实例。该实验的精度大约在70%左右,通过实验分析,我们还可以进一步提高实验精度到90%左右。本文的最后,提出了本课题在下一步研究中的工作以及改进方向。
其他文献
“味觉词”在汉泰语言当中是一个比较特殊的词汇种类。味觉词不仅表示人类的味觉感知经验,而且可以表示各地民族的文化习俗与思维方式的异同。本论文所研究的味觉词以汉泰语言
汉语方言研究的传统从先秦延续至今,可谓历史悠久,经史子集各部文献中都能找到关於方言俗语的记载,然而其中属於方言学专着的数量有限。西汉扬雄的《方言》是公认的第一本传
本文重点介绍基于用电信息采集系统的大数据分析和应用,查找影响台区线损的因素,明确低压台区的降损方向,制定具有针对性的降损措施,实现降低线损率的工作目标,促进和谐、低
1781年3月13日——威廉·赫歇尔发现天王星  1781年3月13日晚,热爱天文学的音乐家威廉·赫歇尔像往常一样,用自制的口径15厘米的反射望远镜观测星空。他突然注意到双子座附近有一颗很陌生的星。这颗星比较亮,可是在星图上却查不到它。不久,赫歇尔根据所得到的观测数据,计算出它的轨道近似圆形,其距离太阳的距离是土星与太阳间距离的1倍,他意识到自己发现了一颗新行星。后来,法国天文学家拉普拉斯算出了它
20世纪40至60年代中期,即新中国建国后的“十七年”间(1949-1966),戏曲这一古老艺术样式受到空前重视,政府投入相当的人力和物力,展开全国范围内的“戏曲改革”运动,使得戏曲从供