论文部分内容阅读
近几年来,随着网络的发展,信息迅速增多,互联网上的各种信息检索系统一搜索引擎成为帮助人们上网获取信息的主要工具。这些搜索引擎在给人们带来很大便利的同时也暴露出许多问题。人们在查找人名时,搜索引擎返回给用户的检索结果数量很大,人们难以找到真正符合自己意图的信息。据此,现在的研究重点就是如何更快更准确的向用户提供所需信息。本文的研究目标是对网页中出现的人名进行同一性甄别,按照其身份信息进行网页聚类,并对每一个类别自动生成类别名称,供用户导航使用。以便用户能够快速的查询和定位到目标人物的信息。
本文首先对信息检索中的关键技术进行了详细介绍,并重点介绍了基于社会角色知识库的中文人名聚类检索技术。在论文中详细说明了中文人名聚类系统的系统流程设计和流程中各个子模块的实现方法以及使用到的具体技术。本文主要从以下方面开展工作:
(1)人名基本信息的抽取。针对文本中中文人名的信息出现的特点,使用知识工程方法,人工构造了模式库,并进行实验验证。本文从文本内容中提取关于人名的三个属性(相关地名、相关机构、相关职业);
(2)构造人物社会角色知识库。人物社会角色知识库包括文本中出现的职务词和机构词。聚类时要想得到好的效果,和相似度的计算精度密切相关,本文构造的社会角色知识库使得在进行聚类时也能考虑到词语的语义关系来计算相似度,提高了相似度的计算精度,取得了较好的聚类结果;
(3)根据抽取到的结果和人物社会角色特征知识库进行人名同一性甄别。聚类算法通过无监督学习将人名按照其身份的相似度进行区分,把相似度大的人名归为一个人。
在中文人名聚类系统中信息抽取和相似度计算模型都得到了实现。并根据抽取的结果,在社会角色知识库计算相似度的基础上进行了人名聚类的实验,然后利用聚类准确率对聚类结果进行了评价。实验取得了很好的结果,这充分证明了基于社会角色知识库进行人物分类的方案是切实可行的。