人名聚类检索技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:yaczxxzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着网络的发展,信息迅速增多,互联网上的各种信息检索系统一搜索引擎成为帮助人们上网获取信息的主要工具。这些搜索引擎在给人们带来很大便利的同时也暴露出许多问题。人们在查找人名时,搜索引擎返回给用户的检索结果数量很大,人们难以找到真正符合自己意图的信息。据此,现在的研究重点就是如何更快更准确的向用户提供所需信息。本文的研究目标是对网页中出现的人名进行同一性甄别,按照其身份信息进行网页聚类,并对每一个类别自动生成类别名称,供用户导航使用。以便用户能够快速的查询和定位到目标人物的信息。 本文首先对信息检索中的关键技术进行了详细介绍,并重点介绍了基于社会角色知识库的中文人名聚类检索技术。在论文中详细说明了中文人名聚类系统的系统流程设计和流程中各个子模块的实现方法以及使用到的具体技术。本文主要从以下方面开展工作: (1)人名基本信息的抽取。针对文本中中文人名的信息出现的特点,使用知识工程方法,人工构造了模式库,并进行实验验证。本文从文本内容中提取关于人名的三个属性(相关地名、相关机构、相关职业); (2)构造人物社会角色知识库。人物社会角色知识库包括文本中出现的职务词和机构词。聚类时要想得到好的效果,和相似度的计算精度密切相关,本文构造的社会角色知识库使得在进行聚类时也能考虑到词语的语义关系来计算相似度,提高了相似度的计算精度,取得了较好的聚类结果; (3)根据抽取到的结果和人物社会角色特征知识库进行人名同一性甄别。聚类算法通过无监督学习将人名按照其身份的相似度进行区分,把相似度大的人名归为一个人。 在中文人名聚类系统中信息抽取和相似度计算模型都得到了实现。并根据抽取的结果,在社会角色知识库计算相似度的基础上进行了人名聚类的实验,然后利用聚类准确率对聚类结果进行了评价。实验取得了很好的结果,这充分证明了基于社会角色知识库进行人物分类的方案是切实可行的。
其他文献
SOA(Service-Oriented Architecture)是一种以服务为导向的组件模型,它是为了解决在Internet环境下应用业务集成问题的一种软件系统架构。Web服务(Web Services)使用了标准的、跨
本论文在对网络测控理论研究的基础上,利用虚拟仪器技术、网络技术及通信技术制定了网络测控系统的技术方案。论文主要完成了基于虚拟仪器的网络测控系统的构架和技术方案设计
Ad hoc网络,也称为无线自组织网络(MANET),是由一组带有无线收发装置的移动节点所组成的一个临时性多跳自治系统。作为下一代网络的重要代表,它的发展不仅有利于国防军事,而且在
当今时代,人们对多媒体数据的需求正在不断增长,同时多媒体数据本身的内容也不断增大,如何压缩视频数据量成为多媒体技术发展的关键问题。因此,视频压缩技术成为一个重要的课
语义Web不仅要求Web资源是用户可读的,也是机器可理解、能自动处理的。为获得机器可理解的语义,许多研究试图根据定义好的Ontology,为Web资源创建语义标注,这类标注往往是以
随着企业信息化的不断发展,不同业务的系统陆续引入,信息化至今已经进入一个非常的时期。市场激烈的竞争要求企业有更高程度的信息化,这不仅需要各个系统间能够实现无缝的结
“CNGI宁夏驻地网建设”项目是中国下一代互联网示范工程CNGI国家重大建设工程的子项目,旨在扩展国家下一代互联网建设范围,攻克多种复杂环境下应用开发的基础性技术和关键技术
随着网络的发展,网络教育逐渐成为一种新兴的教育形式,它使人们在不同的时间、不同的地点进行高效的学习成为可能。目前,网络上积累了大量学习资源,但存在资源结构简单、缺乏
针对现有的Internet在体系结构上存在着用户数据传输平台层次结构复杂、传输效率低下和服务质量难以保证的缺点,四川省网络通信技术重点实验室提出了“单物理层用户数据传输
基于图像绘制的虚拟环境构造是近年来虚拟现实技术研究的热点,它以简单的图像合成代替基于三维几何的建模和渲染,加快了画面的显示速度,是建立特定三维场景的一种高效率的方法。