人名聚类检索技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：yaczxxzx

【摘要】

：

近几年来,随着网络的发展,信息迅速增多,互联网上的各种信息检索系统一搜索引擎成为帮助人们上网获取信息的主要工具。这些搜索引擎在给人们带来很大便利的同时也暴露出许多

【作者】

：

魏琳

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2008年期

【关键词】

：

人名中文人名聚类检索计算机检索机器检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近几年来,随着网络的发展,信息迅速增多,互联网上的各种信息检索系统一搜索引擎成为帮助人们上网获取信息的主要工具。这些搜索引擎在给人们带来很大便利的同时也暴露出许多问题。人们在查找人名时,搜索引擎返回给用户的检索结果数量很大,人们难以找到真正符合自己意图的信息。据此,现在的研究重点就是如何更快更准确的向用户提供所需信息。本文的研究目标是对网页中出现的人名进行同一性甄别,按照其身份信息进行网页聚类,并对每一个类别自动生成类别名称,供用户导航使用。以便用户能够快速的查询和定位到目标人物的信息。本文首先对信息检索中的关键技术进行了详细介绍,并重点介绍了基于社会角色知识库的中文人名聚类检索技术。在论文中详细说明了中文人名聚类系统的系统流程设计和流程中各个子模块的实现方法以及使用到的具体技术。本文主要从以下方面开展工作： (1)人名基本信息的抽取。针对文本中中文人名的信息出现的特点,使用知识工程方法,人工构造了模式库,并进行实验验证。本文从文本内容中提取关于人名的三个属性(相关地名、相关机构、相关职业); (2)构造人物社会角色知识库。人物社会角色知识库包括文本中出现的职务词和机构词。聚类时要想得到好的效果,和相似度的计算精度密切相关,本文构造的社会角色知识库使得在进行聚类时也能考虑到词语的语义关系来计算相似度,提高了相似度的计算精度,取得了较好的聚类结果； (3)根据抽取到的结果和人物社会角色特征知识库进行人名同一性甄别。聚类算法通过无监督学习将人名按照其身份的相似度进行区分,把相似度大的人名归为一个人。在中文人名聚类系统中信息抽取和相似度计算模型都得到了实现。并根据抽取的结果,在社会角色知识库计算相似度的基础上进行了人名聚类的实验,然后利用聚类准确率对聚类结果进行了评价。实验取得了很好的结果,这充分证明了基于社会角色知识库进行人物分类的方案是切实可行的。

其他文献

基于SOA架构的Web Service应用研究

SOA（Service-Oriented Architecture）是一种以服务为导向的组件模型，它是为了解决在Internet环境下应用业务集成问题的一种软件系统架构。Web服务（Web Services）使用了标准的、跨

学位

Web服务体系结构组件模型软件系统信息共享电子商务网上书店系统

基于虚拟仪器的网络测控系统研究

本论文在对网络测控理论研究的基础上，利用虚拟仪器技术、网络技术及通信技术制定了网络测控系统的技术方案。论文主要完成了基于虚拟仪器的网络测控系统的构架和技术方案设计

学位

虚拟仪器网络测控系统数据采集网络通信测控软件

基于多媒体业务的Ad hoc网络QoS路由协议的研究

Ad hoc网络，也称为无线自组织网络(MANET)，是由一组带有无线收发装置的移动节点所组成的一个临时性多跳自治系统。作为下一代网络的重要代表，它的发展不仅有利于国防军事，而且在

学位

多媒体业务Ad hoc网络无线自组织网路由协议数据转发转发机制能量边界代理

帧内编码及其快速算法研究

当今时代,人们对多媒体数据的需求正在不断增长,同时多媒体数据本身的内容也不断增大,如何压缩视频数据量成为多媒体技术发展的关键问题。因此,视频压缩技术成为一个重要的课

学位

多媒体数据信息转换编码帧内编码快速算法

基于大众注释的语义提取研究及应用

语义Web不仅要求Web资源是用户可读的,也是机器可理解、能自动处理的。为获得机器可理解的语义,许多研究试图根据定义好的Ontology,为Web资源创建语义标注,这类标注往往是以

学位

语义WebWeb资源大众注释语义提取语义标注语义搜索

基于面向服务架构实现北京医保财务收支系统研究

随着企业信息化的不断发展,不同业务的系统陆续引入,信息化至今已经进入一个非常的时期。市场激烈的竞争要求企业有更高程度的信息化,这不仅需要各个系统间能够实现无缝的结

学位

服务架构北京医保财务收支系统

CNGI宁夏驻地网建设及部分应用的性能分析研究

“CNGI宁夏驻地网建设”项目是中国下一代互联网示范工程CNGI国家重大建设工程的子项目，旨在扩展国家下一代互联网建设范围，攻克多种复杂环境下应用开发的基础性技术和关键技术

学位

网络环境驻地网建设创新能力信息基础设施平台

Ontology构建及其在网络学习资源管理中的应用研究

随着网络的发展,网络教育逐渐成为一种新兴的教育形式,它使人们在不同的时间、不同的地点进行高效的学习成为可能。目前,网络上积累了大量学习资源,但存在资源结构简单、缺乏

学位

远程教育网络教学网络资源数据库技术

SUPANET与WiMAX的无缝接入研究

针对现有的Internet在体系结构上存在着用户数据传输平台层次结构复杂、传输效率低下和服务质量难以保证的缺点,四川省网络通信技术重点实验室提出了“单物理层用户数据传输

学位

SUPAWiMAX服务质量(QoS)虚连接服务流

基于IBR的全景图生成技术研究

基于图像绘制的虚拟环境构造是近年来虚拟现实技术研究的热点，它以简单的图像合成代替基于三维几何的建模和渲染，加快了画面的显示速度，是建立特定三维场景的一种高效率的方法。

学位

图像绘制虚拟环境构造虚拟现实全景图生成三维几何建模局部熵序贯相似性检测

人名聚类检索技术研究

其他学术论文