融合命名实体的搜索结果聚类研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zhiyuanxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,Web已经成为世界上最大的信息资源,各种不同的应用都在使用Web信息资源。搜索引擎是目前信息检索最常用的工具,它会根据用户给出的关键词搜索出与关键词相关的信息。然而,搜索引擎目前的技术还不能完全满足使用者的需求,面对用户给出的简短的关键词,其返回结果往往精度比较低。而将搜索的结果作适当聚类会很好地帮助用户搜索Web信息。 搜索结果聚类与传统的文本聚类不同,它将聚类看成一个文档分配和标签选择的过程。待聚类的搜索结果按主题的不同归入不同的类,每个类由一个标签来表征。标签作为聚类的一种描述和解释,在一定程度上反映了该类的主题。对搜索结果进行聚类可以在三个方面帮助用户:一、更容易在搜索结果中浏览与查找:二、更容易以合适的关键词来细化搜索;三、使每次搜索结果得到充分的展示与利用。 在本文中,我们将命名实体运用到了搜索结果聚类中。命名实体作为文本中的基本信息元素,具有一定的实际意义,其表征主题的能力比一般词语更强,也更具可读性。本文主要工作如下: 1、实现了一个基于隐马尔可夫模型的命名实体识别系统,并结合相应特征对模型进行调整,实验证明达到了理想的效果; 2、提出了一种基于命名实体的搜索结果聚类方法。以搜索结果文档中存在的命名实体作为聚类的标签,经过一定的标签选择和聚类合并策略,形成最终的聚类结果,在保证聚类质量的基础上提高了聚类标签的可读性; 3、将命名实体运用到描述优先算法中,针对2中方法存在的不足,将算法进行改进。首先进行候选标签的提取,然后应用潜在语义分析技术来提取文档集合中的抽象概念,经过标签匹配和内容分配,形成最终的层次聚类结果。 实验和分析表明将命名实体应用到搜索结果聚类是一种可行的思路。
其他文献
集成了传感器、嵌入式技术、网络和无线通信四大技术而形成的无线传感器网络是一种全新的信息获取和处理技术。它能够协作地实时监测、感知和采集各种环境或监测对象的信息,并
随着计算机和网络技术的日新月异,无线通信网络从2.5G到3G的推进,世界进入了前所未有的信息化时代,科技服务成为当今企业信息化的重要内容。对于复杂多变的市场环境,开发伸缩性强
数字视频水印技术是目前信息安全领域研究的一个新方向,是一种可以在开放的网络环境下保护数字作品的版权、认证来源及完整性的新技术。创作者的创作信息和个人标志通过数字水
在汽车电子软件开发领域,基于模型的开发方式得到了越来越广泛的应用,而作为基于模型的开发方式的重要且不可或缺的组成部分,验证成为软件开发人员越来越关心的技术问题。本
无线网络技术的发展带动了手机网络游戏的发展。在各种网络游戏中,角色扮演游戏(RPG)吸引了越来越多的玩家,使游戏开发商获得了较好的商业利润。在J2ME平台上开发网络RGP游戏引
演化反映了“在演化实体或其组成元素的属性方面不断改进的过程”,而软件演化就是指软件系统或内部组成元素不断地改变来满足新的功能需求或属性需求。在现代软件系统的生命
水资源是人类生存和社会发展不可缺少的自然资源。进行流域用水水平评价研究与计算机软件开发,掌握流域用水的实际情况,为改善流域用水结构,提高用水效益和效率提供决策依据,
随着网络技术在广播行业应用的深入,建立集中统一的监管体制势在必行。为了实现广电行业安全播出的核心业务,需要不断地探索新的监管方式,逐步将现有的事后监管变为事前、事中监
随着互联网的快速增长以及大量内容给用户所带来的选择的困难,推荐系统被开发出来以优化用户的决策过程。在近十年中,推荐系统被证明是一种很好的处理数据过载的途径。无论是