搜索引擎检索结果聚类方法的研究与实现

来源 :燕山大学 | 被引量 : 0次 | 上传用户:ddr133
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,现有的搜索引擎尽管采用了各种方法来提高检索结果的精度(Precision),检索结果中仍然包含了与用户查询请求不相关的文档,虽然经过了相关度排序,相关文档和不相关文档仍然相互混杂,给用户带来了负担.为了帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档,将搜索引擎返回结果(Snippets)进行聚类(Clustering),将其分成若干个簇类(Clusters),同一簇类内文档相关度尽可能的大,不同簇类间文档相关度尽可能的小,这样将大大缩小用户所需浏览的结果数量,从而缩短用户查询所需要的时间.该文在对搜索引擎检索结果聚类过程研究分析的基础上,对从特征抽取、索引模型的建立、相似性的计算到聚类结果的形成等环节都做了分析简化与改进,给出了一个适合于中文信息处理的利用关键短语为特征项的基于相似性密度的快速聚类方法BSDFC(Based-on Similarity Density Fast Clustering).在此方法中首先根据检索结果的上下文单词之间的关联性提出了一种适合中文信息处理的关键短语(Key-phrase)特征抽取方法,将关键短语作为检索结果的属性特征项.其中提出了短语的互信息、单个词汇的独立语义能力的概念;然后首次利用检索结果的标题、Url以及文档片断三部分所含信息计算返回结果之间的相似性,并将检索结果以及它们之间的相似性关系映射到无向图;最后根据无向图中每个点的相似性密度形成基类,通过合并基类最终得到聚类结果.在聚类的过程中提出了基类的独立性系数和被收容性系数等概念.在未来工作趋势中,还给出了将聚类与智能信息服务代理Agent共同运用于信息检索服务系统中的一个工作流程计划模型.
其他文献
蛋白质二级结构预测的方法中绝大多数都是根据蛋白质的一级结构信息即氨基酸序列来进行预测的,而没有考虑到编码蛋白质氨基酸残基序列的DNA序列及其对应密码子中是否隐含有与
随着云计算和虚拟化技术的蓬勃发展,业界学者逐步深入了相关研究。作为实现云计算的关键基础技术,虚拟化提供了一致性的系统级平台,而镜像文件正是扮演了将该平台实例化的重
该文以电子商务的定义、功能和特性开篇,介绍电子商务的现状与发展.在此基础上提出电子商务的一个非常重要的问题——电子商务的安全问题.由此引出目前处于主流并且非常有效
随着即时通类软件在为人们带来诸多方便的同时,也为色情、反动言论及邪教异端邪说洞开方便之门,在企业内部的广泛应用也产生了诸如技术泄密、工作效率降低及网络使用成本增加
大气中二氧化碳含量对海水组成及海洋生物生存环境的影响,正引起人们的广泛关注。在海水结晶问题的有关研究中,基于传统化学实验方法的分析过程繁琐、实际操作复杂、成本花费
软件测试是软件开发过程中极其重要的一环,是保证软件质量、提高软件可靠性的关键。研究软件测试理论和高效的软件测试技术以提高软件质量、降低软件生产成本成为软件工程的一
伴随着Internet网络和通信规模的不断扩大,网络结构日益复杂和异构化,不同网络结构内部以及网络结构之间如何进行管理,成为分布式网络系统监控管理的一个难题.与此同时,越来
随着计算机网络技术的不断发展,数据库应用系统也随之发生着变化。数据库模型从传统的单机模式、两层结构发展到现在的三层结构的分布式网络计算。随着数据库技术的发展,使得
软件产品的维护和再工程(Reengineering)活动是软件生命周期的重要环节,它们在软件生产中的地位日益重要:自上个世纪六十年代软件行业兴起至今,遗产系统(LegacySystem)的规模已
该文首先介绍了X射线图像处理和识别的研究现状以及模糊技术、人工神经网络和演化计算在图像处理和识别中的应用,分析X射线图像处理和识别研究中仍存在的一些问题,为该文的研