聚类搜索引擎关键技术的研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:shashh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的发展,信息在网络上呈爆炸式的增长,搜索引擎已经成为人们获取信息最为重要的工具。然而,传统搜索引擎列表式的返回结果已经越来越不能满足用户的需要,因为人们不得不在长长的结果列表中再次搜寻,仍然摆脱不了信息过剩的危机。因此,如何让用户更加方便、快捷的通过搜索引擎找到所需信息,成为一个非常值得研究的课题。聚类搜索引擎的提出为解决此问题提供了新的思路。通过对搜索结果进行聚类分析,挖掘比较数据中的相似性和差异性,将同类数据整合到一起,以更合理的方式对返回结果进行组织展示,使得用户能够快速得找到所需信息,提升用户体验。本文在对搜索引擎技术以及数据挖掘领域进行研究的基础上,着重研究了聚类搜索引擎的设计思想、体系结构以及相关的信息处理技术和聚类算法。通过分析可行的解决方案,结合已有的搜索引擎技术设计了聚类搜索引擎框架。在Carrot2开源聚类工具的基础上二次开发,实现了部分关键功能模块,特别针对不提供API的搜索引擎开发了基于配置模板的下载模块,使系统更为通用。针对聚类搜索引擎用户最关心的效率和聚类效果问题,本文对基于矩阵分解的两种方法:SVD和NMF进行了对比试验,找出影响性能的因素及表现形式;另外,通过对比基于后缀树的聚类算法和基于矩阵分解的聚类算法在聚类簇集污染度、主题覆盖度以及摘要覆盖度三个指标上的差异,验证了基于矩阵分解的聚类算法在聚类效果上的优越。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
我国是一个水资源贫乏的国家,人均水资源量仅为世界平均水平的四分之一,同时我国又是一个农业大国,长期的粗放型农业生产方式极大的浪费了宝贵的水资源。上个世纪信息技术的
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的探讨胃癌根治手术中不同的保温方式对患者体温的影响。方法将2010—01—2011—11接受胃癌根治术患者240例按照随机分组法随机分为薄面被,充气式加温毯和综合加温3组各80例
Hilbert-Huang变换是一种新的时频分析方法,适用于处理非线性和非平稳信号。其核心是经验模式分解(EMD),能将复杂信号分解为固有模态函数(IMF)的集合,并通过对IMF函数进行Hil
配合饲料品质的好坏取决于三个要素,一是原料品质控制技术,二是配方设计技术,三是加工工艺技术。三者互相影响,相辅相成。这里仅就饲料原料品控对配合饲料品质的影响介绍主、
针对目前沥青常见的层间粘结力不强导致早期破坏的现象,从粘结层结构、沥青材料的选择、施工过程等方面分析了问题出现的原因,并提出改善的措施,从而提高沥青混凝土路面层间粘结
<正> 饲料产品是由合格的原料按科学的比例配制而成,饲料原料是饲料产品营养成分的生命之源,是饲料质量的根本保证。然而,一些企业为了降低成本、获取暴利,进行不正当的竞争
目的 探讨不同剂量生长激素 (GH)在体外受精 -胚胎移植 (IVF -ET)中 ,对低反应患者超排卵周期的作用。方法 前一IVF周期卵巢低反应的患者 30例 ,她们在前一周期采用促性腺
目的:考察药学服务对患者用药依从性的影响。方法:将326例门诊患者分为两组。对照组采用传统取药方式;试验组药师“以病人为中心”,变被动发药为主动参与到患者的治疗中去,通