基于聚类的搜索可视化呈现系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:jjpabc123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术以及互联网的普及,搜索引擎技术得到了快速的发展,传统的搜索引擎根据用户输入的检索关键字为用户提供搜索结果,并根据相关性对得到的搜索结果进行排序。然而,由于自然语言中的词语往往存在二义性,用户所输入的检索词概念相对模糊,导致搜索结果范围相对分散,用户需要花费一定时间才能找到自己真正感兴趣的主题。如何有效处理大量的搜索结果减少用户的检索时间,这促进了元搜索引擎技术以及文本聚类技术的发展。本论文旨在结合元搜索和文本聚类技术对搜索结果进行改进和增强。元搜索技术是建立在独立搜索引擎上的一种技术,该技术能够针对各个成员搜索引擎的搜索结果进行汇聚和筛选,并将整合的最终结果呈现给用户。搜索结果之间存在着不同程度的差异性,如果利用文本聚类技术对搜索结果进行聚类,以层次化的形式呈现搜索结果,每个聚类结果都有一个标签用以描述其主题和内容,这样可以一定程度上帮助用户进行搜索定位,从而将检索范围和用于检索筛选的时间降低。本论文的主要内容是设计并实现一个基于聚类的搜索结果可视化工具。为了实现该工具,本文首先基于原有搜索引擎得到的结果,提出一种结合用户行为的搜索结果聚类方法。该方法通过对搜索结果进行二次处理,将具有相似主题的搜索结果归并,以聚类的形式将搜索结果呈现给用户,帮助用户快速定位到自己感兴趣的信息。与此同时,该方法还对用户的访问行为信息加以收集分析,通过迭代的方式不断优化聚类算法。本文结合需求对系统相关方案和总体架构进行说明,包括了搜索结果获取、搜索结果预处理、聚类生成以及用户行为分析等主要模块的设计思想和工作原理。接下来,本文对各个主要模块的实现以及具体交互设计和工作流程进行详细的说明,并展示了最终的聚类效果以及对聚类效果和质量方面的测试结果。最后对本文设计实现的搜索结果聚类可视化工具提出建议和下一步研究方向。
其他文献
基于多层半可分(HSS)结构矩阵的快速算法可有效降低具有数值低秩属性的稠密线性方程组求解的复杂度。随机取样已经被证明是一种高效率的近似分解低秩矩阵的技术。采用随机取
现代化社会的迅速发展,带来了越来越广泛信息传播渠道。与此同时,产生的信息量也发生了爆炸式地增长。因此,无论是普通个体,还是企业,都很难在短时间内从海量的信息中快速找
计算机技术在当今的电信呼叫中心里得到了越来越广泛的应用,从传统的CTI, ACD技术到下一代网络的NGN技术,通过与计算机技术的紧密结合,电信呼叫中心在当今社会里正发挥着越来
人体环境中的微生物群落对人体健康起着至关重要的作用。当前,国内外很多研究都试图发现微生物群落如何影响人体健康,微生物群落之间如何交流,以及群落间交流对人体健康的影响。
随着数值天气预报研究的不断发展,数值模式的复杂度和分辨率在不断提高,其非线性程度也在不断提高,同时新的完全非线性数值模式,比如气溶胶模式、植被模式等,在不断发展,原线性资料
作为智慧城市在中国的应用,无线城市项目的提出旨在解决市民生活信息化问题。无线城市的核心是如何将城市中大量的数据进行收集、整合和处理,并将处理之后的数据转化为信息提
随着互联网的兴起与发展,全球数据量快速增长,逐步进入大数据时代。在大数据时代,互联网、金融等各个行业,利用计算机对海量数据进行分析统计和数据挖掘非常重要,由于数据量的快速
流场是科学与工程数值模拟中重要的数据场,例如大气海洋模拟、飞机与汽车数值模拟和燃烧模拟等,对流场的可视化分析是理解这些数值模拟的关键步骤。而流场可视化也一直是科学可
随着互联网以及计算技术、存储技术的发展,数据呈现爆发式的增长,人类开始进入大数据时代。如何从海量的数据中快速并准确的找到人们真正感兴趣的信息已经成为影响人类工作生活
全世界的聋哑人数量高达约3.6亿。聋哑人之间的交流基本靠手语,而和健听人的交流却存在巨大障碍,主要靠成本较高的人工翻译或者比较费时的书面文字。自动手语识别的目的就是架