论文部分内容阅读
随着信息技术以及互联网的普及,搜索引擎技术得到了快速的发展,传统的搜索引擎根据用户输入的检索关键字为用户提供搜索结果,并根据相关性对得到的搜索结果进行排序。然而,由于自然语言中的词语往往存在二义性,用户所输入的检索词概念相对模糊,导致搜索结果范围相对分散,用户需要花费一定时间才能找到自己真正感兴趣的主题。如何有效处理大量的搜索结果减少用户的检索时间,这促进了元搜索引擎技术以及文本聚类技术的发展。本论文旨在结合元搜索和文本聚类技术对搜索结果进行改进和增强。元搜索技术是建立在独立搜索引擎上的一种技术,该技术能够针对各个成员搜索引擎的搜索结果进行汇聚和筛选,并将整合的最终结果呈现给用户。搜索结果之间存在着不同程度的差异性,如果利用文本聚类技术对搜索结果进行聚类,以层次化的形式呈现搜索结果,每个聚类结果都有一个标签用以描述其主题和内容,这样可以一定程度上帮助用户进行搜索定位,从而将检索范围和用于检索筛选的时间降低。本论文的主要内容是设计并实现一个基于聚类的搜索结果可视化工具。为了实现该工具,本文首先基于原有搜索引擎得到的结果,提出一种结合用户行为的搜索结果聚类方法。该方法通过对搜索结果进行二次处理,将具有相似主题的搜索结果归并,以聚类的形式将搜索结果呈现给用户,帮助用户快速定位到自己感兴趣的信息。与此同时,该方法还对用户的访问行为信息加以收集分析,通过迭代的方式不断优化聚类算法。本文结合需求对系统相关方案和总体架构进行说明,包括了搜索结果获取、搜索结果预处理、聚类生成以及用户行为分析等主要模块的设计思想和工作原理。接下来,本文对各个主要模块的实现以及具体交互设计和工作流程进行详细的说明,并展示了最终的聚类效果以及对聚类效果和质量方面的测试结果。最后对本文设计实现的搜索结果聚类可视化工具提出建议和下一步研究方向。