论文部分内容阅读
互联网就是蕴含海量信息资源的信息平台,也可以把它看成一个具有开放性、分布式的系统。随着Internet上信息数据的极度膨胀,要在大量的资源中查找有用的信息变得越来越困难。据调查显示,一般用户需要用35%的时间在网络上查找自己需要的信息。因此,需要有效的工具和手段来收集和管理网络上丰富的信息资源。目前,互联网搜索已经成为人们查找信息的首选方式,而搜索引擎是不可缺少的工具。网络上存在着结构、类型各异的数据资源,如有图片、视频等不同类型的资源,对应着不同的用户需求。随着用户需求的多样化,通用的搜索引擎己不能满足用户的需求。据调查报告显示,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%。搜索引擎需要变得更加智能,使得能为广大的用户提供满意的搜索结果。
对于目前的搜索引擎来说存在这样的问题:当用户需要查找多种类型的信息资源的时候,通用搜索引擎已经不能满足用户的需求。然后就出现了垂直搜索引擎,它将网络数据资源进行分类,提供可以是针对某一数据类型、某一特定领域、某一特定人群或某一特定需求的信息和相关服务。每个垂直搜索分别有独立的用户接口。在实际应用中用户要查找与某个查询词相关的多种类型的信息,每一类信息代表一个垂直搜索引擎的话,用户就必须在各个垂直搜索引擎的用户界面上逐一输入查询词,然后比较它们返回的结果。例如:查询词“故宫”包含介绍故宫的网页、博客、百科等文本信息还有一些图片和视频信息等。用户在查找这些信息的时候需要在各个垂直搜索引擎之间频繁切换,需要由用户自己过滤选择需要的信息。这样搜索任务就变得繁重,也收不到较好的搜索用户体验。现在,对于拥有庞大用户群的搜索引擎来说,如何在同一用户界面上聚合多类型的搜索结果,向用户推送“用户最可能想要的信息”,将与用户查询更紧密的结果放在前面,这方面的研究将有实际的应用前景和商业价值。
本文做了如下三方面的工作:
第一,针对聚合系统中出现的两个问题,分别为系统的信息内容如何组织及用户意图如何表达问题进行研究,针对这类系统当中的信息数据抽取和组织,提出了预测用户意图的数据模型。
第二,提出一种对各类搜索结果进行合理聚合的新算法,通过对查询词、搜索结果以及用户的搜索历史日志这三个方面数据的学习来对搜索结果进行选择和排序,从而达到探测用户查询意图的目的。通过实验证明这种基于排序学习的多类型结果聚合的方法是十分有效的,它可以更好的满足用户的搜索需求,提高用户的满意度,同时为搜索引擎的优化和改善用户的搜索体验提供一个有效合理的方法模型。
第三,基于前两方面的工作,对搜索系统的总体框架进行设计,加入用户意图模块。在这个总体框架下,从用户的角度设计和实现了具有三类不同功能的搜索系统,是前两方面理论研究的应用。通过以上这三个搜索系统实例在改善用户搜索体验和提高搜索引擎性能方面做了全新而有意义的探索。