论文部分内容阅读
随着互联网中网页数量的增加、信息的爆炸,如何从海量数据中找到对用户最有价值的信息,成为了互联网中一个热门问题。在这样的背景下,搜索引擎技术应运而生,成为用户在互联网中搜索信息的重要渠道之一。然而,现有的通用搜索引擎存在主题漂移问题,即与用户查询关键词所属领域不相符的网页会排在结果列表的前列,这显然会减低用户的体验。为了解决通用搜索引擎的主题漂移问题,本文在观察和分析了大量网页新闻实例之后发现,属于相同领域的新闻网页往往包含类似的关键词。基于这个发现,本文探索了面向特定领域的新闻网页重排序算法,并展开了以下研究。(1)本文介绍了搜索引擎的相关背景和技术,重点包括:网络爬虫、网页分类和网页排序等;(2)本文研究了特定领域向量模型的构建方法,并且针对特定领域的新闻网页构建了一个分类器,用来对网页进行分类,通过实验表明,该分类器具有较高的分类精度;(3)本文提出了一种面向特定领域的新闻网页重排序算法-TSRR算法。TSRR算法设计了一种独立于网页排序的模型,用来表示领域,然后建立网页信息模型,针对新闻网页,在用户检索过程中结合领域向量模型和网页信息模型对网页搜索结果进行重排序。在爬取的特定领域的数据集上,以用户满意度和准确率为标准进行评估,实验结果表明,本文中提出的TSRR算法性能优异,比经典的基于Lucene的排序算法在用户满意度上平均提高17.3%,在准确率上平均提高41.9%;(4)本文设计实现了一个面向特定领域的新闻网页垂直搜索原型系统,并将本文设计的分类器和网页重排序算法集成到其中,介绍了系统的框架,实现以及用户界面。