面向特定领域的新闻网页重排序算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:lygwzs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网中网页数量的增加、信息的爆炸,如何从海量数据中找到对用户最有价值的信息,成为了互联网中一个热门问题。在这样的背景下,搜索引擎技术应运而生,成为用户在互联网中搜索信息的重要渠道之一。然而,现有的通用搜索引擎存在主题漂移问题,即与用户查询关键词所属领域不相符的网页会排在结果列表的前列,这显然会减低用户的体验。为了解决通用搜索引擎的主题漂移问题,本文在观察和分析了大量网页新闻实例之后发现,属于相同领域的新闻网页往往包含类似的关键词。基于这个发现,本文探索了面向特定领域的新闻网页重排序算法,并展开了以下研究。(1)本文介绍了搜索引擎的相关背景和技术,重点包括:网络爬虫、网页分类和网页排序等;(2)本文研究了特定领域向量模型的构建方法,并且针对特定领域的新闻网页构建了一个分类器,用来对网页进行分类,通过实验表明,该分类器具有较高的分类精度;(3)本文提出了一种面向特定领域的新闻网页重排序算法-TSRR算法。TSRR算法设计了一种独立于网页排序的模型,用来表示领域,然后建立网页信息模型,针对新闻网页,在用户检索过程中结合领域向量模型和网页信息模型对网页搜索结果进行重排序。在爬取的特定领域的数据集上,以用户满意度和准确率为标准进行评估,实验结果表明,本文中提出的TSRR算法性能优异,比经典的基于Lucene的排序算法在用户满意度上平均提高17.3%,在准确率上平均提高41.9%;(4)本文设计实现了一个面向特定领域的新闻网页垂直搜索原型系统,并将本文设计的分类器和网页重排序算法集成到其中,介绍了系统的框架,实现以及用户界面。
其他文献
伴随着Internet技术的发展,WWW的应用也越来越多,Web站点越来越普及。在当前竞争激烈的网络经济中,只有赢得用户才能获得竞争中的优势。客户浏览行为的数字化,使得通过收集大量用
随着运输行业的不断发展,物流业面临的运输市场竞争也日趋激烈。国际贸易的发展以及全球经济一体化为物流企业提供了更多的商机,也带来了更广泛和更强劲的竞争,但由于企业之
Web Services(Web服务)是基于网络的、分布式模块化组件,是建立可相互操作的分布式应用程序的新平台。Web服务作为新一代分布式技术,一经推出便以它的松散藕合性、跨平台及语
本体(Ontology)作为一种能够在语义和知识层次上描述信息系统的建模工具,自20世纪90年代初提出以来就引起了国内外众多科研人员的关注。从本质上说,本体就是用来描述某个领域甚至
Web服务(Web Services)是近年来蓬勃兴起的一种分布式计算标准,它具有完全的平台无关性和语言无关性,具有十分广阔的市场和诱人的前景,己经成为新一代动态电子商务的核心,并
学位
Internet与GIS结合而产生的网络地理信息系统(WebGIS)是GIS软件发展的必然趋势。网络地理信息系统的产生和发展打破了传统GIS数据的封闭体系,为空间数据共享与交换提供了开放
随着自动抄表系统在居民住宅小区的大量应用,作为提高抄表员工作效率的移动服务终端——手持抄表设备也得到了长足发展。由于智能手持设备本身具有便携性、移动性、智能化等
随着计算机网络技术和多媒体技术的发展,在网络中传输数字信息变得十分普遍。数字图像由于具有信息量大,冗余度高等特点而被广泛用于传输信息。但是数字图像在网络传输过程中