【摘 要】
:
随着网络上信息的爆炸式增长,普通搜索引擎的查询结果越来越不能满足用户查询的需要,尤其是那些查询特定信息的不同领域、不同背景的用户,因此适应特定主题和个性化搜索的垂
论文部分内容阅读
随着网络上信息的爆炸式增长,普通搜索引擎的查询结果越来越不能满足用户查询的需要,尤其是那些查询特定信息的不同领域、不同背景的用户,因此适应特定主题和个性化搜索的垂直搜索引擎应运而生。主题爬虫作为垂直搜索引擎的核心组成部分,其抓取的网页的质量好坏直接影响垂直搜索引擎的返回结果。如何判断下载的网页与目标主题的相关度和如何确定待爬行队列中URL的访问优先级是主题爬虫中影响抓取的网页质量的关键因素;同时由于Web页面的结构特性,致使主题爬虫在爬行过程中存在“隧道”现象,它的存在将会对爬行的覆盖率和准确率造成较大的影响。本文利用网页分块判断主题相关度和最佳优先搜索策略的优势,同时为了克服“隧道”现象,提出了一种基于网页分块的主题爬虫方法:①将分类器的思想应用到主题爬虫中,训练出了针对主题爬虫的类中心向量分类器,该分类器主要用于确定网页或网页块的主题类别和它们之间的相似度,其突出的优点是可以较好的描述用户感兴趣的主题,分类速度快,能提高爬行的速度;②在网页块内考虑URL的差异,将块内的URL分为特殊URL和普通URL进行访问优先级预测,从而提高预测的准确性,克服由于预测不准确带来的相关网页被忽略的问题;③通过在网页块内引用类间转移概率,克服爬行过程中存在的“黑色隧道”现象,通过利用网页分块的思想,克服爬行过程中存在的“灰色隧道”现象。最后从DMOZ目录中选取3种不同的目标主题对基于本文提出的方法和已存在的基于文字内容的方法及基于分类器的方法实现的三种主题爬虫采用常用的性能评估值——Harvest Ratio进行对比验证,实验结果表明本文提出的方法实现的主题爬虫在Harvest Ratio上要优于其他两种方法,较好的满足了主题爬虫的需求。
其他文献
纸币清分机是机电一体化的金融器机具,可同时实现纸币的点钞、计数,识别残破、新旧及不同几何尺寸、不同版本的纸币的清分归类操作。能够提高金融业现金处理的速度和效率,使
代理服务是一种必要而常用的互联网服务。它给我们带来的好处有以下几点,第一点是能够提供更好的网络服务,比如由于代理服务器的网络带宽优势,某些情况下能够加快访问速度。
无线通信技术是物联网发展中的关键技术之一,ZigBee无线通信技术,因其短距离、低功耗、低成本、低复杂度、高可靠性等众多优点被广泛应用于智能家居、智能农业、自动化工业等众
数字视频压缩和传输技术会对图像造成不同程度的失真,因此视频质量评估在视频压缩、处理以及视频通信领域都具有非常重要的意义,尤其是自动化质量评价技术在各个应用场合扮演
Web信息源质量是Web应用成功的关键。高质量的Web信息源在社会、经济、文化等领域的重大决策中都发挥着重要的作用。Web信息源质量受到诸多因素的影响,使Web信息源具有开放性
近年来,电子服务从局部化发展到全球化,从B2C (Business-to-Customer)模式发展到B2B (Business-to-Business)模式,从集中式发展到分布式。Web服务作为一种新兴的Web应用模式,
多核通用框架是在研究了Tilera多核开发系统的体系架构,分析了传统框架模型的特点与不足,结合多核编程模式的优势等基础上提出的。本文课题以TILExpress-64开发板作为硬件平
随着计算机科学技术的发展,基于模型驱动的分层建模技术与层次划分方法广泛应用于计算机领域系统高层功能行为的建模,软件复用技术更是伴随着软件系统的复杂规模应运而生,软件构
随着网络应用的快速发展,网民素质良莠不齐,网民的舆论对人们的生产、生活产生了重要影响,甚至严重影响到社会的安全稳定。网络舆论环境既需要人们正确的接收到事实真相,又需
随着互联网技术飞速发展,以及移动通信3G网络的建设,一些原本只能在互联网技术下使用的业务正逐步向移动互联网渗透。基于LBS的互联网服务是社会信息发展的趋势,LBS服务是测绘、