基于决策树的URL分类器算法及主题爬虫平台设计

来源 :成都理工大学 | 被引量 : 5次 | 上传用户:ftpp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
偌大的互联网已经演变成了一个巨大的知识宝库,对这个知识宝库的探索、挖掘和分析是当下的一个热门应用领域。在对这个知识宝库进行探索和知识萃取之前,首要的一步是要收集原始数据。面对如此巨大的知识宝库,采用像谷歌、雅虎那样的通用搜索引擎寻找与用户定义主题相关的高质量网页很难得到较好的效果,并且与用户定义主题相关的高质量网面往往没有聚合在一起,而是比较分散,这为高质量原始数据的筛选工作增加了额外的负担。通用搜索引擎的爬虫程序通常采用广度优先的爬行策略,即通用搜索引擎爬虫程序按照一定的层次顺序依次爬取互联网上的网页,追求的目标是对互联网上网页的广泛采集。与通用搜索引擎爬虫程序不同的是,主题爬虫具备一个用于指导爬虫爬行方向的爬行策略,其中基于网页链接拓扑结构的爬行策略和基于网页内容的爬行策略是最经常使用的爬行策略。通过爬行策略的引导,主题爬虫可以带有目的性的找到与用户定义主题相关的网页,这在一定程度上避免了与用户定义主题无关网页的下载,节省宝贵的带宽资源。主题爬虫爬取网页的准确率是衡量主题爬虫性能的重要指标之一。首先,本文对主题爬虫的基本原理和系统架构进行深入研究,并对基于网页链接拓扑结构的爬行策略和基于网页内容的爬行策略的代表性算法做详细研究,比较这些算法各自的优缺点和使用场景。然后详细阐述网页文本处理技术,包括网页HTML文档的DOM树解析方法和正则表达式解析方法,对解析之后文本的分词处理和文本的向量空间模型表示方法以及基于向量空间表示模型的文本相似度计算方法。其次,在对主题爬虫程序的基本原理和架构进行深入研究之后,提出了基于决策树的URL分类器算法。该分类器算法利用网页中的4个HTML标签对URL进行分类。4个标签分别是:<h1>,<h2>,<h3>标签(heading)、网页的标题(title)、链接的锚文本(anchor)和链接上下文(context)。利用这4个HTML标签对应的文本内容与用户定义主题的相似度来构建决策树,对当前网页中包含的其他URL进行分类。将分类结果为与主题相关的URL放入优先爬行的URL队列,而将分类结果为与主题不相关的URL放入延迟爬取队列,当优先爬取队列为空时再爬取延迟爬取队列,这样保证较高准确率的同时又能在一定程度上避免主题爬虫“隧道穿越”问题。最后,利用开源网络爬虫程序框架设计了基于决策树的URL分类器算法的主题爬虫实现。实验结果表明,经过URL分类器分类处理的主题爬虫算法与传统的Fish-Search算法实现的主题爬虫相比较,本文实现的主题爬虫的爬取的网页准确率有一定提高,在5%-7%左右。
其他文献
近年来,数码相机和拍照手机产品的广泛应用催生了海量照片,个人电子照片库越来越庞大。与此同时,社交网络的流行带动着个人照片的大量分享,例如Facebook、Fliekr、人人网、微
随着GNSS(Global Navigation Satellite System)技术的不断发展,具有高灵活性以及强适应性的软件接收机系统已经成为导航接收机研究的热点,本课题在调研分析软件GNSS接收机应
WiMAX全称是Worldwide Interoperability for Microwave Access,即微波接入全球互操作,它是基于IEEE802.16标准的一项新兴无线城域网技术,能够提供面向互联网的高速连接。它具有
随着SOA(Service-Oriented Architecture)这一面向服务的软件体系架构在企业中的广泛应用,Web服务己成为在网络环境下对资源进行封装、抽象和虚拟化的主要手段之一。服务组合
图像分割问题是医学图像处理领域的一个重要问题,它是医学图像三维重建、仿真和理解的前提。变分水平集方法相对经典分割算法有更严密的数学基础,它成为医学图像分割新兴手段,已
内存访问瓶颈一直是影响程序性能的关键因素。由于循环嵌套在程序执行中所占的时间比重非常大,通过对程序中的循环进行优化以提高程序的局部性,一直是编译优化的热点。传统的
LTE(Long Term Evolution)是第四代移动通信的主要标准之一,采用了OFDM、MIMO等关键技术来提升系统的性能,主要表现为:下行瞬时峰值速率最低支持10Mbit/s,最高支持300Mbit/s;
本文总结了目前覆盖网迅速发展的趋势以及目前存在的各种技术与实验平台,深入分析了目前影响覆盖网广泛应用的问题,即与当前网络的冲突与多覆盖网之间的冲突问题。水平冲突的
互联网的发展使得电子文本文档的数目飞速增长,自动文本分类越发的被人们所需要。文本分类作为数据挖掘、信息检索、机器学习等领域的热点问题,从最初的人工分类逐步发展到现在
集成电路设计和电力电子技术的飞速发展为电子设备的广泛应用奠定了坚实的基础,因此对电源驱动部分提出了更加严格的要求。主要体现在:在宽电压输入范围内能够输出稳定的电压,