恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:zhanchuangye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,如何有效地采集并利用这些信息成为一个巨大的挑战。搜索引擎正是解决这一问题的有效工具,而高效的网络爬虫是搜索引擎的核心技术之一。网络爬虫是一个可以从因特网上自动提取网页的系统,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。而本文的网络爬虫系统是为恶意URL检测项目服务的,为其提供被检测的URLs,充实URL库。本文首先总体介绍了爬虫系统为之服务的恶意URL检测项目,并简单总结了此项目的实验结果。随后对网络爬虫的研究现状、搜索策略、PageRank算法等技术进行了详细的论述。最后对网络爬虫系统的详细设计和实现进行了论述。本文通过Java语言实现了一个基于广度优先搜索策略的多线程爬虫程序。论文对爬虫系统的各个功能模块的设计和实现进行了详细的论述,包括关键技术的分析和解决方案等。本文详细介绍了多线程并行机制,并用线程池来管理多线程;在url调度策略方面,采用了cache缓存的机制,在url去重方面,采用了基于LRU算法的MD5算法;基于可扩展性方面,采用面向接口编程的思想,以利于程序的可扩展性;针对恶意URL检测项目的要求,在标识优先级方面,采用了改进的PageRank算法。论文从爬行效率和爬全率等方面对系统进行了测试,通过测试数据的分析,此系统满足项目的要求,得到了较好的结果。
其他文献
特征选择是机器学习领域的研究的重要内容之一。随着应用于机器学习领域的数据维数不断升高,数据存储、运算,都消耗了大量的计算机资源。为了节省资源,避免所谓“维数灾难”
城市交通网络是一个典型的复杂网络。它具有复杂的动力学行为、时空特性和结构特征。目前,如何运用复杂网络的研究方法去分析交通网络的复杂性已经成为研究者们关注的热点。利
由于数据流快速、连续到达的大量数据使大多数的传统的聚类方法失效,因此数据流领域里的数据挖掘中的聚类是一个难题。不能满足应用要求的传统的数据聚类算法极大地制约着数
近年来随着医疗办公无纸化的推广,电子病历(Electronic Medical Record,EMR)的使用也越来越普及。电子病历中不但记录病人病情,还记录了医生对病人的治疗方案以及治疗效果。
随着我国汽车保有量的持续增长,交通安全受到越来越广泛的关注,人们开始寻求利用计算机等技术实现车辆的安全驾驶。但在现实道路场景中,环境总是复杂多变的,如何在多变的场景
本文对安全帽识别系统中的人体定位与安全帽定位进行了初步研究。首先,本文使用梯度直方图特征,采用支持向量机方法定位人体;其次,本文采用Haar-like特征,基于AdaBoost分类器
等值线图是一种应用十分广泛的图形,它将三维信息显示于二维平面,可用于从总体上把握对象的特征。本文主要探讨了等值线图的制作过程。首先,介绍了数字高程模型的数据采集和
随着计算机网络技术的迅猛发展,网络应用范围不断扩大。人们迫切要求利用这些技术开发各种管理系统,进行远程管理,远程教育,以提高工作效率,提高教育质量,激发学生的学习兴趣
学位
随着社会经济、技术和人们生活水平的不断提高,机动车的数量不断增多,交通运输问题也随之越来越突出,采用现代化的管理方法来实现交通管理这一要求变得更加迫切。智能交通系统是
物体三维重建技术是一种快速精确获取物体表面三维信息的重建测量技术,目前已经广泛应用在3D打印、目标识别、文物保护、电路板印制、产品制造业、现代医学等众多领域中。而