基于WebDriver的定向网络爬虫设计与实现

来源 :软件 | 被引量 : 0次 | 上传用户:syhlgs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web 2.0的兴起,网络上的海量信息迎来了爆发性地增长。从网络上的公开数据中提取有效信息成为了数据挖掘领域的新热点。数据获取是数据分析的第一步。Web 2.0时代的网站在内容和形态方面发生了深刻的变化,对传统的以静态页面分析为基础的网络爬虫提出了新的挑战。本文利用Web Driver实现了一个定向网络爬虫,该爬虫能够自动采集指定网页数据,支持Ajax等动态技术,能够对简单验证码进行识别,并绕过爬虫检测。利用该爬虫对全国企业信用信息系统进行爬取,取得了良好效果。
其他文献
社交网络中个体价值分析,就是利用网络爬虫抓取社交网络中数据,对数据过滤分析,抽象成图结构,发现排名最高的节点(个体)。本文基于Page Rank算法模型,应用'黄金分割线&#3
针对尿沉渣中的有形成分进行检测和分析,提出结合主成分分析(PCA)和极限学习机(ELM)的识别和统计方法。该方法通过PCA对样本进行特征提取和降维后输入到ELM进行训练,根据训练
推动传统媒体和新兴媒体的融合发展,是学习贯彻习近平新时代中国特色社会主义思想,落实党中央全面深化改革部署、推动宣传文化领域改革创新的一项重要任务,也是传统媒体顺应
随着电网飞速发展,10 kV环网越来越普遍,核相工作变得更加频繁且重要。在新投10 kV线路时需要在10 kV开关柜内进行核相,然而,在开关柜内核相需要用绝缘棒推开绝缘挡板,此过程
云计算技术的出现给高效的计算机基础教学提供了新的教学理念和教学模式。本文从分析了当前高校计算机基础教学中存在的主要问题,包括:授课方式单一,学生的实践能力差;教学内
公允价值的利用越来越广泛,也给会计计量和披露带来了不确定因素,有缺点,但缺点就是准则不够完善,计量模式在新的发展形势下能够很好地对公司的财务进行分析,但是与此同时也
南方电网西电东送主网架雷电活动频繁,地形、气候条件恶劣,雷击故障差异化分布特征显著,实施有效防护面临的挑战巨大。本文介绍了近年来南方电网在超/特高压输电线路防雷性能
目的本研究通过免疫组化方法分别检测正常胃组织、不典型增生胃组织和早期胃癌组织中P16和HGF蛋白表达,旨在探讨二者在不同胃组织中表达的相关性及意义。方法运用免疫组化方
本文除了着眼于关于建筑风景写生的技法性的问题,还涉及到写生行为的逻辑起点,就较为突出的现阶段有初步绘画技巧的练习者所关切的方向性问题,率先予以探讨,以激发大家对建筑
战"疫"记者就是在一场抗击疫情的战斗期间,被新闻媒体派到战"疫"现场、防疫指挥机构,以便掌握第一手材料,进行采访、报道与抗击疫情有关的见闻、事件、话题等内容的记者。面