一种Deep Web爬虫的设计与实现

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户:fa2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息。这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的。传统的Web爬虫仅能通过跟踪超链接检索普通的Surface Web页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面。然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值。本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法。它能
其他文献
目的比较急诊外科颅脑损伤患者实施肠内和肠外营养支持的临床疗效。方法选取2013年10月至2015年3月我院98例急诊外科颅脑损伤患者作为研究对象,采用随机数字表法将所选患者分
为了解决铁路运营人员的培训需求矛盾,本文设计了基于HLA(高层体系架构)的综合铁路仿真培训系统,对HLA架构在系统中的应用进行了介绍。并提出了在列车驾驶仿真器联邦基础上拓展新
目的 比较无张力腹股沟修补术和传统腹股沟疝修补术治疗腹股沟疝的效果及并发症。方法 选择2014年8月至2015年6月期间我院收治的腹股沟疝患者98例,随机分为两组各49例,对照组
随着开放式GIS的发展,基于WMS服务来集成异构空间数据技术日渐广泛。为了提高WMS服务的效率,有效地减轻WebGIS服务器的负载,本文分析了传统的缓存策略和当前流行的地图瓦片缓存
主要探讨利用数字证书技术实现数字图书馆的用户或读者全国统一身份认证,并在此基础上探讨数字图书资料在科研项目立项和研究成果水平鉴定,教师的教学水平和研究水平评估,启
粒子群算法是一种新的基于群体智能的全局优化算法,算法简单并且容易实现,已经被广泛应用在各个领域。本文为改善传统PID控制器的参数整定问题,提出了一种改进的粒子群算法。并
论述运用Grid轾件实现通用数据库操作组件的一般方法,讨论Grid控件与数据库视图、数据字典的关系,以及在界面动态生成、通用校验信息显示等功能中起到的关键作用。该组件可以方
主要探讨基于正反向工程的模型驱动的软件开发过程。本文把建模过程分为系统建模与数据库建模两个过程,首先介绍了两款主流的建模工具,然后给出这两款建模工具的建模流程,并
时挖掘关联规则的Apriori算法关键思想以及性能进行了研究,给出该算法的一个改进算法,该改进算法提高了原算法的性能,并从实验中得出相关结果。
目的探讨胡黄连苷Ⅱ对脑缺血损伤后COX-2表达的影响及其神经保护作用机制。方法应用线栓法建立大鼠大脑中动脉闭塞(MCAO)模型,按照随机对照原则,动物分为对照组、模型组、胡黄