动态网页的爬虫构建和信息抽取方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:ASD121406113
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web的迅速发展,越来越多的网页可以通过表单提交来获取,这些表单提交所产生的网页是由Deep Web后台数据库动态产生的,蕴含了大量的信息。如何从Deep Web中快速准确的获取所需要的信息已成为一个极具现实意义的重大课题,Web信息抽取技术正是在这样的背景下应运而生。传统的Web信息抽取工具不包含网页获取模块或仅包含极简单的网页获取模块,因此对动态网页的网络爬虫构建及Web信息抽取方法进行研究,具有很高的研究意义和应用价值。   本文在国内外研究基础上,进行了一些有益的探索,主要工作包括:   (1)针对传统网络爬虫的不足,本文提出了一种基于用户操作解析的爬虫构建方案,通过分析用户操作记录和网页结构,半自动化的构建针对不同站点的网络爬虫,实现网页信息的获取。   (2)在传统Web信息抽取技术的基础上进行了改进,本文结合使用DOM技术以及网页视觉特征实现网页信息的定位,使用了多种定位模式来提高信息抽取的健壮性。   (3)在上述内容的基础上,设计实现了原型系统(Dynamic Page InformationCollector,DPIC)。使用一个WebBrowser浏览器引擎设计了一个小型的定制浏览器,使用户能够直接在样本页面中定义所需的爬虫和待抽取的信息。  
其他文献
专家系统是人工智能中一个正在发展着的研究领域,虽然目前已经有许多专家系统相继问世,并在各自不同的领域中发挥着重要作用,取得了巨大的经济效益及社会效益,但无论是在理论
随着信息技术、计算技术的发展,计算模式正发生着深刻的变革,已经逐渐从传统分布式移动计算发展到普适计算模式。普适计算的本质特征是融合物理空间和信息空间,为人提供透明
随着互联网技术的飞速发展,网络应用十分广泛,已经渗透到了各行各业。网络在快捷、方便的带来大量信息的同时,也带来了诸多安全问题。其中木马技术由于远程控制性、隐蔽性等
随着计算机与信息技术的普及和大容量存储技术的发展,人们在日常事务处理和科学研究中逐渐积累了大量宝贵数据,这些数据背后蕴藏着对决策有重要参考价值的消息。如何从这些历
随着我国金融行业的蓬勃发展,银行对于金融自助设备的要求越来越高。为了使金融自助设备更具人性化和灵活性,并避免依赖一个厂商生产的产品,各银行纷纷按照自己的业务需要或
无线传感器网络是利用部署在监测区域内大量的传感器节点组成的一个多跳自组织的网络,在国防军事、工业控制、城市管理、医疗卫生、环境检测、抢险救灾等领域有潜在的应用。
随着分布式环境下共享资源计算和协同服务的需求逐渐增多,这要求软件系统的开发、部署、运行、维护在日渐开放、动态、难控的网络环境中。因Agent具有反应性、自治性、社会性
对于当前的海量数据分析或处理,数据通常存储在大规模集群的分布式文件系统(如GFS、HDFS)上。这些文件系统提供了对数据的便捷管理、高效访问以及容错性和扩展性。基于GFS和HD
针对社区发现算法的研究已经成为社会学、计算机科学、生态学和经济学等许多领域研究中最重要的课题之一。随着近年来互联网高速发展和移动终端的普及应用,使得复杂网络的种
随着计算机技术的飞速发展以及网络的普及,人们在应用过程中产生和收集的信息在规模、范围和深度等方面不断扩大。这些海量的数据在组成和功能之间存在着丰富和复杂的信息,因