针对模板生成网页的数据自动抽取方法的探讨与应用

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zptjya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,互联网已成为一个巨大的信息库,为了有效地利用互联网上的信息,各种Web信息抽取技术应运而生。目前,Web上的很多网页是网站根据用户请求从后台数据库中选取数据并嵌入到通用的模板中,并结合网站的特定需求而动态生成的,例如电子商务网站的商品描述网页等。针对如何从这类由模板生成的网页中自动地抽取出有效数据的问题,目前常用的经典方法有RoadRunner,EXALG等,其中RoadRunner的实现算法的时间复杂度呈指数级增长,其实用性不强;虽然EXALG方法对RoadRunner方法进行了有效的改进,但是仍然缺乏对网页中可视化布局信息、标记属性和字符串的相似度等重要特征的考虑。因此,本文针对上述这些问题研讨了相关网页模板检测问题的形式化描述,结合该类网页的结构特征,探讨了一种新的模板检测方法;并且利用检测出的模板完成对相关实例网页的数据自动抽取过程;最终将该基于有效模板检测的网页数据自动抽取算法应用于某电子商务网站的相关网页的数据抽取过程中,即对某网站中的商品列表信息和商品详细信息等重要数据实现了自动抽取的工作。与其他方法相比,该方法能够适应于“列表页面”和“详细页面”两种类型的网页,在该类网页数据抽取的查全率和准确率方面有了较大的改进。本文的主要内容和结构安排如下:首先,介绍针对模板生成网页的数据抽取方法的发展现状以及相关技术,并阐述了论文的研究目标和工作内容。其次,介绍了Web数据抽取过程中主流的网页数据抽取技术,系统地剖析了目前广泛采用的经典的网页数据抽取技术中存在的优势与不足,以此为基础,文中研讨了一种有效的针对模板生成网页的数据抽取方法及其实现算法,即针对该类网页,完成了相应网页有效数据的自动抽取工作。接着,重点阐述了文中所研讨的针对模板生成网页的数据自动抽取算法的设计与实现过程。该算法首先将已经净化的HTML页面解析成标签树和标签队列两种数据结构;其次针对大部分网页中存在导航条、广告及版本信息等一些与抽取内容无关的数据信息,采用文中所提出的具体有效的标签树匹配算法过滤上述无关/冗余的数据信息;然后通过该数据自动抽取算法中计算Ctokens的核心子算法将这类HTML页面进行有效的标签归类,以期基于所生成的Ctokens来自动抽取出该类网页的模板结构信息数据和字段层次上的有效网页生成数据。最后,根据文中所研讨的方法及实现算法,尝试性地构造了一个针对模板生成网页的数据自动抽取原型系统,该系统能够完成对相关电子商务网站中该类网页(如:商品的“列表页面”和“详细页面”的具体网页)的有效数据的自动抽裙ぷ?该抽取过程的查全率和准确率都有较大的改进,所完成的工作是具有广泛实际需求和深入推广应用价值的。
其他文献
随着电子信息时代的到来,计算机技术和网络技术得到了迅猛发展,国内外大部分公司都逐渐引入办公自动化系统,但是当前企业和公司的网络管理水平相对比较低,管理方法比较混乱,
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘领域产生了许多新概念和方法。特别是最近几
随着我国经济的不断发展,焊接已经成为制造业中非常重要的工艺技术。在我们生活的各个领域所需的产品中,几乎都要用到焊接技术。特别是手工电弧焊因其具有灵活、经济、设备简单
网络技术的快速发展和网络应用的普及给人类生产和生活带来了革命性的变化,这也使得人类面临着一种新的威胁—网络安全。入侵检测技术作为一种必要的安全手段,在网络安全领域
随着多媒体技术的发展和Internet的普及,人们获得各种多媒体信息越来越容易,其中图像是数量最多的一种,如何有效地、快速地从大规模图像数据库中检索出所需要的图像已成为人
随着网络的发展及普及,电子文档正以惊人的速度增长。如何从这些海量信息中快速、准确地提取有价值的信息已经成为人们关注的焦点,这给信息检索技术带来了机遇和挑战,同时也促进
网页是传递信息的重要载体,以网页作为研究对象是现今信息检索与信息抽取研究的必然趋势。鉴于句子既是传递信息的基本单位,又是表达完整意思的语言单位,本文以句子为出发点对网
Internet为商业服务提供了开放、通用、标准的信息基础设施,并由此形成了新的商业模式,例如E-services,E-commerce,B2B,B2C,C2C,Virtual Organizations等。有效发现和整合已
作为当今热门研究领域之一的无线传感器网络技术,由于其日益成熟的技术和广阔的应用市场,越来越受到诸多关注。IEEE 802.15.4是一个低数据率的WPAN(LR-WPAN)标准,具有复杂度
随着数字媒体技术的发展,越来越多的人能够更加方便地接触到数字媒体。多媒体检索的目的是从大量的多媒体资源中自动地查找与用户查询请求相关的各种多媒体信息。电视媒体是