基于神经网络的Web信息抽取系统的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:racheal2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,Web已成为最重要的知识库之一。对这些知识进行高效快速的抽取并加以利用,具有良好的应用前景和应用价值。Web信息抽取的目标是从多个异构的Web站点中定位和识别感兴趣的信息,并将抽取结果以统一的结构化形式表示。Internet上的Web页面固有的数量巨大、异构且动态变化的特点,给Web信息抽取带来了复杂性、可扩展性和适应性等问题。本文在分析半结构化文档特点的基础上,提出基于BP神经网络的Web信息抽取系统框架结构。系统采用XML作为Web页面的表示模型,利用BP神经网络进行规则学习。系统包括几个知识库以及网页预处理、规则学习和信息抽取三个子模块,分别从语义内容表示、逻辑结构、规则生成以及抽取结果四个层面对Web页面进行描述。本文的工作重点是基于BP神经网络的规则学习方法,规则的表示结合网页的路径特征、左右边界特征和语义特征来定义。神经网络将样本集中过滤后的DOM树的标签元素作为网络的输入,标注抽取结果作为理想输出,通过反向传播学习算法对网络进行训练。训练结束后,根据规则学习算法学习生成简单、健壮的规则库,以供信息抽取模块使用。实验表明,系统可以对感兴趣领域进行抽取规则学习,具有良好的可扩展性和适应性。
其他文献
随着信息技术、网络技术的飞速发展,校园网的应用越来越广。校园内可以接入互联网的计算机的数量已经达到了相当的规模。校园网内已经有一些站点向校内的师生员工提供多样化的
报表可从海量的数据中提取有用的信息,清晰直观地呈现给管理人员或操作人员,以协助进行日常管理工作,规范生产活动。报表作为信息提取和显示的重要方式,已经得到广泛的使用。
随着多媒体技术、网络技术的迅速发展,图像信息的应用日益广泛,对规模越来越大的图像数据库中的可视信息进行有效管理成为迫切需要解决的问题,基于内容的图像检索是解决这一问题
软件的规模和复杂度不断增加,使得软件开发面临巨大的挑战.软件复用被视为解决软件危机、提高软件生产率和质量的可行途径.相比较而言,设计模式是高层次的软件复用,也更加切
随着无线通信技术、感知识别技术的发展,越来越多的研究者开始关注于客观世界物品与物品之间信息的通信与交换,物联网的概念也随之被提出。物联网融合了现存的互联网、移动通信
随着网络的不断普及,流数据处理逐渐受到关注,流数据中的聚合计算也越来越重要。在传统数据库管理系统中,聚合函数定义为对一组值进行计算,并返回单个值的函数。在本文的研究中,我
传统基于角色访问控制(Role-Based Access Control,RBAC)系统的授权管理工作主要在于安全管理员为用户分配和撤销角色。当系统的用户数量不断增加时,用户-角色分配和维护的工
随着我国民航事业的发展,空中交通管制的需求越来越复杂,数据量也越来越大。为了适应巨大的数据量需求,目前的空中交通管制系统的系统结构可能会向集群系统结构发展。由于空中交
随着Internet的迅速发展,开发基于Browser/Server的服务器端的程序已经成为Web应用程序开发的重点。虽然现在应用EJB平台开发应用软件可以满足程序开发的需要,但由于在开发期
用户管理一直是网络信息系统的关键,对访问企业信息系统的用户的管理是否有效直接涉及到企业信息的安全性问题,所以对访问用户的管理一直备受企业关注。企业对访问应用系统的