网页中实体表格信息抽取方法的研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:wzllh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,网页的信息量呈指数型增长,逐页浏览信息已经不能满足人们的要求,信息抽取技术应运而生。信息抽取技术使人们不用进一步人工筛选符合自己需求的内容而是直接帮助人们从海量网络数据中获取有价值的信息。网页信息提取技术主要围绕两个方向展开,包装器和结构识别。前者的缺点在于对网页的结构依赖性强,可重用性差,通用性差。本文则是结构识别的一种,该方法对网页中半结构化信息能良好的定位和识别,并且对大多数网页具有通用性,生成的结果能直接应用于本体生成,实用价值高。本文所研究的抽取系统中实现的爬虫是一个增量型的、深度优先爬取的定向爬虫。它通过配置文件来生成爬取任务,一个配置文件对应一个爬取任务。配置文件有特定的格式和配置字段,由人工编辑生成,只需配置大约十多个字段,就可以完成对于特定网站、特定领域、特定主题的内容的定向爬取配置。对网页进行清洗之后,本文针对有<TABLE>标签的表格提出了基于启发式规则的实体定位算法和基于网页URL归类的实体定位算法。基于标签特征、表格结构特征、表格内容特征本文总结了六条规则,依次通过对六条规则生成字符串,然后采用有穷自动机来识别字符串,最后根据停留在不同的状态判断是否是真表格。为提高定位的准确度,本文提出了URL归类实体定位法,通过对URL的类别分类,能将不含有表格的网页去除。这两种方法的结合使得表格定位具有较高的准确度。同时,本文针对有特殊符号的无<TABLE>标签的表格制定了启发式规则,针对用标签组织的无<TABLE>标签的表格提出了基于DOM树和启发式规则相结合的定位方法。在表格结构识别中,本文通过对表格属性名和属性值类型的不同构建了类型树,通过计算单元格之间的类型差异判断出表格的展开方式。同时,本文提出了将表格数字化,通过计算单元格之间长度差异判断出表格的展开方式,将两者判断的结果赋予不同的权值,最终判别出表格为横向展开还是纵向展开。并且本文根据类型差异和结构差异判断出表头所跨越的行数或列数。
其他文献
XML以其强大的功能,在计算机领域得到了广泛的应用,已经成为信息描述和交换的一种标准技术。XQuery被设计用来查询XML数据,树模式查询作为XQuery查询的核心,其查询效率问题成
OLAP(On-Line Analytical Processing)是一种强有力的数据可视化工具,它专门设计各种用于支持复杂分析的操作,使得管理决策人员能够对数据仓库中海量数据进行深入观察。但是,OLA
随着我国计算机网络的快速发展,黑客入侵攻击事件发生的概率随之增大,对网络安全的研究也越来越引起人们的重视。而计算机系统和网络设备上广泛存在的漏洞是成为被黑客攻击的最
关键词检索是互联网中使用最广泛的检索技术之一,也是世界上一些著名互联网站点比如谷歌、维基百科、亚马逊和IMDB等的默认检索方式。传统的关键词检索技术主要是针对无结构化
语音增强技术是进行一系列语音信号处理中的基本问题,是语音处理系统里的核心技术之一。近年来,麦克风阵列语音增强方法由于融合了语音信号空时信息,能够获得较单通道更好的增强
随着信息科学技术的发展,虚拟现实系统中的数据量和计算量正在呈爆炸式增长,传统的依靠本地文件系统和私有协议存储、管理和分发数据的方式已经难以满足快速增长的用户需求。因
在计算机网络高度繁荣的今天,众多的计算机恶意程序时刻威胁着计算机安全。近年来许多已知恶意程序以新变种的方式死灰复燃,而完全未知的恶意程序利用传统恶意程序检测方法响应
随着计算机技术在行业应用中的不断深入,数据库技术和时态信息技术不断获得发展的动力。技术的关注点已从过去的信息记录处理逐步延伸到信息的有效性和时间性。特别是在电信、
近几年来,移动互联网技术和应用快速发展,移动多媒体服务随着智能手机的普及而日益成为人们的新需求。同时,显示技术的不断进步使得智能手机能够支持高清甚至是超高清视频的显示
选举问题主要研究各种不同的选举规则可能带来的不同结果,它是社会选择理论中的一个重要研究方向。在选举理论中,孔多塞提出了用配对的比较结果来描述基于锦标赛形式的选举,并将