一种基于前缀表达式的Web信息抽取方法的关键问题的实现

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:gaolch003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网的迅猛发展,引起了Web数据的急速膨胀。面对泛滥的海量Web信息,“富数据,贫知识”的现象引起了越来越广泛的重视。为了解决这个矛盾,信息抽取技术应运而生了。目前已投入使用的大部分的Web信息抽取方法均是针对某一个特定的网站进行包装器的人工定制,明显地,这不能适应程序的迁移或原网页结构的变化。在深入研究以上问题的基础上,为了达到自动抽取的目的,本文结合同一域名下同类同层的Web页面的特征,提出了一种基于前缀表达式的Web信息抽取方法。本文的主要工作有以下两点:(1)提出并实现了一种基于DOM树比较的网页去噪方法。首先本文通过比较两个随机页面,寻找到备选的噪音节点;其次通过更多页面的筛选,过滤掉一部分被误判的噪音;最后通过检查噪音所在的区域,确定噪音节点的最终集合。本文在做信息抽取以前,通过把每个页面中包含的噪音节点去除,从而提高了程序的执行效率和准确性。(2)提出并实现了一种基于前缀表达式的Web信息抽取的方法。首先本文随机寻找一部分样本页面,找到每个页面的前缀表达式队列;其次通过每个不同的前缀表达式队列的权重决定最终的前缀表达式队列;最后用前缀表达式队列来做信息抽取。本文采用的方法在获取前缀表达式的时候,不需要用户参与,这提高了程序的自动性。本文提出的方法不需要关于目标页面或者目标内容的任何先验知识,如页面的布局结构、页面的样式效果、页面的数据主题等;不需要用户指定特殊的训练样本或者提供带标注的源码,而是随机抽取样本;在抽取过程中不需要用户的参与,仅需要用户观察被抽取出的字段。在一定程度上,这些特点提高了程序的自动化程度,改善了程序的健壮性和可扩展性。
其他文献
Napster的问世,创下了半年内注册用户超过5000万的网络奇迹。这一杀手级的P2P应用,向世人展示了P2P技术独特的优越性及蕴藏的巨大潜力。由于在工作模式上具有的优势和对现代网
内容分发网络(Content Distribution Network或Content Delivery Network,简称CDN)是一种基于现有网络的重叠网络系统,它包括若干个分布在网络不同位置的缓存服务器,所有用户
空域管理辅助系统是监视空域范围内的航空器飞行情况的主要工具与航空管制人员制订空域内飞行调配方案的依据。研究基于CBR的空域管理辅助系统,可以为航空管制人员提供辅助存
日常生活和工作中,我们常常需要改变图像的尺寸以满足不同领域及应用的需求。数字图像缩放已成为数字图像处理领域中一个很重要的话题,而图像插值技术则是实现图像缩放的一个
遥感是以航空摄影技术为基础,从20世纪60年代发展起来的一门新兴技术,被广泛应用于气象、测绘、地球资源与环境科学以及农业、林业、地质科学等重大领域。遥感影像解译是将遥感影像数据转化为目标地物信息的过程,可分为人工目视解译、计算机自动解译及人机交互解译三种方式。遥感图像只有经过解译才能应用到不同领域。目前传统的人工目视解译已经无法满足日趋庞大的遥感数据量,利用计算机进行交互解译或者自动解译成为一个必
生物信息学的研究处在一个数据爆炸的时代,近年来在基因组学、代谢组学、转录组和蛋白质组学等领域技术的进步,使得生物学家可以有更多的数据从不同方面对生命体进行分析。基
可信计算平台具有身份证明、完整性检验、数据安全存储等功能。可信平台模块(TPM)是执行可信计算功能的实体。为了配合硬件TPM,可信计算组织提出了可信软件栈的概念。可信软
僵尸网络已经成为当今互联网上最主要的网络攻击平台,可进行分布式拒绝服务攻击、发送垃圾邮件、钓鱼、信息窃取等恶意网络行为。随着僵尸网络的兴起,研究僵尸网络的检测技术
视频目标跟踪是计算机视觉领域的一个核心问题,已经成为各国高度关注的焦点。本文主要研究用于车载红外视频的目标跟踪问题。视频中复杂的背景图像和红外目标本身及其运动情
本文首先对数据库安全进行了研究,然后综述了数据库入侵检测的相关技术,最后针对目前数据库安全系统的特点,分析了传统数据库安全机制的弱点与不足,结合数据挖掘技术、入侵检