基于多特征的网页信息抽取技术的研究与应用

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户：junlintianxiap

【摘要】

：

随着Internet的高速发展,互联网上的信息越来越多,呈现爆炸式增长,以互联网信息为数据基础的云计算和大数据分析技术随之兴起。然而,在互联网上所有的网页不仅含有重要信息,

【作者】

：

陈屹

【机构】

：

中国海洋大学

【出处】

：

中国海洋大学

【发表日期】

：

2015年期

【关键词】

：

信息抽取 DOM分析视觉特征信息形式化组织描述

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的高速发展,互联网上的信息越来越多,呈现爆炸式增长,以互联网信息为数据基础的云计算和大数据分析技术随之兴起。然而,在互联网上所有的网页不仅含有重要信息,同时也包含了与主题信息、无关的噪声信息、,比如广告信息,导航栏等。它们严重影响了信息抽取的准确性,因而网页信息抽取技术的研究应运而生,成为研究的热点。另一方面,在现有的网页信息抽取方法中,其重点在于区分页面的重要信息和噪声信息,提高重要信息抽取的准确性和效率性,但对于抽取后网页信息数据却缺乏形式化组织,导致获取的重要信息相互杂糅在一起,形成了无法区分的整段信息,无法对重要信息再进行分类,导致抽取的网页信息粒度较粗,在后续应用中可用性较差。本文介绍了网页信息抽取技术的发展、原理和相关技术,深入讨论了现有网页信息抽取技术,重点研究了VIPS算法。本文主要研究点如下：(1)针对现有网页信息形式化组织的缺乏,本文提出了一种网页信息形式化描述,在清除了网页噪声信息的基础上,将原有网页重要信息、的粗粒度进行细分,针对互联网中比重最大的门户类网站,我们将网页重要信息描述为主题,发表日期,浏览次数,正文信息、,多媒体信息,评论信息等形式化结构,同时为每部分形式化描述设置不同权重,根据信息抽取结果中是否存在相应部分来判断单个网页的信息、抽取的准确性。同时抽取的重要信息通过形式化描述进行了细化,形成了更加规范和严格的数据组织形式,为以后的数据分析和其他应用提供了更高的可用性。(2)针对现有信息抽取算法对本文提出的网页信息形式化组织支持方面的缺乏以及现有抽取技术的不足,本文提出了一种针对网页信息形式化组织的基于VIPS算法改进的网页信息抽取技术。本技术结合了DOM结构和视觉特征两方面,采用自上而下,逆序解析DOM结构,同时利用视觉特征和DOM结构特征作为信息抽取的依据,将标签分块和视觉分块相互结合,同时根据网页信息的形式化描述结构对块进行分类,对于同属一个形式化描述结构的相似块,根据其标签路径等特征对相似块进行合并,最终将网页抽取的重要信息根据其形式化描述分成不同块,此技术综合了网页DOM结构和视觉特征的优势,提高了网页信息抽取的准确率最后,将本文提出的信息抽取方法与其他传统的信息抽取算法进行了比较,并将其抽取结果应用于提出的网页信息形式化组织。经过仿真实验表明,本文提出的网页信息形式化描述更规范,更有利用价值,同时提出的方法抽取信息、具有更高的分类准确性。最终我们将其在现有的传统网页移动化系统中进行了应用试验,实例是基于青岛某大学的PC网站设计的移动校园网站,该移动网站主要用于在移动设备上访问,包括Android以及iOS等智能终端,较好的提高了网页信息重组后的用户体验,取得了比较理想的实验效果。

其他文献

关联规则挖掘技术在税收执法管理中的应用研究

应用数据挖掘技术，加强税收数据进行分析，为税务系统强化科学管理提供有价值的决策信息，已经成为当前税务系统的一个研究热点。本文针对当前税收执法管理工作中存在的不足，结合税

学位

数据挖掘关联规则SAVM算法税收执法管理

基于分布式事务流数字化档案加工系统的研究与实现

随着科学技术的发展，全球信息化时代的全面到来，数字化科技将为未来社会建立起“数字世界新秩序”，数字化信息将成为人类社会的重要支柱之一。在数字全球化的大环境下，传统的档案

学位

分布式事务流数字化档案排队数学模型多队列算法加工流程

VOD应用中的图像压缩算法研究与实现

随着计算机网络技术和计算机通信技术的迅猛发展，使人们对网络上提供的高质量视频/音频等多媒体服务的需求越来越大。以视频点播（VOD）为核心的各种网络应用和信息服务将成为人们

学位

视频点播系统小波变换运动估计多媒体传输图像压缩

JPEG图像的透明安全性研究

随着多媒体技术和网络技术的发展,多媒体信息的机密性和真实性越来越受到人们的重视。但是在对数据进行保护的时候往往却忽略了多媒体数据本身的特点,如文件格式、码流结构、

学位

透明JPEG加密认证密钥管理

一种改进的支持向量机在手写体汉字识别中的研究与应用

模式识别是一种人工智能信息处理技术,在近年来广泛应用于文字、指纹和遥感图像识别等领域。模式识别大致分为三个过程:预处理、特征提取、识别。预处理完成的是前期工作,对

学位

模式识别预处理特征提取分类器支持向量机遗传算法正态树手写体汉字识别

分布式存储系统中的资源定位与数据存储技术研究

在计算机网络中存在着大量空闲的存储资源，例如台式机、服务器、工作站等，虽然这些节点的计算与存储能力各异，但都可以向其他节点提供一定的共享存储空间，并且这些节点也可能成为

学位

分布式哈希表分布式存储负载均衡数据存储资源定位节点异构性对等网络

网站内容防护系统的设计与实现

随着计算机网络技术的迅速发展，计算机网络无所不在地影响着社会的政治、经济、文化、军事等各个方面。大多数的企业、政府部门与机构都在充分利用网络，组建和发展自己的网站来

学位

内容防护Hash算法一致性检查

基于UML模型的企业级J2EE Web应用代码自动生成系统的研究与实现

计算机的广泛应用和Web技术的快速发展使人们进入了互联网时代,为人们的生产生活提供了极大的便利。与此同时,J2EE Web技术的广泛应用,推动厂互联网技术的进步。人们在享受We

学位

自动代码生成UML可视化可定制模板元数据

Web图像搜索中的内存索引与融合聚类技术研究

随着计算机技术的发展和网络带宽的提高，Web上图像资源变的越来越丰富，它们被大量的内嵌在网页中，构成了一个庞大的“Web图像数据库”。Web图像检索致力于解决从纷繁复杂的Web上

学位

图像搜索内存索引融合聚类技术近似匹配算法

基于人工免疫系统的蠕虫检测与响应技术研究

计算机蠕虫这种自传播的恶意程序近来对Internet产生了巨大的威胁,同时它们的传播和感染能力还在不断地提升。在这种频繁攻击的环境下,仅仅使用传统人工补丁的方法来保护系统

学位

蠕虫人工免疫系统T细胞肯定误判模拟

基于多特征的网页信息抽取技术的研究与应用

与本文相关的学术论文