Web信息集成系统COMMIX中基于显示属性的网页信息提取子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：sky_xuky

【摘要】

：

随着Internet的快速发展和网络信息量的增长，Web信息已经成为当前人们生活必不可少的信息源。为了在Web这个大的信息库中查找、获取我们感兴趣的信息，我们通常的方式使用搜索引

【作者】

：

汪建伟

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2007年期

【关键词】

：

Web信息集成 COMMIX 网页信息提取 DOM 显示属性特征属性集 Wrapper

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的快速发展和网络信息量的增长，Web信息已经成为当前人们生活必不可少的信息源。为了在Web这个大的信息库中查找、获取我们感兴趣的信息，我们通常的方式使用搜索引擎来查找相关信息。如Google，百度等。但是这种基于关键字的搜索查询方式又不足以反映用户的查询需求。 Web信息的提取和集成系统把网页中的信息从无结构化，半结构化数据中提取出来，集成到XML或者关系数据库中，提供结构化查询、数据挖掘和其他信息服务。其中，信息提取技术(Information Extraction)是Web信息提取和数据集成系统的基础。其工作就是从Web网页中提取出系统需要的数据，并将其赋予一定的数据模式，提供给数据集成系统。但是，HTML网页的半结构化、异构、多变等特点为网页信息提取带来很大困难。网页信息提取在理论和应用上都有重要的研究意义，已经成为近年来信息领域的研究热点之一。本文在深入分析国外相关研究工作的基础上，提出了一种新的网页信息提取方法，主要包括提出了基于显示属性的网页信息提方法，设计了基于该方法数据结构和算法，设计并实现了基于该方法的面向内容的海量Web信息集成系统COMMIX(Content-Oriented Massive inforMation Integration based on XML)中的网页信息提取子系统，为准确有效的Web信息提取、集成和综合服务奠定基础。此方法的创新之处包括：设计并实现了基于显示属性的网页信息提取方法，通过网页DOM(Document oNect Model)文本结点的显示属性来提取网页中的信息，提供了一种网页信息提取的新思路。与基于字符流和结构的提取方法比较，该方法具有操作的简易性和较强的适应性，对网页结构依赖较少。将分类算法引入到了网页信息提取的领域，通过分类算法来提取网页中的信息。提出并实现了一些优化策略：改进了属性获取的方法，设计了特征属性选择的方法，提高了提取的效率，降低了在提取过程中人工的参与量。此方法已经在973国家重点基础研究发展规划课题的原型系统COMMIX的提取子系统中实现。我们通过实验证明，该方法能够快速、准确地提取出网页中的信息，对网页结构的依赖性小，有很高的易用性、健壮性和扩展性。

其他文献

面向控制器的DNC系统的设计与实现

随着数控加工技术的发展,数控设备在制造业中的应用越来越广泛,数控设备的统一调度与管理成为急需解决的问题。DNC是实现车间制造自动化的行之有效的途径,它是由DNC主控机、

学位

DNCRCS文件传输和管理远程监控在线加工日志存储

保证型QOS服务CSBP控制技术研究

服务质量是近几年的研究热点。IETF提出的集成服务和区分服务模型在保证用户的服务质量方面各有优缺点。本文结合集成服务和区分服务的优点，进行Internet保证型服务的研究。主

学位

服务质量

基于J2EE的农产品物流配送信息系统的设计与实现

互联网和现代信息技术的飞速发展为现代农产品物流注入了新的活力，带来了巨大的发展机遇和挑战，促进了现代农产品物流的大发展。尽管目前农产品物流配送企业普遍采用了计算机进

学位

J2EE平台农产品物流配送信息系统功能模块数据库

社区综合信息决策支持系统CODSS中数据集成子系统Panorama的设计与实现

深圳市南山区社区综合信息决策支持系统CODSS是深圳市南山区政府委托深圳市高正软件有限公司开发的一套电子政务系统。该系统通过综合信息服务平台、社区综合信息管理平台、

学位

数据集成本体本体映射社区领域语义查询决策支持系统电子政务

无线mesh网络MEMO系统及其面向流媒体的SRAM框架设计与实现

无线Mesh网络(Wireless Mesh Network，WMN)作为一种无线多跳的组网方式有着广阔的应用前景。使用WMN网络技术，用户可以不依赖于现有的网络基础设施，用较低的成本快速部署一个可

学位

实时应用带宽估算准入控制流量控制无线mesh网络MEMO系统流媒体SRAM框架

搜索引擎中Transcoding构件自动化测试工具集设计与实现

近年来，随着网络技术的不断发展和网络数据的迅猛增长，用户对搜索引擎的要求也越来越高，希望对于搜索到的文件，不必安装相应的阅读软件，就可以打开并使用。目前，为了解决这一问

学位

搜索引擎Transcoding构件软件测试测试自动化自动化测试工具网络技术

基于遗传编程的拥挤场景的视频异常行为检测

视频中的异常检测是一项极具意义和挑战性的工作,不仅在日常的监控系统中有很大的应用价值,在计算机视觉中也是研究的重点,而现实生活中的监控场景大都是拥挤场景,例如车站,

学位

视频分析遗传编程异常检测特征提取分类

面向Web Services的构件信息收集工具的设计与实现

面向Web Services的构件信息收集工具的设计与实现软件构件库为软件开发人员查找合适的构件提供了便利。目前软件构件库主要采用由构件开发者发布的方式来收集构件。而构件开

学位

软件复用软件构件库构件收集Web Services构件验证通用搜索引擎

基于Android平台的恶意软件检测和软件加固技术研究

随着智能手机技术的发展,人们越来越多地把工作和生活的计算平台从传统的PC平台转移到移动平台。智能手机储存了大量的用户隐私,例如通信记录、位置信息等,因而成为攻击者的

学位

Android恶意软件检测软件加固

面向过程模式的过程度量和分析支持工具的设计与实现

量化的软件过程管理方法对于提高过程成熟度和软件产品质量起到了重要的作用，并且已经被业界广泛的接受。现有的方法存在下述问题：需要为每个过程独立的制定其度量策略，成本很高

学位

软件过程管理过程度量过程模式统计过程控制信息提取

Web信息集成系统COMMIX中基于显示属性的网页信息提取子系统的设计与实现

与本文相关的学术论文