Web信息集成系统COMMIX中基于显示属性的网页信息提取子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:sky_xuky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展和网络信息量的增长,Web信息已经成为当前人们生活必不可少的信息源。为了在Web这个大的信息库中查找、获取我们感兴趣的信息,我们通常的方式使用搜索引擎来查找相关信息。如Google,百度等。但是这种基于关键字的搜索查询方式又不足以反映用户的查询需求。 Web信息的提取和集成系统把网页中的信息从无结构化,半结构化数据中提取出来,集成到XML或者关系数据库中,提供结构化查询、数据挖掘和其他信息服务。其中,信息提取技术(Information Extraction)是Web信息提取和数据集成系统的基础。其工作就是从Web网页中提取出系统需要的数据,并将其赋予一定的数据模式,提供给数据集成系统。但是,HTML网页的半结构化、异构、多变等特点为网页信息提取带来很大困难。网页信息提取在理论和应用上都有重要的研究意义,已经成为近年来信息领域的研究热点之一。 本文在深入分析国外相关研究工作的基础上,提出了一种新的网页信息提取方法,主要包括提出了基于显示属性的网页信息提方法,设计了基于该方法数据结构和算法,设计并实现了基于该方法的面向内容的海量Web信息集成系统COMMIX(Content-Oriented Massive inforMation Integration based on XML)中的网页信息提取子系统,为准确有效的Web信息提取、集成和综合服务奠定基础。 此方法的创新之处包括: 设计并实现了基于显示属性的网页信息提取方法,通过网页DOM(Document oNect Model)文本结点的显示属性来提取网页中的信息,提供了一种网页信息提取的新思路。与基于字符流和结构的提取方法比较,该方法具有操作的简易性和较强的适应性,对网页结构依赖较少。 将分类算法引入到了网页信息提取的领域,通过分类算法来提取网页中的信息。 提出并实现了一些优化策略:改进了属性获取的方法,设计了特征属性选择的方法,提高了提取的效率,降低了在提取过程中人工的参与量。 此方法已经在973国家重点基础研究发展规划课题的原型系统COMMIX的提取子系统中实现。我们通过实验证明,该方法能够快速、准确地提取出网页中的信息,对网页结构的依赖性小,有很高的易用性、健壮性和扩展性。
其他文献
随着数控加工技术的发展,数控设备在制造业中的应用越来越广泛,数控设备的统一调度与管理成为急需解决的问题。DNC是实现车间制造自动化的行之有效的途径,它是由DNC主控机、
服务质量是近几年的研究热点。IETF提出的集成服务和区分服务模型在保证用户的服务质量方面各有优缺点。本文结合集成服务和区分服务的优点,进行Internet保证型服务的研究。主
学位
互联网和现代信息技术的飞速发展为现代农产品物流注入了新的活力,带来了巨大的发展机遇和挑战,促进了现代农产品物流的大发展。尽管目前农产品物流配送企业普遍采用了计算机进
深圳市南山区社区综合信息决策支持系统CODSS是深圳市南山区政府委托深圳市高正软件有限公司开发的一套电子政务系统。该系统通过综合信息服务平台、社区综合信息管理平台、
无线Mesh网络(Wireless Mesh Network,WMN)作为一种无线多跳的组网方式有着广阔的应用前景。使用WMN网络技术,用户可以不依赖于现有的网络基础设施,用较低的成本快速部署一个可
近年来,随着网络技术的不断发展和网络数据的迅猛增长,用户对搜索引擎的要求也越来越高,希望对于搜索到的文件,不必安装相应的阅读软件,就可以打开并使用。 目前,为了解决这一问
视频中的异常检测是一项极具意义和挑战性的工作,不仅在日常的监控系统中有很大的应用价值,在计算机视觉中也是研究的重点,而现实生活中的监控场景大都是拥挤场景,例如车站,
面向Web Services的构件信息收集工具的设计与实现软件构件库为软件开发人员查找合适的构件提供了便利。目前软件构件库主要采用由构件开发者发布的方式来收集构件。而构件开
随着智能手机技术的发展,人们越来越多地把工作和生活的计算平台从传统的PC平台转移到移动平台。智能手机储存了大量的用户隐私,例如通信记录、位置信息等,因而成为攻击者的
量化的软件过程管理方法对于提高过程成熟度和软件产品质量起到了重要的作用,并且已经被业界广泛的接受。现有的方法存在下述问题:需要为每个过程独立的制定其度量策略,成本很高