论文部分内容阅读
随着Internet的快速发展和网络信息量的增长,Web信息已经成为当前人们生活必不可少的信息源。为了在Web这个大的信息库中查找、获取我们感兴趣的信息,我们通常的方式使用搜索引擎来查找相关信息。如Google,百度等。但是这种基于关键字的搜索查询方式又不足以反映用户的查询需求。
Web信息的提取和集成系统把网页中的信息从无结构化,半结构化数据中提取出来,集成到XML或者关系数据库中,提供结构化查询、数据挖掘和其他信息服务。其中,信息提取技术(Information Extraction)是Web信息提取和数据集成系统的基础。其工作就是从Web网页中提取出系统需要的数据,并将其赋予一定的数据模式,提供给数据集成系统。但是,HTML网页的半结构化、异构、多变等特点为网页信息提取带来很大困难。网页信息提取在理论和应用上都有重要的研究意义,已经成为近年来信息领域的研究热点之一。
本文在深入分析国外相关研究工作的基础上,提出了一种新的网页信息提取方法,主要包括提出了基于显示属性的网页信息提方法,设计了基于该方法数据结构和算法,设计并实现了基于该方法的面向内容的海量Web信息集成系统COMMIX(Content-Oriented Massive inforMation Integration based on XML)中的网页信息提取子系统,为准确有效的Web信息提取、集成和综合服务奠定基础。
此方法的创新之处包括:
设计并实现了基于显示属性的网页信息提取方法,通过网页DOM(Document oNect Model)文本结点的显示属性来提取网页中的信息,提供了一种网页信息提取的新思路。与基于字符流和结构的提取方法比较,该方法具有操作的简易性和较强的适应性,对网页结构依赖较少。
将分类算法引入到了网页信息提取的领域,通过分类算法来提取网页中的信息。
提出并实现了一些优化策略:改进了属性获取的方法,设计了特征属性选择的方法,提高了提取的效率,降低了在提取过程中人工的参与量。
此方法已经在973国家重点基础研究发展规划课题的原型系统COMMIX的提取子系统中实现。我们通过实验证明,该方法能够快速、准确地提取出网页中的信息,对网页结构的依赖性小,有很高的易用性、健壮性和扩展性。