基于主题和结构的XML网页的数据抽取

来源 :华侨大学 | 被引量 : 0次 | 上传用户:rayasoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网正强有力的改变着世界。信息革命不仅极大地改变了人们的生活方式,而且带来了巨大的社会变革。互联网成了一个巨大的信息源,如何在庞杂的数据中准确地抽取出用户想要的信息成为一个非常重要的课题。 随着Web的应用越来越广泛和深入,人们渐渐觉得HTML始终无法满足不断增长的需求,所以制订出了一种新的Web标记语言:XML。随着XML技术的不断发展,Web上出现了一些XML网页。本文针对XML网页,提出了一种基于树结构的Web数据抽取方法。 本文重点研究如何从同一主题的XML网页中抽取出该类主题网页的一般模式,核心技术是通过解析XML文档,按用户主题对解析后的样本XML文档进行模式抽取以及按照模式信息对目标XML文档进行数据抽取。在这里,模式信息实际上就是根据样本文档中符合用户主题的语义块,得到样本页包含相关信息的结构模式,样本页中的所有用户兴趣区域构成一组语义块,通过对语义块的比较和归纳学习,得到我们所需的该类主题的模式信息。然后根据得到的规则,从目标XML文档中寻找与之匹配的信息,抽取出来提交给用户。
其他文献
随着我国经济和社会的不断发展,核电已经成为我国能源战略重要组成部分。但是,单纯引进国外核电软件已不能完全满足我国核电发展的需求。一方面是我国众多的核电站正在使用这些
借助计算机网络提供的营养咨询服务方便、快捷,有利于指导人们的饮食习惯。营养咨询系统能够根据人们的个人情况提供科学的食谱,并且评价食谱。本文的主要内容是关于一个基于
由于K-均值聚类算法对初始点敏感、易陷入局部最小解,一些文献将模拟退火算法与K-均值聚类结合,利用模拟退火算法的全局最优性求解聚类最优。在这些文献中,邻域的搜索都是不
本文重点研究面向多媒体检索领域的视频对象分割方法.在时空对象分割算法方面,提出一种基于区域的时空MRF模型对象分割方法和一种基于区域的层次MRF模型对象分割方法.在基于
软件复用是解决软件危机的比较现实可行方法之一,为了充分利用可复用构件,完成大量构件的分类、检索、维护和集成,构件库系统的研究及相关工具相当重要。 本文首先介绍了
随着Internet的蓬勃发展,电子商务也在迅速崛起。B2C成为非常重要的电子商务模型。市场是人们为了进行交易而进行集会的地方。电子市场的意义在于用Internet上的电子交易代替
网格计算作为一种提供高性能计算、管理和服务的新技术,已经得到了越来越多的关注。而调度是网格计算中最基本、最关键,也是最具有挑战性的问题之一,是影响网格计算执行效率
随着网络的普及与快速应用的发展,远程教育成为当前教育领域一个十分热门的研究方向,由于远程教育无地区限制、无师资及场所限制,可以预见,远程教育将成为教育模式中的重要一环,但
济南大学信息学院电子信息系和网络中心作为济南大学通信技术、网络技术、电子技术等新技术、新业务的教学基地和实验基地,于2001年正式研究开发教学用的基于DSP的IP电话
传统的入侵检测方法主要是误用检测和异常检测,在入侵检测系统中广泛使用,但其在应用中存在着维护困难、误报率高、报警的可靠性比较低等问题。这些问题出现的原因在很大程度