面向主题的XML网页的模式和数据抽取

来源 :华侨大学 | 被引量 : 0次 | 上传用户:dddnnn111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅速发展使得网络上的信息量大大增加,为用户提供了一个极具价值的信息源,但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。如何快速、准确的从浩瀚的信息资源中寻找到所需信息己经成为困扰网络用户的一大难题。 随着XML技术的不断发展,WWW上出现了一些以XML作为标记语言的Web网页,本文针对XML网页,提出了一种面向特定主题的信息抽取方法。它根据用户给定的查询主题及其属性,提出一种从样本网页集中抽取出模式信息的方法,然后利用这个模式信息对处理过的目标XML网页进行匹配查询,最终从这些目标网页中利用所提出的模式匹配算法抽取出用户所需的数据。 本文首先对Web信息抽取的发展情况进行了综述,然后重点讨论了针对某一主题的XML文档的分析和抽取方法及实现,以及今后的发展趋势,最后利用一个实例进行了实验,实验结果表明系统达到了较高的精确度,得到了比较全面的信息,从而较好地实现了系统预期要到达到的完整性和准确性要求。
其他文献
信息技术的飞速发展给现代教育带来了新的机遇和挑战,这也为解决目前人们广为关注的学生心理健康教育问题提供了新的途径。教育虚拟社区,作为一种基于网络的虚拟教学环境,比一般
本文作者在实习单位一直从事企业模型理论的研究、参与新一代企业建模工具的总体设计和应用。企业本身就是一个复杂、动态的过程,而且各具个性化,对于这种要构造一门关于复杂系
  随着科学技术的飞速发展,人类通过各种航空航天遥感获得了大量影像数据,如何有效地组织、存储、显示、分析和共享这些数据直接关系到国家基础空间信息资源的建设和有效利用
随着计算机网络结构的日益复杂,大规模、分布式高速网络的大量应用以及网络入侵技术的发展,整个网络所面临的安全威胁日益严重。入侵检测系统以其内在的优点已成为网络安全的重
由于计算机处理能力的不断增强,国内外CAD技术的飞速发展,CAD技术被广泛应用于众多领域。随着声表面波传感器技术的不断发展,声表面波传感器将应用于越来越广泛的学科领域。
图像的放大和缩小作为一种基本的图像处理技术,在实际中有着很广泛的应用。如在医学、公安、航天等系统中,常常需要一种有效且高质量的放缩算法来改变已有图像的大小;在视频会议
校园网作为学校教学和科研的一个重要平台,在学校的教学、科研和日常工作中起着越来越重要的作用,一个学校的实力怎样,往往可以通过学校校园网的建设与使用情况得到体现,校园网的
本文对移动互联网智能翻译技术进行研究,内容如下:第二章WAP协议与ANL规范综述,介绍WAP网关翻译系统的技术背景,包括WAP协议、WL语言、WL语言,以及它们之间的关系。第三章WAP网关
网格环境下的数据管理与传统的分布式环境下的数据管理不同:数据库大多是一些比较大型的数据库系统;这些数据库往往多是动态性的,具有自治性和分布式的特点。为了解决网格上
科学计算可视化是发达国家20世纪80年代后期提出并发展起来的一个新的研究领域,它是运用计算机图形学及图像处理技术,将科学计算过程中及计算结果的数据转换为图形及图像在屏幕