面向数字旅游网页的Web信息抽取技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liongliong492
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来Web发展迅速,将Web作为信息源的Web信息抽取也成为数据挖掘研究的一个重点。对Web信息抽取的研究已经取得了显著的成果,提出了各种各样Web信息抽取的方法,同时Web信息抽取技术的应用领域也十分广泛。本文主要将Web信息抽取技术应用在数字旅游网页上,抽取出用户所关心的信息。目前Web上的数据主要是用HTML语言描述的半结构化的数据,这些数据适合在浏览器上浏览,但是应用程序无法直接解析。本文通过对现有信息抽取技术的深入分析和研究,提出了一种基于DOM的Web信息抽取的方法。通过分析了基于绝对路径和相对路径抽取规则,发现仅仅使用路径这一特征作为抽取规则得到的结果并不是十分理想,由此提出了本文的特征比较法的信息抽取规则。本文最后设计并实现了一个基于DOM的Web信息抽取系统,该系统首先将HTML网页解析成XML DOM树,通过规则学习阶段完成抽取规则的生成,并将抽取规则存入规则库,最终获得抽取后的文档并存入关系数据库中。实验结果证明,本文提出的Web信息抽取的方法取得了较好的抽取结果,并且具有较高的查准率和召回率。
其他文献
自从互联网开始变革,博客也跟随慢慢崛起,并以惊人的速度发展,到目前为止,博客用户更是达到上千万人。博客已成为人们工作生活必不可少的工具,用户数量的剧增,发表的博客自然也会增
分布式查询处理技术无论在传统分布式数据库环境下还是在数据库网格环境下都是难点问题,而网格环境又具有其特殊性。目前,对网格环境下的查询处理技术的研究和成果较少。本文在
虽然人类基因组计划已经完成并取得了巨大成功,但是遗传疾病致病基因的预测是仍然人类健康领域面临的重大挑战之一。寻找遗传疾病的致病基因在改善医疗护理和理解基因功能等方
拓扑蛋白质组学是蛋白质组学一个崭新的研究方向。MELK技术是拓扑蛋白质组学中的关键技术。多肌炎是自身免疫性结缔组织疾病,特点是肌组织出现炎症导致对称性肌无力和一定程度
传统的机器学习方法假设训练集和测试集来自同一分布的样本集,如果实验数据的分布改变了,需要重新标注新样本作为训练集建立统计模型,然而标注新样本的代价通常很高,采用迁移学习
信息系统安全的紧迫性和网络通信安全的重要性使人们越来越对分组密码的相关理论感兴趣,分组密码的设计与分析也一直是密码学中的热点课题。分组密码作为现代密码学中的一个重
网络钓鱼攻击主要是通过邮件方式传播的,大量的网络钓鱼攻击使得用户遭受到巨大的经济损失。巨额的损失导致用户不信任网上银行和电子商务网站,并严重影响到电子商务的发展。
在许多真实的网络中都存在模块或社区。社区的检测是社会网络学习的重要的课题,对于我们了解社会网络的内部关系和结构,进而应用到与社会网络相关的很多领域都有重要的意义。传
词语是构成文本的最小语义单元,很多自然语言处理任务都会涉及词语表示的问题。词语表示的方法最常见的是独热表示.然而此方法存在稀疏问题,且不能捕捉词语间的语义联系。以
随着信息技术的不断发展以及软件系统规模的不断扩大,开发大型软件系统所耗费的时间和成本也不断增加。而人机界面设计在软件开发中变得越来越重要,同时也变得越来越复杂,成为制