基于XML的Web信息抽取的研究和应用

来源 :贵州大学 | 被引量 : 0次 | 上传用户:ZWDragon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,互联网产生了海量的Web信息。尽管通过Web页面可以查询几乎所有领域的知识信息,但是由于由HTML构成的Web数据是一种半结构化的数据,使得该类型页面只能方便于人们的浏览,而一些应用程序却无法直接解析并且利用这些资源。因此,为了增强Web数据的可利用性,Web信息抽取技术成为倍受关注的数据库研究领域之一。  Web信息抽取系统,主要是将由HTML文档构成的半结构化Web数据,转换成严谨的结构化数据,从而为应用程序提供数据源。本文采用的基于XML的Web信息抽取技术,利用的正是数据交换的公共语言XML作为抽取工具。  本文首先对Web信息抽取的基本概念做了简要的介绍,给出了信息抽取的定义,并与日常提到的信息检索进行对比分析;详细介绍了当前Web信息抽取技术所采用的方法,对这些方法进行了分类比较;并对未来Web信息抽取技术可能的发展方向进行了展望。  其次,本文给出了基于XML的Web信息抽取流程,把采用的XML,XSL转换与XPath定位等技术与各流程的具体实现相结合,重点给出了页面的清理规则和一种基于二叉树结构的转换算法。  最后,为了满足不同Web页面下的信息抽取,本文提出了一种可伸缩性的Web页面信息抽取的实现方法。设计了由人工编写XSLT转换文档的手动信息抽取和基于分块树模型的全自动信息抽取的解决方案。通过理论分析和实验证明,上述方法能够有效地实现Web信息抽取。
其他文献
随着信息网络技术的广泛普及,各种网络应用不断深入,从传统的小型业务系统逐渐向大型的关键业务系统扩展。全球化的网络结构已经打破了传统的地域限制和办公方式。今天,跨区域工
星敏感器是一种高精度的姿态确定仪器。在过去大约30年时间里,已经研制了两代CCD星敏感器。第二代星敏感器由于指向精度高、无姿态累计误差、快速的故障恢复能力和完全自主的
系统生物学的发展使得生物建模和计算机模拟成为生物过程模拟中越来越重要的手段,可以有力地支持生物学家及其他研究人员在医学和制药等领域的研究。将生物实验的机理抽象转
随着计算机技术的快速发展,网络安全受到了前所未有的考验。缓冲区溢出攻击是威胁计算机安全的主要攻击方式。此类攻击数量繁多、危害性大,因而对缓冲区溢出问题的研究有着深
随着金融业务的发展,业务变化越来越频繁,仅依赖业务专家总结业务规则的速度已经难以跟上业务变化的速度,采用数据挖掘的方法辅助业务规则快速发现和验证具有重要的实际应用
随着网络技术的发展,论坛开始出现并迅速的发展壮大。目前,论坛几乎覆盖了我们日常生活和工作的各个领域,经过数年的发展和累积,论坛中蕴涵着数量巨大且质量较好的知识资源。
FAS为薄膜太阳能电池板制造业提供了一整套工厂自动化解决方案。FAS由可视化图形界面系统、制造执行系统(MES)、设备自动化平台(EAP)组成。本文所讨论的设备自动化系统是基于EAP实现的,通过设备自动化系统使得工厂中所有的设备都在FAS的控制和协调下工作,以降低成本和提高生产效率。本文对设备自动化系统中的关键设备Laser Scribe进行了研究与实现。首先分析了Laser Scribe提供的自
随着大幅面彩色扫描仪和喷绘机的广泛应用,以及嵌入式技术的迅速发展,利用嵌入式系统来控制大幅面扫描仪和喷绘机协同工作就成为可能。本文以实现大幅面扫描仪和喷绘机的协同
移动Ad hoc网络作为一种新型无线通信网络,已经引起了人们的广泛关注。但同时它又是一个复杂的网络,所涉及的研究内容非常广泛。作为一种新型的网络,还有很多方面不够完善,新
近年来,P2P网络安全问题得到了工业界和学术界越来越多的关注,解决该问题的主要方法是在P2P网络中建立信任机制。目前,如何在P2P网络中识别出恶意节点,抑制和杜绝节点的恶意