基于OEM模型的半结构化数据模式抽取算法研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:xialiaoj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、Internet以及数据库技术的飞速发展,各个领域产生的半结构化数据和信息急剧增加。因此,为满足数据挖掘的需求,需要设计出半结构化数据模型,从而能够利用模型来描述和存储半结构化数据的结构信息和内容。同时还要设计出有效的半结构化数据模式抽取算法,从大量半结构化数据中抽取更深层次的用于描述信息、结构和潜在的有利用价值的模式。从而使得半结构化数据就像传统数据库中的数据一样,发现其数据结构和数据对象之间的关系,能够利用数据结构进行有效的操作。本文首先介绍了数据挖掘和Web数据挖掘的相关概念,并对其研究现状和发展做了深入的分析和总结。详细的介绍了半结构化数据的定义、特点以及目前主要的半结构化数据模型,同时阐述了半结构化数据模式抽取的概念。本文采用OEM模型来描述半结构化数据,指出了利用Apriori性质进行剪枝的策略不适用于分支路径中具有相同标签的OEM模型。为减少标签路径表达式的匹配次数,提高算法的效率,本文给出了一个有关OEM模型的性质。在如何存储OEM模型的问题上,本文提出了一种新的存储方式,采用变型的邻接链表存储方式来存储OEM模型,能够有效的提高半结构化数据模式抽取的效率。本文重点研究了两个经典的频繁模式挖掘算法:Apriori算法和FP Tree频繁模式挖掘算法,并对两种算法的优缺点进行了比较。在此基础上,为了快速、有效和准确的得到半结构化数据的目标模式,本文结合标签路径及其相关性质,提出了一种直接从OEM模型中抽取半结构化数据目标模式的算法。算法的基本思想是:采用一次深度优先遍历策略得到所有标签路径表达式,利用本文给出的性质减少匹配次数,生成所有频繁标签路径表达式,最后结合有效的删减策略得到最长频繁标签路径表达式。理论分析和实验结果表明,该算法能够提高目标模式的准确度和执行效率,降低了模式抽取中候选集的规模。
其他文献
本文研究并设计了一种新型红外瓦斯传感器,应用于煤矿瓦斯监测。采用“非分光红外”(NDIR)技术检测瓦斯具有快速、准确、稳定性高等优点。基于NDIR检测技术设计的瓦斯传感器将
21世纪,我们已经进入了以信息为主体的知识经济时代,信息高速化、便捷化成为各国竞争的焦点之一。在这种形势下,现代国家政务机关不但要加强内部信息资源的有效管理,还应越来越注
随着计算机网络技术的迅速发展,网络攻击手段呈现多元化、复杂化、智能化的趋势,网络的安全问题日益突出,僵尸网络、拒绝式服务攻击(DDos)等安全问题时有爆发。这些安全问题
无线传感器网络是目前受关注的研究领域之一,它涉及无线通信技术、传感器技术、分布式信息处理和微电子技术等学科的综合应用。由于无线传感器网络是一种能源极其受限的网络,
随着信息技术尤其是社交网络的发展,人们对不同风格人脸图像的需求越来越多。消费者经常希望将现实拍摄到的人脸图像同素描风格人脸图像或卡通风格人脸图像进行转换。因此,研究
随着Web Services由技术概念到实践应用的不断发展,网络上出现了很多功能相同或相似的Web服务。如何从众多满足功能需求的Web服务中选择最优的服务,成为Web服务应用的关键问
虚拟手术系统是虚拟现实技术在现代医学中的应用。虚拟手术的最终目标就是在计算机中创建与真实手术完全相同的手术环境和手术过程反映,不但包括皮肤、组织、器官、体液等体内
集中供热已经走进千家万户,供暖质量直接影响着成千上万热用户的生活生产。目前对供暖质量的监测主要基于各个换热站中的控制器获取到的入水、回水管道上的温度数据,监测点极
企业信息系统数据库中积累了大量的历史数据,这些数据不仅占用大量的存储空间。同时使得系统运行不稳定性和不安全性因素增加。但是,这些过期数据不能被轻易地删除,因为这些数据
从互联网的诞生到飞速普及给人类社会的沟通方式和生活方式带来了极大的便利,同时计算机网络体系的高速发展和快速壮大也为计算机病毒的生存传播提供了坚实的基础和广阔、有