论文部分内容阅读
随着计算机技术、Internet以及数据库技术的飞速发展,各个领域产生的半结构化数据和信息急剧增加。因此,为满足数据挖掘的需求,需要设计出半结构化数据模型,从而能够利用模型来描述和存储半结构化数据的结构信息和内容。同时还要设计出有效的半结构化数据模式抽取算法,从大量半结构化数据中抽取更深层次的用于描述信息、结构和潜在的有利用价值的模式。从而使得半结构化数据就像传统数据库中的数据一样,发现其数据结构和数据对象之间的关系,能够利用数据结构进行有效的操作。本文首先介绍了数据挖掘和Web数据挖掘的相关概念,并对其研究现状和发展做了深入的分析和总结。详细的介绍了半结构化数据的定义、特点以及目前主要的半结构化数据模型,同时阐述了半结构化数据模式抽取的概念。本文采用OEM模型来描述半结构化数据,指出了利用Apriori性质进行剪枝的策略不适用于分支路径中具有相同标签的OEM模型。为减少标签路径表达式的匹配次数,提高算法的效率,本文给出了一个有关OEM模型的性质。在如何存储OEM模型的问题上,本文提出了一种新的存储方式,采用变型的邻接链表存储方式来存储OEM模型,能够有效的提高半结构化数据模式抽取的效率。本文重点研究了两个经典的频繁模式挖掘算法:Apriori算法和FP Tree频繁模式挖掘算法,并对两种算法的优缺点进行了比较。在此基础上,为了快速、有效和准确的得到半结构化数据的目标模式,本文结合标签路径及其相关性质,提出了一种直接从OEM模型中抽取半结构化数据目标模式的算法。算法的基本思想是:采用一次深度优先遍历策略得到所有标签路径表达式,利用本文给出的性质减少匹配次数,生成所有频繁标签路径表达式,最后结合有效的删减策略得到最长频繁标签路径表达式。理论分析和实验结果表明,该算法能够提高目标模式的准确度和执行效率,降低了模式抽取中候选集的规模。