论文部分内容阅读
知识发现和数据挖掘是人工智能、机器学习、数据库和统计理论等相结合而形成的新的研究与应用领域,序列模式发现是数据挖掘的一个重要分支,具有广阔的应用前景。随着信息技术日新月异的发展和应用,从更大规模数据中高效地提取序列模式已经成为一挑战。本文将具有坚实的理论基础、完备的结构以及并行性特征的概念格模型引入到序列模式挖掘中,以实现当前大规模分布式数据的序列模式挖掘。主要工作如下:(1)概述了知识发现和数据挖掘的研究动态,相关的数据挖掘技术及应用,以及几种典型模式发现问题。(2)分析了AprioriAll算法、GSP算法和PrefixSpan算法等几种经典序列模式挖掘算法,并做了必要的比较。介绍了概念格的模型以及基于概念格的序列模式的数据挖掘研究成果和性能。(3)针对当前的数据库的大规模现象,基于子全概念的概念格构造算法SEA,提出一种新的基于分布式概念格的序列模式挖掘算法,以实现大规模数据的频繁序列模式挖掘。(4)针对序列模式的可信度的评价展开研究,提出了挖掘满足支持度条件的有高可信度的序列模式的算法。研究了先清理(取高可信度)数据库再挖掘满足高支持度的序列模式,以及先挖掘满足高支持度的序列模式,再清理两种不同方式,结果表明第一种方式效率高。