论文部分内容阅读
序列模式挖掘就是从给定序列数据库中发现频繁的子序列作为模式。它是数据挖掘领域的重要分支,具有广泛的应用场景,例如序列分类和预测,识别Web日志中的访问模式,生物序列分析以及自然语言分析。研究者们对序列模式挖掘有着深入的研究,主要包括一般序列模式挖掘、精简序列模式挖掘和兴趣度序列模式挖掘。闭合序列模式挖掘和序列生成器挖掘是两种最重要的序列模式挖掘方法,这是由于它们生成的模式是一般序列模式的精简且无损的表示,因此成为序列模式挖掘研究中的热点问题。然而,现有的闭合序列模式挖掘和序列生成器挖掘算法,当使用的最小支持度较小或给定的序列数据库较稠密时,会产生指数级的模式,其中含有大量的冗余模式。由于生成的结果集容量过大而无法有效用于序列分析和预测。这已成为精简序列模式挖掘的难点问题。此外,算法中剪枝、生成和维护等过程使得这些算法具有高昂的时间和空间代价。本文致力于研究更精简但不丢失信息的序列模式挖掘算法。为解决上述问题,探索了将邻接约束与闭合约束结合来进行更精简且无损的序列模式挖掘,即闭合邻接序列模式挖掘和邻接序列生成器挖掘。同时提出一个基于相似度的FIND-S算法,称之为FIND-SS,来执行定义序列模式挖掘。此外,所获得的定义序列模式用于本体学习模型中的概念提取。如下给出本文的主要工作内容。1.提出CCSpan算法执行闭合邻接序列模式挖掘。CCSpan采用片段增长的方法来生成潜在的序列模式,运用三种剪枝策略来有效减少算法的搜索空间。通过上闭合约束(Upper-closed constraint)来生成完整的闭合邻接序列模式集合。2.探索了序列模式中等价类的属性,提出邻接序列生成器挖掘算法,即Con Sgen算法。基于CCSpan算法的片段增长方法和剪枝技术,得到一个具有邻接属性的序列模式集合。该集合可划分为一系列的等价类,然后从每个等价类中识别出具有下闭合约束(Lower-closed constraint)属性的序列模式作为邻接序列生成器。3.提出基于相似度的FIND-S算法,称之为FIND-SS算法。Find-SS采用“越相似优先级越高”的方法来泛化序列数据库中的每对序列。同时,上界假设(Upper Bound Hypotheses)用于算法的搜索过程,产生一系列的目标假设(Target concept)。FIND-SS能够处理含噪声的序列数据,并且不需要任何种子模式来挖掘定义序列模式。4.设计出基于定义序列模式的概念提取方法来改进本体学习系统性能。首先运用定义序列模式在给定语料上提取定义句子,然后在结合少量的词法特征从定义句子中发现概念(被定义项)。此外,设计了一种面向服务的本体学习架构以适应云环境下的本体学习。5.使用了多种类型的数据库,包括稀疏的、稠密的、真实的、合成的数据库,对上述算法进行多维实验评估,验证了所提出算法的有效性、高效性和可扩展性。