论文部分内容阅读
现有的序列模式挖掘算法已经在大型的数据库中得到广泛的应用。然而,随着数据挖掘技术的发展和应用领域的不断细化,用户对挖掘出来的序列模式提出了更高的要求。因此,将用户的要求或者是兴趣转化成一种或多种约束,来限定挖掘的维数,提高挖掘的效率已经成为挖掘领域内的一个研究重点。本文针对上述问题,将研究的重点放在了基于约束的序列模式挖掘算法的研究上,这对研究超市中客户购买模式、网站访问页面的序列模式、电信告警序列模式和DNA模式等问题有重要的意义。本文对国内外现有的序列模式挖掘算法和基于约束的序列模式挖掘算法进行了深入的研究和分析。基于约束的序列模式挖掘是在序列模式挖掘的基础上考虑了一些其它的信息,例如在超市客户购买行为分析中考虑到客户的年龄、性别等信息,这样的模式融合了更多的信息,应用价值也更高。本文通过对序列模式挖掘方法的研究和探讨,分别在预处理的过程中和序列模式的挖掘过程中进行了改进。在数据预处理的过程中,提出先将序列模糊分类,再利用数学中的抽样方法缩小挖掘规模。对序列进行模糊分类的研究中,在原有的各种相似性测度方法的基础上,提出了一种基于有向图的时间序列相似性研究方法,将有向图的概念引入到序列模式挖掘的过程中来;在序列模式挖掘的过程中,从Prefixspan算法的序列模式挖掘思想出发,针对传统的序列模式算法的局限性,提出了一种基于时间属性和点击量的CTSP算法,对原有“支持度”概念进行了改进,引入了频繁度和时间属性的概念,并加入了时间间隔和点击量等要素,从而使挖掘得到的信息具有了实时性的特点,有利于决策者更加准确的利用这些信息。