论文部分内容阅读
序列模式挖掘针对序列数据库,致力于发现序列事件之间的关系,找到事件发生存在的特定顺序。序列模式挖掘是关联规则挖掘的推广,有着广泛的应用价值,例如顾客购买行为分析、Web访问模式分析、科学实验分析、疾病治疗早期诊断、自然灾害预测、DNA序列模式分析等。近年来,序列模式挖掘有了长足的发展,仍然存在许多问题,比如:算法复杂度过高,对大数据集效率低,适应性较差等。本文应用数据挖掘、遗传算法的理论和方法,重点研究了序列模式挖掘方法及在Web使用挖掘领域的应用。主要的研究内容和创新性工作包括:首先,介绍了数据挖掘的概念和发展情况,评述了数据挖掘的各种技术,面向不同数据类型的挖掘方法。分析了数据挖掘中的聚类技术,聚类的基本理论和方法、算法,以及聚类的详细过程。其次,针对k-means聚类算法对噪音数据敏感、易收敛到局部极值点、需要人为确定聚类的数目等不足,提出了结合k-medoids方法的遗传算法聚类方法-- GKMD算法。GKMD算法将聚类个数引入到适应值函数中,设计了包含聚类个数和类中心位置的统一编码及相应的交叉与变异算子,使遗传算法在进化的过程中自动确定最优的聚类个数。同时,在算法中嵌入了一种有效的启发式搜索方法,使得整个GKMD算法兼备了较好的全局搜索能力和局部搜索能力。实验表明, GKMD算法显著地改进了对包含噪音和异常点的数据进行聚类的鲁棒性,并能够在保证较高聚类准确率的基础上准确地确定聚类数目。第三,提出了一种新的结合聚类的两阶段序列模式挖掘方法。第一阶段用k-medoids算法将序列数据聚类到不同的群组,设计了一种n元组结构的序列模表示方法,可以减少序列的维数,并提出了一种新的序列模式相似度计算方法SMCS,能够捕捉序列模式更多的信息,更加准确的计算相似度。第二阶段用层云表展示每一个聚类,提供了更多的普通序列模式挖掘方法不能提供的信息,如转换的频率等,用于辅助显著模式发现和快速抽取。第四,将提出的序列模式挖掘方法进行了扩展并运用到Web使用挖掘中。分析了与Web用户兴趣行为密切相关的各种因素,给出了Web会话的语义本体表示,提出了一种更为准确的计算语义会话之间的相似度的方法SMSCP。分别采用分割式k-medoids方法和层次式Single link方法,进行序列模式挖掘过程中的Web会话的聚类,并应用层云表展示Web使用挖掘的聚类结果。通过不同的聚类算法以及性能评价指标,在特定的数据集与其它相似度计算指标进行了比较,验证了SMSCP的性能。