序列模式挖掘方法及Web使用挖掘研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:hubaonian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘针对序列数据库,致力于发现序列事件之间的关系,找到事件发生存在的特定顺序。序列模式挖掘是关联规则挖掘的推广,有着广泛的应用价值,例如顾客购买行为分析、Web访问模式分析、科学实验分析、疾病治疗早期诊断、自然灾害预测、DNA序列模式分析等。近年来,序列模式挖掘有了长足的发展,仍然存在许多问题,比如:算法复杂度过高,对大数据集效率低,适应性较差等。本文应用数据挖掘、遗传算法的理论和方法,重点研究了序列模式挖掘方法及在Web使用挖掘领域的应用。主要的研究内容和创新性工作包括:首先,介绍了数据挖掘的概念和发展情况,评述了数据挖掘的各种技术,面向不同数据类型的挖掘方法。分析了数据挖掘中的聚类技术,聚类的基本理论和方法、算法,以及聚类的详细过程。其次,针对k-means聚类算法对噪音数据敏感、易收敛到局部极值点、需要人为确定聚类的数目等不足,提出了结合k-medoids方法的遗传算法聚类方法-- GKMD算法。GKMD算法将聚类个数引入到适应值函数中,设计了包含聚类个数和类中心位置的统一编码及相应的交叉与变异算子,使遗传算法在进化的过程中自动确定最优的聚类个数。同时,在算法中嵌入了一种有效的启发式搜索方法,使得整个GKMD算法兼备了较好的全局搜索能力和局部搜索能力。实验表明, GKMD算法显著地改进了对包含噪音和异常点的数据进行聚类的鲁棒性,并能够在保证较高聚类准确率的基础上准确地确定聚类数目。第三,提出了一种新的结合聚类的两阶段序列模式挖掘方法。第一阶段用k-medoids算法将序列数据聚类到不同的群组,设计了一种n元组结构的序列模表示方法,可以减少序列的维数,并提出了一种新的序列模式相似度计算方法SMCS,能够捕捉序列模式更多的信息,更加准确的计算相似度。第二阶段用层云表展示每一个聚类,提供了更多的普通序列模式挖掘方法不能提供的信息,如转换的频率等,用于辅助显著模式发现和快速抽取。第四,将提出的序列模式挖掘方法进行了扩展并运用到Web使用挖掘中。分析了与Web用户兴趣行为密切相关的各种因素,给出了Web会话的语义本体表示,提出了一种更为准确的计算语义会话之间的相似度的方法SMSCP。分别采用分割式k-medoids方法和层次式Single link方法,进行序列模式挖掘过程中的Web会话的聚类,并应用层云表展示Web使用挖掘的聚类结果。通过不同的聚类算法以及性能评价指标,在特定的数据集与其它相似度计算指标进行了比较,验证了SMSCP的性能。
其他文献
由于个体生活经验的局限性,使许多理性知识无法还原到他们的生活经验中去,因此许多理性知识可以先行获得,而生活经验可以后续获得。在教学中,教师应善于分辨哪些知识应该以个体的
<正>当前,我国基础教育课程改革已经进入深水区,如何深入推进区域教研转型,不断创新教研方式,提高教研质量,成为提升基础教育质量的重要环节。2015年以来,为弥补"行走式"教研
唐山市被列入国家级采煤塌陷地综合治理示范区以来,加大了塌陷区的复垦力度,使采煤塌陷地复垦率和利用效率有了很大提高。本文介绍了唐山采煤塌陷土地破坏及复垦利用现状,总
目的 观察面神经炎治疗前后神经电生理变化.方法 以2013-01—2016-12在聊城市人民医院脑科医院接受治疗的84例面神经炎患者为研究对象,分别于治疗前后检测患者面神经电图和瞬
当前,艾滋病的治疗在技术上已经取得了重大的突破,科学家早已不把艾滋病看成是"不治之症"了.艾滋病的治疗在技术上几乎已达到像治疗糖尿病一样的水平.目前国际上已经有15种治
本文的研究主要包括把民族过程理论引入壮族经济史的研究,经济人类学与壮族经济史的研究,民族史研究与一般史学研究,以及关于壮族社会发展的氏族聚落时代——古国时代——方
德国职业教育历史悠久,享有很高的国际声誉,其IHK资格认证制度及培训体系是高素质技能型人才的重要保障。德国工商行会将海外的IHK证书定义为AHK,具有同等效力。学院在多次成