数据挖掘关联规则加权算法研究与改进

被引量 : 0次 | 上传用户:xuxiyao4444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘能够从大型数据库中提取或“挖掘”出人们有用的知识,甚至利用已有的数据对未来事物的变化趋势进行预测,关联规则是数据挖掘领域中的一个主要的研究内容,用于表明数据项集之间的规则或模式联系。本文正是对基于经典Apriori的加权关联规则挖掘算法进行研究,并将研究成果应用到电子商务推荐系统中。本文首先概述了数据挖掘及关联规则的相关基础知识,重点剖析了Apriori算法,对其进行阐述和性能分析。针对Apriori算法会忽略概率小但重要性高的项目可能生成过多无趣关联规则的缺陷,引入权值思想,避免重要事物被忽略的可能性;研究加权关联规则挖掘算法中通用的定义和模型,引入k-支持期望作为剪枝过程的依据,克服了加权算法不收敛性的缺陷;针对常规关联规则算法的缺陷——重复扫描目标数据库且生成大量不必要的候选项集,引入矩阵思想,减低时间的消耗及空间的占用。基于以上两点提出基于矩阵的加权关联规则模型及算法:利用矩阵运算求和计算项集支持数,不需要扫描数据库,对数据库的总体扫描次数减至一次;将加权支持度的计算模型进行变形处理,引用了最小加权支持数,省去计算各项集加权支持度,再与最小加权支持度进行对比的过程,而是在频繁(k-l)-项集连接时利用矩阵运算求出项集支持数,与对应最小支持数对比直接产生频繁k-项集,不生成候选项集。详细说明改进算法的思想和执行流程,通过多组数据实例对比验证,该算法避免了大量I/O操作,所耗费的时间极大减少,规则收敛性较常规加权算法有了一定的提高,具有较强的实效性。最后将改进的挖掘算法应用于商业的推荐系统,比较分析了与基于传统加权关联规则的推荐系统的在效率上的区别。在离线部分数据挖掘操作模式下,提高了原算法的运算速度,节省了产生了加权关联规则的时间,加强了人机交互界面的友好性。最后通过实际数据验证了算法的实效性,得到的关联规则和推荐结果对用户能起到积极的指导作用。
其他文献
<正>Oakley于1956年首先提出了"糖尿病足(DF)"的概念。1972年,Catterall将糖尿病足定义为因神经病变失去感觉或缺血、失去活力及合并感染的足。1995年,中国第一届糖尿病足学
碳酸盐岩作为一种重要的储层类型,由于其具有较好的孔隙度、渗透率,一直为油气勘探过程中重要的研究对象之一。我国南海北部陆缘尤其是西沙海区新生代沉积了大量的碳酸盐岩,
建立了大黄鱼病原溶藻弧菌的间接荧光抗体检测方法。溶藻弧菌的特异性抗血清由新西兰兔制备 ,试管凝集法测定抗血清及交叉反应效价 ,吸附离心法去除交叉反应。荧光抗体为异硫
多溴联苯醚(PBDEs)在生态环境中是普遍存在的并已证实具有潜在的毒性,因此PBDEs引起了环境化学领域的广泛关注。光催化技术具有可利用太阳能、反应选择性高且反应条件温和等优
目的检测磷酸甘油酸酯激酶1 (PGK1)在子宫内膜癌组织中的表达水平,并探究其临床意义。方法采用免疫组织化学法检测86例子宫内膜癌组织和50例癌旁正常子宫内膜组织中PGK1的表
<正>日前,大型民族历史剧《木府风云》在中央电视台电视剧频道黄金强档播出。《木府风云》讲述了发生在云南丽江木府的传奇故事,全景式展现了秀美的丽江风情和多彩的纳西文化
目的探讨上调miR-218基因表达对子宫内膜癌细胞活力、凋亡的影响及机制。方法以Lipofectamine TM2000为载体,将miR-218模拟物(mimics)及阴性对照(Scramble)转染人子宫内膜癌H
现阶段,我国经济发展比较稳定,建筑行业随着我国经济的发展也取得了很大进步,高层建筑的数量也越来越多,此时,外墙渗漏水问题也变得常见,已经发展成较为严重的质量通病,并且
"北斗"卫星导航系统已经广泛应用在海洋、气象、水利和农业等领域中,利用短报文方式传输各类观测数据。文中介绍了一个基于"北斗"卫星导航系统的长报文通信协议,很好地解决了