关联规则经典算法改进及其在商业智能上的应用研究

被引量 : 0次 | 上传用户:shenlixi44
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度增长。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。面对这一挑战,数据挖掘技术应运而生。数据挖掘(Data Mining,DM)就是从大量的数据中挖掘出人们感兴趣的知识,它是一类深层次的数据分析方法,被认为是解决“数据爆炸知识贫乏”的有效方法之一。最近几年里已被数据库界广泛研究。经过若干年的研究和实践,其经济价值已经显现出来,被广泛应用于科学研究、金融投资、市场营销、保险、医疗卫生、产品制造业、通信网络管理等行业。在整个数据挖掘的研究中,高效率的算法始终占有特别重要的地位。由于数据挖掘面对的是大量的数据集,因此算法的效率将对其应用起关键的作用。现有的算法总有着这样或那样难以克服的局限性。鉴于此,本文着重对关联规则挖掘算法进行了研究。在研究经典Apriori算法的基础上,给出了一个新的算法,分别从减小时间消耗和有效挖掘小概率重要规则两个方面对Apriori算法进行了改进:一方面,针对Apriori生成的潜在频繁项目集规模过大,新算法尽量减小潜在2项集的规模,使之尽可能的接近频繁2项集,大大缩短了时间消耗;另一方面,针对数据库中项目分布不均匀,出现概率相差较大,所挖掘出的关联规则将可能涉及不到出现频率较低的项目的问题,通过给他们赋以不同权值,区别对待数据库中的每个项目,从而可以挖掘出Apriori挖不出但却极具价值的规则。经过改进,新算法在时间上的消耗明显少于Apriori算法,大大提高了算法的效率;同时,由于加入权值,使得算法能够挖掘出隐藏在小概率事件后的关联规则,这些规则恰恰是一般改进算法易于丢弃或挖掘不出的。基于此,算法将会在诸如旅行社发掘新的线路,银行发掘新的留学贷款项目等商业智能应用中起到重要作用。
其他文献
体验式教学是以课堂为基本平台,以学生为主体,关注学生之间的差异性,充分调动学生积极性,组织并开展体验学习活动的教学活动。体验式教学做到了学习和体验相结合,是一种发展
随着Flash存储技术的迅速发展,大容量Flash存储设备控制器设计的研究已成为重要的科研领域。同时,由于Flash存储器的物理特性,在政府、国防等安全部门的应用不断推广,因此,就必须
随着市场竞争的加剧,企业信息化已是大势所趋,企业资源计划(enterprise resource planning,ERP)是当今社会流行的企业管理模式。但是,企业ERP项目实施是高投入、高风险的。由
在经济和技术全球化的趋势下,知识产权已经成为国际和国内的热点问题。尤其是发展中国家的知识产权政策,已成为本国能否克服短期技术困境、促进经济长期增长的关键因素。然而纵
层状镍酸锂是一种容量极高的锂离子电池正极材料,本文从镍酸锂出发,合成出了三种高容量锂离子电池正极材料LiMxNi0.8-xCo0.2O2、LiNi1/3Mn1/3Co1/3O2、LiNi1/2Mn1/2O2,分别研
我国自20世纪80年代初引进物流理论和物流概念以来,政府和企业都逐渐意识到发展物流对于优化资源配置,促进企业改革,提高经济运行质量,改善投资环境,提高国民经济综合实力和企业整
中国传统建筑的木作体系包括大木作和小木作,大木作是建筑的梁柱框架结构,而丰富的小木作则对建筑空间进行细致的划分,赋予建筑不同的“性格”与“身份”,使建筑的使用成为可
社会生产力的迅速发展,社会需求结构和人们消费观念的巨大变化,使市场竞争日益加剧,当今企业市场竞争的性质已经发生了革命性的变化,即企业竞争的目标由追求市场份额的数量(
随着我国旅游业的发展,城市成为现代旅游的支撑点,城市旅游形象是吸引游客的最关键的因素之一,因此城市旅游的核心是在大众心目中定位、设计一个独特、鲜明、具有强感召力、而又
改革开放以来,我国高等教育事业得到了长足的发展。特别是20世纪90年代后期,高等学校扩招政策出台后,我国高等教育规模不断扩大,2004年我国高等学校在校生人数达到2000万人,成为世