数据挖掘中关联规则算法的研究

被引量 : 0次 | 上传用户:tt7506
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛地发展,人类可以更快、更方便地获取数据、保存数据;数据的量和复杂程度都是前所未见。并且随着各行各业都开始采用WEB网站作为营销和CRM工具,所获取的数据正在以指数级的速度增长。然而这海量数据中只有部分数据得到利用,升华为知识,即出现了“丰富的数据”而“贫乏的知识”的尴尬局面。然而,“数据挖掘”—即利用计算机技术来分析处理并提取有用、有趣知识的技术的出现,为这一问题的解决提供了可能。数据挖掘是一个从大量数据中提取有用的、有趣的知识的处理过程。数据挖掘发现的知识模式有多种不同的类型,常见的模式有:关联模式、分类模式、聚类模式、序列模式等。本文着重介绍了关联模式(关联规则)的基本概念、常用的算法和扩展算法,以及研究现状,并指出关联规则挖掘是当前的热门。关联规则挖掘算法中,大部分算法都基于Apriori算法进行计算,其在挖掘过程中会产生大量候选项集,降低了关联规则挖掘的效率;同时关联规则挖掘会得到大量冗余规则,降低了关联规则挖掘的有效性;并且关联规则挖掘之用户交互性能也较差。本文在深入研究现有算法的基础上,为了提高用户数据挖掘的人机交互性能,解决关联规则挖掘产生冗余规则的问题,提出了两种基于用户导向的关联规则挖掘方法—SQL-IIAR算法和Bit-IIAR算法。SQL-IIAR算法是按照用户设置的规则的前件和后件,将原始事务数据库转化为新的包含规则的前件和后件的新的数据库,通过对数据的预处理,并改进Apriori算法的挖掘过程,压缩事务数据库,提高了关联规则的质量和效率。Bit-IIAR算法改进了事务数据库的存放形式,提高关联规则的效率和交互性,采用新数据预处理和用户导向的关联规则数据挖掘,其效率有明显的提高。
其他文献
<正>俄罗斯第四代航空发动机最早可追溯至20世纪80年代中期NPO-Saturn("留里卡-土星"科研生产联合体)为MFI(多用途前线战斗机)计划发展的AL-41F发动机,而用于雅克-141垂直起
该保温涂料的创新点在于借鉴国外航天工业用高科技绝热涂层的技术思路,并结合国情研制成功具有高辐射率的薄层隔热保温涂料。以液态涂料方式存在,干燥后的涂层热阻较大,特别
基于书评作者、对象、题目、内容等不同角度分析,发现图书情报学书评中存在的一些问题,最后从净化学术风气、提高对书评的重视、加强书评队伍建设、充分发挥学术期刊的作用等
舵机在导弹中的作用为驱动舵面偏转。随着导弹性能要求的不断提升,舵机系统的整体要求也越来越高,包括对于舵机体积、重量的要求,对于承载能力的要求,以及控制性能的要求。舵
燃油测量系统有较高的测量精度要求。目前,国内应用最多的是同心电容式油位传感器,但是由于电容式油位测量方法容易受燃油温度、密度及环境噪声污染等因素的影响,在实际应用
如今,越来越多的领域需要用到超宽视角的图像。用某些特殊设备如鱼眼镜头可获得这一类图像,但它们大多具有价格昂贵、使用复杂等缺点。利用普通相机采集的图像来得到宽视角的图
研究电梯的并联控制系统,具有重要的现实意义。因此,设计了基于LabVIEW的双梯控制仿真系统,该系统既可以实现双梯独立运行控制也可以实现双梯并联运行控制。通过该仿真系统,
<正> 粘胶短纤维生产的主要原料为棉浆和木浆,木浆性能虽次于棉浆,但因其丰富的资源,较低的价格,在粘胶短纤生产中得到广泛的应用。由于木浆中含有较高的半纤维素,随着浸渍碱
南岳衡山,是我国五岳之一,有五岳独秀之称。它群峰巍蛾壮丽,千姿万态,蜂峦削翠。时而烟雨濛濛,重雾弥漫,使人云里雾里,莫测高深,便如隔世不知远;时而银海翻腾;时而红霞满天
人脸作为生物特征的一种,具有唯一性、易采集、可遥感的特点。人脸识别是目前生物特征识别领域热门的研究问题。目前的人脸识别算法往往是基于标准人脸图像库的,本文从智能人