关联规则挖掘算法在大数据集上的应用研究

被引量 : 0次 | 上传用户:keremslr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和数据库技术的迅猛发展,人类进入了信息时代,收集、存储数据的能力大大增强,传统的数据分析工具已经满足不了人们的要求。如何不被海量的数据淹没,如何从数据中挖掘出有用的信息帮助人们决策,在这种形势下,数据挖掘技术应运而生。数据挖掘就是从大量的数据中发现潜在有效的信息的过程。关联规则挖掘是数据挖掘的一个重要方面,主要用于发现数据库中项与项之间的某种联系。关联规则挖掘已经被广泛的应用于各个方面,如:超市货架的布置、存货管理、商品的营销策略、银行、电信、移动的数据分析及其保险、医疗等其他行业。面对日益膨胀的海量数据,传统的关联规则挖掘方式已经满足不了人们的需求,因此大数据集的关联规则挖掘研究显得尤为重要。针对上述问题,本文从基于抽样的关联规则挖掘和并行关联规则挖掘模型两个方面着手解决大数据集的挖掘问题。抽样是统计学中应用非常广泛的一种方法。当总体数据量很大时,想要对总体中的每个个体都进行研究是不现实的,因此通常采用抽样的方法得到一个小样本对总体进行估计。将抽样的概念与关联规则结合起来,在研究已有抽样算法的基础上,提出一种新的层次二分抽样算法(EHAC)。该算法在每次挖掘前对已有数据进行抽样,使数据平均划分的同时,频繁k-项集也尽量能够得到平均划分,以保证通过少量的数据挖掘出高精度的规则。通过实验证明,该算法性能优越,精度明显优于HAC算法而且在运行时间方面也体现了它的优势。在分析典型并行算法的基础上,提出了一种基于客户机/服务器模式的关联规则挖掘算法。该算法设置一个中心节点做为服务器,其他节点为客户机,将原有大数据集平均划分到各客户机,每个客户机独立进行挖掘。每次挖掘结束后,各客户机将局部频繁项集传递给服务器,由服务器得到全局频繁项集,避免了各客户机之间相互通信,减少通信量。同时,引入数据库的触发机制,使服务器全局频繁项集的生成自动进行。最后通过实验证明,该模型和算法提高了挖掘性能,使大数据的挖掘从不可行到可行,从困难到容易。
其他文献
一、前言聚丙烯塑料具有优良的耐腐蚀性能及耐热性能,在防腐蚀领域中得到了广泛的应用。近年来,国内对聚丙烯的耐腐蚀性能进行了不少的研究,采用高温静态浸渍法测定了聚丙烯
研究背景和目的新生儿坏死性小肠结肠炎(necrotizing enterocolitis,NEC)是严重威胁新生儿生命的最常见疾病之一。近年来,随着早产儿抢救技术的提升,NEC发病率明显升高。据统
[目的]一、了解昆明医科大学第一附属医院妇科住院部因宫颈CINIII住院治疗的患者人乳头状瘤病毒感染的特点及单一感染和多重感染在不同年龄组中的分布情况。二、比较同一患者
由于C2C购物的快速发展,用户对于C2C购物平台的可用性要求越来越高。本文以提高C2C购物的可用性为主题,以大学生为研究用户群体,以淘宝网为例,基于信息架构理论研究淘宝网的
通过纸质问卷调查和网络问卷调查的方式,对湖南高校饮食文化宣传教育现状进行调查分析,了解饮食文化宣传教育在湖南高校开展的具体情况,提出从高校食堂、学生组织和饮食文化
在这个交通与通信的迅速发展的时代,艺术市场的国际化已成为主流。而且进入21世纪亚洲艺术受到很大关注,以前在世界艺术市场只占了很小一部分的亚洲艺术市场逐渐成长,亚洲国
喷雾干燥是食品加工中常用的技术,特别是在牛奶干燥生产奶粉的过程中应用更为广泛。本文综述了国内外牛奶喷雾干燥技术最新研究进展,就奶粉喷雾干燥常见问题,如粘壁、奶粉速
针对科研和工程需要,对密度4.60 t/m^3屏蔽γ射线防辐射混凝土配合比设计、施工工艺、混凝土密实度和屏蔽均匀性等进行了系统研究,解决了高密度混凝土施工中的均匀性、密实度
9~ 1 1世纪诺曼人进行了波及整个欧洲的海外扩张和殖民探险活动。诺曼人的扩张虽然给欧洲许多国家带来了灾难 ,但也为欧洲的发展注入了新的活力。他们的一系列海上探险 ,则扩
目的系统评价中国人群亚甲基四氢叶酸还原酶(MTHFR)基因多态性与甲氨蝶呤(MTX)治疗类风湿关节炎的临床疗效和药物不良反应的关联性。方法检索中国知网(CNKI)、维普、万方、中