基于Hadoop与医疗大数据的FP—growth算法的优化研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:owennb1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:传统FP-growth算法在处理规模大、海量的医疗大数据时,构造基于内存的FP-tree可能导致失败;重复迭代多次遍历全局FP-tree造成极大浪费;并行处理时各节点之间需要的巨大通信开销等问题。针对传统FP-growth算法存在的这些问题展开研究,提出一种采用数据库分解思想,基于Hadoop平台并行在局部FP-tree中查找局部频繁项集且不生成全局FP-tree的挖掘算法。
  关键词:医疗大数据;FP-growth算法;Hadoop;数据库分解
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)06-0280-02
  医疗卫生行业属于一种服务性行业,是关系国计民生、与人们生活密切相关的特殊产业。伴随着信息技术在医疗行业地引入,使得医疗行业的信息化、自动化程度不断提高。医疗行业的核心都是医疗数据,医疗大数据来源广泛,主要来自人口数据库、健康档案数据库、电子病历数据库等。并且数据格式多样化,文字、图案、声视频等。如何运用这些海量多样化医疗信息来更好地为医疗行业服务,已被更多的研究人员和机构所关注。
  韩家炜等人在2000年提出的FP-growth( Frequent-Pattern Growth)关联分析算法[1],采取分治策略不需要产生候选集,相对于经典的Apriori算法已经有了一个数量级的改善,但是仍有一些不足[2]。2008年Haoyuan Li等人提出了Parallel FP-Growth(简称PFP)算法[3],解决了前文提到的内存瓶颈、计算瓶颈等问题,但节点间需要巨大的通讯开销。2016年娄书青等人的TFP算法[4],用于数据水平投影过程中,利用贪心策略对F-list中的项进行分组。2018年魏莲莲等人在期刊中提出改进的垂直FP-growth算法,求取局部频繁项集、合并全局频繁树[5]。虽然很多学者都提出了改进的FP-growth算法,但仍有一些不足。针对无法构造基于内存的FP-tree的问题、挖掘频繁项集相互独立需重复迭代遍历整棵FP-tree,生成大量条件FP-tree带来极大的浪费、并行处理过程中各节点之间需要的巨大通信开销的问题,提出一种采用数据库分解思想、基于Hadoop并行地在局部FP-tree中查找局部频繁项集且不生成全局FP-tree的挖掘算法。
  1 开源分布式文件系统Hadoop
  Hadoop使用MapReduce并行运算框架,包含Map和Reduce两个阶段。Map阶段负责数据的映射,也叫作数据转换。Reduce阶段负责数据聚合。MapReduce的主控节点为Master,主要用以管理和调度任务的执行,从节点为Worker,用以管理每个节点上计算任务的执行。数据存储的主控节点NameNode与并行计算的主控节点Master可以设置在一个节点上也可以设置在不同的节点上。数据存储的从节点DataNode与并行计算的从节点Worker合并设置,以实现每个Worker处理本地DataNode上的数据。Hadoop的结构框架图1所示。
  2 改进的FP-growth算法
  2.1 数据划分
  数据分解的基本思想是分而治之。常见的数据库分解有划分和投影,划分又为水平划分和垂直划分,投影又分为水平投影和垂直投影。本文用到的数据库分解策略是水平划分,是将数据库事务集划分成没有交集的连续多个子部分。划分的子部分存储在不同的节点上,这一步骤由Hadoop自动完成,只需要将事务集数据库中的数据拷贝到Hadoop框架的分布式文件管理系统中即可,Hadoop框架会自动进行数据划分处理,分成的多个Block存储在不同节点上,同时为每个Block保存副本,防止某节点因故障损坏造成文件丢失。
  2.2 改进算法思想
  改进FP-growth算法是一种基于Hadoop并行地在局部FP-tree中查找局部频繁项集且不生成全局FP-tree的挖掘算法。基本思想是:
  (1) 改进算法中,包含了两次扫描数据集的过程,为加快处理速度和效率,将第一次扫描数据集进行并行化处理(并行化统计频繁1-项集列表):利用数据分解中的划分策略(水平划分)进行数据集分解。
  (2) 每个节点对划分到本地数据集中的数据项进行频数的统计,得到局部的项集计数。然后各个节点之间通信得到每个项目的全局频数,根据最小支持度阈值删除非频繁项,从而得到频繁1-项集。
  (3) 在各个节点上,根据频繁1-项集,对本地数据集中的事务进行排序,构建各自的局部FP-tree,并挖掘该树,挖掘频繁项集过程中,不需要挖掘其他节点数据和信息,因此不需要进行节点通信,减少了节点间通信的资源开销。获得局部频繁项集合(此过程并不删除局部频繁项不满足支持度计数的项)。
  (4) 完成之后,将局部频繁项集传送到主节点,不再生成全局FP-tree、迭代遍歷全局FP-tree和生成大量的条件FP-tree,根据频繁1-项集,依次统计每一数据项计数频繁项计数,将不满足支持度计数和置信度的频繁项删除,即可得到全局频繁项集。
  2.3 改进算法描述
  按照执行顺序和功能总体流程大致分为四个流程。按照Hadoop集群的MapReduce框架进行实现,分为获取表头链算法、构建局部FP-tree算法、挖掘局部频繁项集算法、挖掘全局最大频繁项集的关联规则算法。
  获取表头链:并行地读取HDFS中的数据块,统计数据项item出现的次数;保留满足最小支持度的数据项;按照计数从大到小的顺序进行排序,即获得表头链。通过节点通信,每个节点都有一份表头链,此过程设置Map、Reduce函数简单易实现。构建局部FP-tree传统FP-growth算法创建FP-tree方法相同;挖掘局部频繁项集与传统算法中挖掘全局FP-tree方法类似,在挖掘局部FP-tree时,不执行的是:根据支持度和置信度删除不频繁项集。   算法:挖掘全局频繁项集的关联规则算法
  輸入:局部最大频繁项集Map frequentCollectMaps
  输出:通过频繁项集挖掘的关联规则
  (1) n个mappers并行地读取输入的局部频繁项集依次读取某个items频繁项集,并进行如下操作:if(items)
  1) 若items不为空,则输出键值对,其中 count指的是items频繁项集出现的次数。2)否则,忽略此项。
  (2) 以其中一个站点的频繁项集map为基准,作为全局频繁项集,将各站点项集进行合并至全局频繁项集:1) 将与map中key相同的项集进行合并,count值相加,将其他站点频繁项集集合中此项集移除,若不满足支持度和置信度,将全局频繁项集中此项集移除; 2) 以第二个站点为基准,与第三至第n个站点的频繁项集进行合并,合并后的count值满足支持度和置信度,则添加到全局频繁项集map中;并将第二至第n个站点中的此频繁项移除;直到该站点频繁项集为空;3) 以(2)中相同方法,遍历至第n个站点中的频繁项集为空。即可得全局最大频繁项集。
  (3) 通过全局最大频繁项集,挖掘出关联规则。
  3 算法分析
  本文改进算法的明显优势是,将数据划分思想与Hadoop平台工作机制相结合,实现更简单;生成及其挖掘局部FP-tree过程中,不需要进行节点间通信,更加高效;改进算法不像传统并行FP-growth算法要生成全局FP-tree,有效解决创建基于内存的FP-tree导致的失败,以及迭代挖掘全局FP-tree造成的空间和时间的资源浪费。
  与魏莲莲提出的改进算法[5]进行对比,在生成和挖掘局部FP -tree过程中节点间不需要进行通信;本文算法将局部频繁项集进行合并,不必合并成全局FP-tree。当集群越大,单次能够处理的Map和Reduce数量越多,该算法的时间复杂度越低,实现效率越高。
  4 结束语
  本文通过研究医疗大数据的特征,在传统FP-growth算法的基础上,一种基于Hadoop的并行地在局部FP-tree中查找局部频繁项集且不生成全局FP-tree,从而获得全局频繁项集的挖掘算法。算法有效的解决无法构造基于内存FP-tree的问题、挖掘全局FP-tree,生成大量条件FP-tree带来极大的浪费、并行处理过程中各节点之间需要的巨大通信开销的问题,该改进算法有利于对医疗卫生及其他行业大数据关联规则的研究。
  参考文献:
  [1] Jiawei Han,Jian Pei,Yiwen Yin. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record . 2000 (2)
  [2] 付小妮.基于hadoop与医疗大数据的apriori算法并行化研究[J].信息通信,2017(09):30-31.
  [3] Yan H,Wang Y,et al.Pfp:parallel fp-growth for query recommendation[A]. In: IMocccdings of the 2008 ACM conferenceon Recommender Systems[C]. ACM,2008:107-114..
  [4] 娄书青. 并行FP-growth关联规则算法研究[D].电子科技大学,2016.
  [5] 王嵘冰,徐红艳,魏莲莲.基于MapReduce的垂直FP-growth挖掘算法研究[J].计算机与数字工程,2018,46(07):1284-1287 1296.
  【通联编辑:梁书】
其他文献
近年来,肥料行业竞争愈演愈烈,行业的快速变革加快了农资经销渠道转裂的步伐。如何进行突破与创新,让自己在诸侯纷争、割据洗牌的时代大舞台上站稳脚跟以及如何实现共存、共荣、
在灿若星辰的宜兴紫砂艺术中,紫砂壶作为其代表门类已深深地融入人们的物质生活与精神生活,承载着古老的文明和当代的荣耀。從古至今,在雅好、鉴藏之士的眼中,紫砂壶都是有灵性、有生命的活体,可以与人进行心灵的交流。它温润如玉,以独特的美感和品质倾倒无数同好,赢得了“紫玉金砂”的美誉。  紫砂光货是紫砂壶几何形体造型的主要门类,也是最为常见的紫砂壶款式,以轮廓周正大气、品质素雅端庄而著称。在传统的紫砂壶光货
一看水溶性。鉴别水溶肥的水溶性只需要把肥料溶解到清水中,看溶液是否清澈透明,如果清澈透明,那表明水溶性很好,反之就差。二看比重。真正好的水溶肥产品密度都在1.3千克/升,也就是
市场动态中国复合肥秋季备肥价格暂稳,个别出台冬储的价格降幅在50-200元不等,目前皖北、苏北、豫南等备肥开启较早地区进入补肥阶段,北方中原大部分区域目前正值走货高峰期。目
本报讯国家发改委近日公布的数据显示。今年前三个季度化肥农药产鼍较去年同期均有增长,但化肥利润下降幅度较大。据统计,今年前三季度,化工行业增加值同比增长12%,增速同比加快0.3
中国人饮茶,对茶具的选用十分重视,除了注重茶的“香”和“味”,还青睐造 型好看的壶器.由于历代文人的参与,紫砂壶的审美艺术水平越来越高,逐渐从以实 用为主的器皿发展成为
摘要:当前我国已经完全进入大数据时代,大数据的出现给人们的生活带来了便捷。同时在大数据的使用中还存在着一些问题,如何解决大数据使用中的问题是当前面临的重要工作。大数据在使用过程中如何对其合理控制及保护,也是目前人们最为关注的问题。文章阐述了大数据在使用过程中出现的问题,并且对相关问题展开了讨论。  关键词:大数据;安全;隐私保护  中图分类号:TP93 文献标识码:A 文章编号:1009-3044
近期,山东地区持续高温。山东红日阿康公司采取多项措施,开辟“自提车绿色通道”、避开高温时段作业、准备绿豆汤等防暑饮品,为进厂裳肥的司机及装卸人员做好防暑降温工作。图
近日,由广西壮族自治区植保总站、来宾市农业局、象州县农业局和象州县石龙镇“碧护”统防统治合作社联合举办的“来宾市‘美丽来宾清洁田园’暨甘蔗统防统治现场会”在象州县
摘要:针对某车型投产试制阶段被抱怨的轰鸣声结构噪声进行了试验优化与仿真优化。试验验证了该结构噪声来源于顶棚的局部振动,通过加装质量阻尼器可以消除该轰鸣声。但是考虑到成本,需要寻找替代方案。通过仿真,将前横梁加厚到2mm可以满足该结构噪声的优化需求。  关键词:结构噪声;试验;仿真;优化  中图分类号:TP31 文献标识码:A  文章编号:1009-3044(2019)12-0268-03  开放科