并行化Apriori算法的改进及其应用

来源 :兰州交通大学 | 被引量 : 3次 | 上传用户:yaomingming0908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人、机、物三元世界的高度融合与发展,使得数据的规模大小呈爆炸式的增长,数据的模式也变得愈发的复杂,世界已经完全进入到了互联网化的大数据时代。在海量的数据中,存在着许多有价值、有意义的信息。我们需要从这些数据中找到对我们有价值的信息,所以产生了数据挖掘这门技术。关联规则是数据挖掘中的一个重要研究方向。关联规则的代表算法有Apriori、PrePost、FP-Growth等,其中Apriori算法是关联规则算法中最经典也是最基础的算法之一。Apriori算法是在1994年由Agrawal和R.Srikant提出的一种经典的布尔关联规则挖掘频繁集的算法。算法通过逐层迭代的方法寻找频繁集。但在当今数据量变得日益庞大的环境下,这种经典算法的缺陷也越来越明显。本文针对Apriori算法生成频繁集需要多次遍历数据库的缺陷,提出一种基于布尔矩阵与权重的改进算法WF_Apirori(Weight Function Apriori)。此算法将为矩阵添加权重列,来修剪掉重复的事务并对存储的矩阵进行压缩,节省扫描事务集的时间,充分利用行与行之间的交运算,避免了从k-1项集到k项集的自连接运算,使之一次就可获得所需要的k项频繁集。并基于MapReduce并行化改进后的Apriori算法,将大矩阵分为小矩阵,并行化小矩阵的处理过程,减少算法的时间复杂度,使得算法的效率更高,增加算法的实用性。实验结果表明改进后的算法在大数据的环境下,大大缩短了处理问题的时间,提高了算法的挖掘效率,达到了预期的目标。在证明并行化WF_Apriori算法的有效性后,本文将其应用到对滑石坡的预防上。中巴经济走廊作为“一带一路的重要一环”,其复杂的地质地貌类型导致滑石坡灾害经常发生,而滑石坡灾害的发生,威胁着公路建设和物资的运输。因此本文选择中巴经济走廊盖孜河谷地区为实验区,对盖孜河谷地区致灾因子之间的规则进行系统研究。本文基于前期对灾害点的研究,将中巴经济走廊盖孜河谷地区分为研究区和验证区两部分。利用ArcGIS、Envi等软件对研究区的遥感图像进行校正,并提取校正后研究区的高程、坡度、坡向、剖面曲率、土壤类型及地质岩性六个致灾因子进行分析,并利用改进后的算法对其进行关联规则挖掘,找出致灾因子与滑石坡之间存在的关系,最后基于混淆矩阵利用Kappa系数在验证区对挖掘出的规则进行验证,证明其适用性,为盖孜河谷地区预防滑石坡提供帮助。
其他文献
低段的语文教学在"写话"这一个板块训练上可谓是"真空"状态,几乎是由教师自行安排,更甚者会被部分教师忽略。究其原因,一是现行教材采用的是"阅读先行"模式,无明确的教学内容
随着新一代无线互联网和物联网技术的广泛应用,现代生活逐步向智能化方向发展。由于人口老龄化问题逐步加重,人们对于开发一套室内人体智能监护系统的需求日益强烈,而现有技术方案并不能达到高检测率、高鲁棒性、低成本且不涉及隐私问题等要求。随着无线网络的广泛覆盖,基于Wi-Fi的人体活动雷达技术因其非侵入性、造价低廉等显著优点,得到研究人员的广泛关注。如今,利用现有Wi-Fi设备实现了细粒度的信道状态信息(C
近年来,由美国兴起的翻转式教学模式为教与学的发展提供了新思路,成为未来教学变革的走向。本研究针对翻转式教学模式存在的问题和新的需求,首先对国内外翻转式教学模式的研
党的十八届三中全会提出:“全面深化改革的总目标是完善和发展中国特色社会主义制度,推进国家治理体系和治理能力现代化。”作为创新社会治理方式的有效举措,网格化管理对推
地域性景观是某一地域范围内自然景观与人文景观的总和,是地域特色的重要体现。我国国土辽阔,自然景观类型多样,景观的地域性特征鲜明,优秀的风景园林设计应该是能够反映地域
红外图像在生活中非常常见,在很多领域扮演着重要角色,但与彩色图像相比,红外图像立体感差,饱和度不够,且目前的红外成像技术探测能力有限,也无法像可见光成像那样具有很高的空间分辨率,所以对于人眼直接观察而言,红外图像远远不能满足视觉需求。本文针对红外图像的缺点改进了正则化算法,且提出了双正则亚像素卷积红外图像超分辨率重建算法与基于深度即插即用的超分辨率重建算法。主要研究内容包括:首先,由于用传统的正则
抽水蓄能电站能够在用电低谷时以抽水到高处的方式储存电能,在用电高峰时放水以缓解电能紧张。抽水蓄能电站一方面可以将用电负荷低时的多余电能转化为用电高峰的高价值电能,另一方面可以为电网提供备用电能,可以降低电网波动并提高电网效率,具有很高的经济价值和良好的环境适应性。但是随着时间的推移,抽水蓄能电站的水库面板可能会因为风吹日晒、结构老化等外界因素产生裂缝。为了预防此种危害发生或将其产生的后果降到最少,
进入新世纪以来,随着我国医药行业的发展提高,市场化环境的变化对医药企业内部的生产经营活动要求更高。与此同时,自中国加入WTO以后,市场化环境更加复杂多变,外资企业在入驻
面临着日趋严重的老龄化、脑卒中等问题,当代社会已有越来越多的人群忍受着下肢运动功能障碍的困扰。辅助下肢运动功能障碍患者独立行走,可增加患者的社会归属感和自信心,并减轻看护人员的工作负担,具有重要的社会意义。目前,基于声音、按钮等传统控制方式的康复助行设备,并不适合言语不通、肢体操作能力弱、认知能力差的高龄老人或者脑卒中患者。因而,采用脑-机接口技术识别人体的自发运动意图来控制康复助行设备以解决这个
本研究以北京鹫峰国家森林公园主要林分类型为研究对象,通过分析主要林分类型空间和非空间结构特征、竞争压力,对主要林分类型的经营迫切性进行了评价,提出了相应的经营策略