关联规则并行优化算法及其应用研究

来源 :烟台大学 | 被引量 : 1次 | 上传用户:hz_0752
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络通信的愈发便利和计算机技术的日益发展,人们的日常工作和学习生活中产生了大量的数据,数据规模的增长促进了各行各业的进一步发展。数据挖掘技术是进行大规模数据知识发现的有效方法,利用数据挖掘相关技术能有效且深入地认识到大数据中隐藏的价值。关联规则是数据挖掘领域中的重要研究内容之一,它可以在不清楚数据关系和数据分布的情况下,有效挖掘出海量数据间潜在的关联性。传统的关联规则算法由于其较高的时空复杂度和I/O开销,使其无法有效解决较大规模数据的处理分析问题。而本文充分利用了MapReduce和Spark面对海量数据时优秀的处理分析能力,研究了针对较大规模数据集进行数据间关联规则发掘的并行算法,同时将其应用在高校排课优化策略的研究中。本文的工作主要有以下3个方面:1.针对传统关联规则算法由于候选项集过多和扫描数据库过慢,而导致的算法效率低下的问题,提出了一种基于Hash的关联规则并行优化算法(HP-AR)。算法基于MapReduce框架,将关联规则挖掘过程中遍历数据库统计频繁项集的部分实现了并行处理,同时通过构建辅助Hash表来减少各阶候选项集的个数。实验表明HP-AR算法能够有效挖掘出数据间关联规则,且在处理规模较大的数据集时,能快速地挖掘出各类数据集中隐藏的关联规则,并具有良好的加速比。2.由于关联规则算法中需要大量的迭代计算,而MapReduce计算框架需要不断重复地向磁盘中读写中间结果,并不能很好的支持迭代计算。本文提出一种基于Spark技术的关联规则并行优化算法(SPAP)。算法充分利用了Spark集群所具备的内存计算优势,以及对迭代式数据处理分析的支持,继承并进一步优化了对候选项集数量的筛减。实验证明SPAP算法能够准确有效地挖掘出数据间关联规则,且在运算效率上有着更为优异的表现。3.以上述研究为基础,针对目前高校招生人数扩张所导致的高校排课资源紧张的现象,本文提出了一种基于SPAP的课程关联规则挖掘及排课优化算法(SA-CSA)。算法首先快速挖掘了学生选课数据,找到课程间的关联规则,然后将得到的课程间关联规则及其关联指标应用于高校排课优化中。实验结果表明SA-CSA算法能够高效地挖掘出课程间关联规则及其关联指标,为高校更加人性化和合理化的排课提供了有效的优化策略,使其在解决课程时间地点冲突问题的同时,满足学生对选课的需求。
其他文献
接触网系统在铁路运行的过程中扮演了十分重要的角色。一旦高速铁路中发生了接触网事故,将会导致列车停运,造成重大的经济财产损失。因此,为了帮助接触网运营管理单位了解接触网运行状态,同时为实现接触网的状态修提供参考,本文利用弓网接触力等数据研究了接触网状态的评估方法,包括接触网整体状态评估和局部状态评估。首先,基于弓网仿真数据研究了非接触网结构波长成分的提取方法。采用互补集合模态经验分解(Complet
随着全球工业技术的不断发展,资源短缺等问题变得日趋严重,秸秆等生物质资源由于含量丰富、可再生等优点已成为世界各国广泛关注的资源,但秸秆含有复杂的天然结构,导致其难以被有效利用。本研究利用仿酶作为处理剂,处理和转化木质纤维素,建立了四种仿酶处理木质纤维素的良好体系。首次以铁基仿酶和离子液体相结合的方法催化微晶纤维素降解为糖。对反应的影响因素进行了考察,确定了最佳反应条件,其中还原糖的产率可达到95.
改革开放以来,我国经济体制不断发展和创新,快速成为世界第二大经济体,化工产业的规模也在迅速扩大。大量载有易燃爆炸、放射、毒害的危险品运输工具在运输网络上进行运输,形成一个个移动的“定时炸弹”。同时我国现有的各种危险品运输的行业规范和要求相对薄弱,危险品具有破坏性强、扩散广泛等的特点,且易发生次生危害,一旦危险品在运输过程中发生事故,就会给人民群众的生命财产造成极大的威胁。基于此,防御资源能够降低因
交通影响分析属于城市规划微观层面的具体实现,是协调土地利用与交通系统之间矛盾的重要手段。每个建设项目的交通影响分析结果都会对城市交通发展起着指导性的作用,而影响阈值和影响范围的确定作为交通影响分析体系的两个重要环节则在一定程度上决定了交通影响分析结果的合理有效性。因此如何科学有效地确定影响阈值标准和划分影响范围则十分具有研究意义。本文深入分析了交通影响分析的基本原理和流程,确定了其中尚需探讨研究的
球墨铸铁曲轴是汽车常用的零部件,曲轴承受高拉应力容易断裂,传统提高球墨铸铁强度的方法有合金化法和热处理等,但合金化和热处理成本较高,球墨铸铁的强韧化程度已达到极限。碳纤维是一种高强度、高模量比,密度小的材料,且价格低廉。将碳纤维植入球墨铸铁中形成复合材料以获得更高的力学性能,是一种新的增强思路。但碳纤维和铁基存在界面结合差等问题。本文通过对碳纤维进行电镀镍表面金属化处理,采取手工造砂型将碳纤维植入
近年来,全国高校毕业生数量屡创新高,大学生的就业压力也越来越大。广大毕业生一方面为提高就业能力,增强自身市场竞争力,为毕业后找到一个好工作,另一方面,也是为了取得实习
随着现代战争模式的改变,不仅要求武器系统具有更快的机动性和良好的战场生存能力,还要求系统能快速、平稳、无静差的跟踪大幅值的阶跃或等速信号,并具有极小的稳态误差。因此,高性能的轮式车载防空武器逐渐成为了现代防空武器的研究重点。伺服控制系统作为车载武器系统重要组成部分,负责驱动武器系统实现对目标的快速反应和精确跟踪,并引导火力系统精确打击跟踪目标。然而,伺服控制系统作为一种兼具非线性、耦合性和时变性三
咽喉癌是一种头颈部位常见的恶性肿瘤,据统计大约70%的咽喉癌患者术后将出现吞咽功能受损、发音困难甚至长久失声。近年来,研究表明发音时面部及喉颈部的肌肉对应着不同的运
多输入多输出(Multiple-Input Multiple-Output,简称为MIMO)技术是5G通信中的关键技术之一。因采用多输入多输出天线传输,所以提高了通信系统的频谱利用率以及数据传输速率。
导弹防御问题是军事领域研究的一项重要内容,其系统性能测试耗资巨大,不易反复进行,因此,计算机仿真技术大量应用于导弹防御博弈系统性能测试领域。而导弹防御系统博弈过程是