论文部分内容阅读
关联规则挖掘是数据挖掘课题的一个不可或缺的研究分支,可以为用户深究出更有价值的数据信息。随着科学技术中数据库作用的不断凸显,对数据采集的速度及存储容量的需求日渐变大,传统的关联规则挖掘算法在某些性能方面已逐渐没有办法适应大数据的关联规则,因此需要提出性能更优、更高效的挖掘算法。本文首先对大数据关联规则挖掘算法现有的研究动态、研究现状和未来可能的发展趋势进行了分析论述。其次,深入剖析了关联规则挖掘算法中比较经典的Apriori算法,分析了该算法在算法的使用过程当中的问题,井引出了两种改良的算法AprioriHybrid和AprioriTid,改良的算法在时间和空间效率上有较大的进步和提升,因此更适合于大数据的关联规则挖掘。在此基础上研究了基于Apriori算法的改进算法AprioriTid和AprioriHybrid,通过实验结果分析表明,AprioriHybrid算法在性能方面较优。然后,针对大多数关联规则算法研究应用过程当中的主要衡量标准,是否被经常使用或者是否被多种情况兼容(如频繁项集挖掘),或者是价值性或可盈利性(如高效用项集挖掘),对提出的Apriori算法及其改良的关联规则算法从数据集中找出频繁项集,并对其使用过程当中的有效性及功能性展开了更深层次的剖析研究,得出关联规则算法在处理大数据时的效果明显优于其它算法,并保持算法的准确性。本论文结合和了以上考量准则作为研究对象,对FHIMA算法进行了全面的分析,研究其在PDMiner上的使用,对大数据挖掘算法在高校的应用前景进行了阐述和实验,实验结果表明,使用紧的上界能够使FHIMA算法更高效且结果更具有意义。最后,介绍了基于关联规则算法在目前“大数据”应用过程中所起的重要作用,展望了在高校庞大的数据信息中已展现出来的优势,并将其与其它类似算法进行不同维度的比较,结果表明,该算法的性能优于一般其它算法。