论文部分内容阅读
关联挖掘是用来发现海量数据集中数据项之间存在潜在的、有价值的关联关系,以便于商业决策提高企业利润。随着移动互联网、人工智能、信息处理、机器学习、物联网等各种计算机科学技术的急速发展和普遍应用,各种海量信息数据呈指数迅速增长,人们为了能够从海量数据集中提取有价值的信息,提出了各种数据挖掘技术。增量更新关联挖掘是一种动态的关联挖掘方法,它主要用来解决动态事务数据库中事务记录随时间的推移而不断地更新,以及根据用户需求的不同,最小支持度阈值、最小置信度阈值发生改变时,发现数据项之间存在潜在、有价值的关联关系问题。针对现有的改进增量更新关联规则挖掘算法存在以下缺陷:(1)多次频繁地扫描原始事务数据库、产生大量无用的候选项集以及使用集合连接操作来计算频繁项集;(2)新产生的关联规则不能满足用户的不同需求;(3)当原始事务数据库新增事务记录的同时,改变最小支持度阈值和最小置信度阈值的情况下,实现增量更新关联挖掘维护问题的研究很少。为解决此类问题,本文采用倒排索引技术与树型结构相结合的方式,提出一种高效的增量更新关联挖掘算法UP-IITree。该算法有效的实现了无需扫描原始事务数据库DB,不产生候选项集且使用集合与操作,能够高效地计算出增量更新后的所有频繁项集。实验结果表明,该算法占用内存空间少、检索频繁项集效率高,且能更好地解决了增量更新关联挖掘算法存在上述难题。在大数据环境下,原始事务数据库中新增的事务数据集都是大批量的,且根据用户的需求不同,所指定的最小支持度阈值和最小置信度阈值也会有所改变,为了能够实现更新后的关联规则得到及时的维护一直是人们追求的目标。本文将UP-IITree算法实行进一步创新,将倒排索引技术与MapReduce并行编程模型相结合提出一种并行增量更新关联挖掘算法UP-IIMR。该算法是利用hadoop平台中MapReduce并行编程模型,使得能够以并行的方式应用倒排索引技术,以便于在新增大批量数据集的同时,改变最小支持度阈值和最小置信度阈值的情况下,高效、及时地解决了关联规则难以维护的问题。通过使用真实数据进行实验,结果表明UP-IIMR算法极大程度上提高了关联规则的挖掘效率和减少了所需的内存空间,有效地解决了大数据环境下增量更新关联规则难以维护的问题。