基于倒排索引的增量更新关联挖掘算法的研究

来源 :广西师范学院 | 被引量 : 0次 | 上传用户:ceshi110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联挖掘是用来发现海量数据集中数据项之间存在潜在的、有价值的关联关系,以便于商业决策提高企业利润。随着移动互联网、人工智能、信息处理、机器学习、物联网等各种计算机科学技术的急速发展和普遍应用,各种海量信息数据呈指数迅速增长,人们为了能够从海量数据集中提取有价值的信息,提出了各种数据挖掘技术。增量更新关联挖掘是一种动态的关联挖掘方法,它主要用来解决动态事务数据库中事务记录随时间的推移而不断地更新,以及根据用户需求的不同,最小支持度阈值、最小置信度阈值发生改变时,发现数据项之间存在潜在、有价值的关联关系问题。针对现有的改进增量更新关联规则挖掘算法存在以下缺陷:(1)多次频繁地扫描原始事务数据库、产生大量无用的候选项集以及使用集合连接操作来计算频繁项集;(2)新产生的关联规则不能满足用户的不同需求;(3)当原始事务数据库新增事务记录的同时,改变最小支持度阈值和最小置信度阈值的情况下,实现增量更新关联挖掘维护问题的研究很少。为解决此类问题,本文采用倒排索引技术与树型结构相结合的方式,提出一种高效的增量更新关联挖掘算法UP-IITree。该算法有效的实现了无需扫描原始事务数据库DB,不产生候选项集且使用集合与操作,能够高效地计算出增量更新后的所有频繁项集。实验结果表明,该算法占用内存空间少、检索频繁项集效率高,且能更好地解决了增量更新关联挖掘算法存在上述难题。在大数据环境下,原始事务数据库中新增的事务数据集都是大批量的,且根据用户的需求不同,所指定的最小支持度阈值和最小置信度阈值也会有所改变,为了能够实现更新后的关联规则得到及时的维护一直是人们追求的目标。本文将UP-IITree算法实行进一步创新,将倒排索引技术与MapReduce并行编程模型相结合提出一种并行增量更新关联挖掘算法UP-IIMR。该算法是利用hadoop平台中MapReduce并行编程模型,使得能够以并行的方式应用倒排索引技术,以便于在新增大批量数据集的同时,改变最小支持度阈值和最小置信度阈值的情况下,高效、及时地解决了关联规则难以维护的问题。通过使用真实数据进行实验,结果表明UP-IIMR算法极大程度上提高了关联规则的挖掘效率和减少了所需的内存空间,有效地解决了大数据环境下增量更新关联规则难以维护的问题。
其他文献
随着近年来互联网与电影业的发展,音视频等多媒体文件急剧增多,有些音视频文件往往包含大量的暴力元素。由于音频在处理速度上比视频快得多,基于音频的暴力场景识别受到越来
随着问题复杂度和问题规模的增加,为了能够及时高效地获得对问题的求解,人们将问题的求解诉诸于并行计算,使得并行计算获得飞速发展。因此,为了扩大粒子群算法的应用领域,将其并行
随着网络、通信和计算机系统的大规模应用和发展,作为其核心的机房的安全问题变得越来越重要。机房安全涉及不同厂商的多种动力、环境设备,没有统一的监测报警平台为机房安全
由于传统观念的影响对于软件系统性能的管理,总是采用“以后修正”方法即在软件系统设计实现完成以后再对软件系统进行测试评价,发现问题从软件设计开始修改,有时候甚至需要
随着经济社会飞速发展,嵌入式软件需求越来越大,人们对嵌入式软件的功能要求也越来越高,再加上行业之间竞争不断加剧,以及新技术的不断涌现,这使得传统以编程语言为中心的嵌
近年来,随着计算机辅助分析在工程领域的发展,利用计算机实现大坝安全监测信息的智能管理和数据分析处理是大坝安全监测系统的发展趋势。与之相关联的传感器技术、网络通信、
由于医学图像背景复杂、信噪比低和无统一的衡量标准等问题导致医学图像分割问题一直是一个难点。如何选取一种分类准确性高且时间开销小的算法分割医学图像是一个值得思考的
Marco Dorigo等学者提出了模拟蚂蚁群体智能行为的蚁群算法。它是神经网络、遗传算法等之后的又一种对解决组合优化问题、指派问题、调度问题都取得良好效果的优化算法。仿真
随着农业数据库的普及和应用领域在不断扩大,建立一系列功能完善、结构体系完整的农业数据库对实现资源的高度共享、促进生产和流通的有序进行,加快成果的研究和转化步伐、创造
蛋白质交互(Protein-Protein Interaction,PPI)是生物医学领域一项重要的研究内容,目前由生物医学进行的PPI实验结果主要以文献的形式存储。PPI信息对生物、医药研究有着重要