【摘 要】
:
关联规则挖掘是数据挖掘的一个重要内容,计算频繁项集是关联规则挖掘中的关键技术和步骤。这方面的算法主要代表有两类:Apriori类算法、FP-Growth类算法。Apriori类算法缺陷之
论文部分内容阅读
关联规则挖掘是数据挖掘的一个重要内容,计算频繁项集是关联规则挖掘中的关键技术和步骤。这方面的算法主要代表有两类:Apriori类算法、FP-Growth类算法。Apriori类算法缺陷之一是需要多次重复扫描数据库;FP-Growth类算法是基于内存的,这类算法缺陷之一是当项目比较平衡或支持度阈值较低时,无法将树形结构一次性全部装入内存。这两类算法在频繁项集的计算过程中,仅计数量不计内容,即支持频繁项集的事务集合被舍弃了。
针对上述问题提出了基于二维表的关联规则挖掘方法,算法的中心思想是基于前缀迭代计算,包括静态计算和动态计算两种,并借助.NET开发环境建立了实验平台。该算法将原事务数据经过压缩处理之后,以字符串的形式存储在二维表中,避免了重复扫描数据库。该算法优势主要有两方面:一是挖掘结果中包含支持满足min-sup频繁项集的事务集合,即保留频繁项集的时序特征。二是基于前缀的迭代思想保证在挖掘过程中,组合模式的计算量达到最小,如在相同的实验条件下,对主对角线上元素值为0,其他元素为1的20×20阶矩阵,FP-Growth算法将无法运行。之后将此算法应用于航空事故数据分析,得到了良好的实验结果。
最后指出了该算法的不足之处,并对该课题的发展前景和探索的方向进行了展望。
其他文献
随着信息时代科学技术的迅猛发展,如何提供强大的计算资源,如超级计算能力,海量存储处理能力,网络通信能力等,已成为计算机界的一个热点问题。网格技术的提出使解决这一问题
教育信息化是我国当前的一项重大国策,是指在教育中普遍运用现代信息技术开发教育资源并优化教育过程,促进教育现代化的过程。教育现代化不仅要求在设备等“硬件”方面的更新,最
人脸识别作为一项典型的生物特征识别技术,涉及多个学科,例如图像处理、生理学、模式识别等,同时在国家安全、信息金融安全等范畴也具备很高的社会价值和应用前景。眼睛作为
微粒群算法是上个世纪90年代提出的一种基于群体智能理论的优化算法,通过群体中粒子间的合作与竞争产生的群体智能指导优化搜索。相比于进化算法,微粒群算法保留了基于种群的
视景仿真系统目前在我国已经广泛应用于各种研究领域,如军事仿真、城市规划仿真系统、虚拟现实房产推销系统、大型工程漫游系统和模拟训练系统等。但是仿真技术在赛场上的应
随着大数据、物联网技术的快速发展,云制造作为一种新的生产模式,日益受到制造企业的重视和青睐。在云制造环境下,工业制造过程中所产生的数据不断累积且缺乏关联,如何构建数据间的关联关系成为有效发现隐藏在数据背后的价值的瓶颈问题。数据之间的这种逻辑关联关系更多的隐含在大量单调、离散的数据背后,很少有能够直观表现出来的逻辑关系,如果无法发现它们之间的关联关系,就导致无法从这些数据中抽取出有价值的信息以及无法
随着计算机科学与技术的发展,理论、实验和计算形成了当代科学研究的三大支柱。高性能计算已经成为支撑科学研究和高新技术发展的基础性交叉学科,越来越多的科学研究和重大工程
急性低血压症(Acute Hypotension Episodes,AHE)作为重症监护(Intensive Care Unit,ICU)中一种高死亡率、高突发率的术后并发症,严重威胁着患者术后的生命安全。生理信号时间序列
随着大数据时代的到来,如何快速处理数据并从中发掘有用的信息成为目前急需解决的问题。特征选择作为机器学习和数据挖掘领域的一个重要的预处理步骤,越来越受到学者们的关注
矩阵是数值代数中的一个基本概念,许多科学计算问题往往都可以归结为对矩阵的操作。在许多应用中,需要用到较长的矩阵链相乘,例如机器人,机器控制,以及计算机动画等。矩阵链