数据流频繁模式挖掘算法的研究与实现

被引量 : 0次 | 上传用户:s5067744
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库管理系统的大规模应用,使很多领域都积累了海量的数据,如何能够高效地利用这些数据的需求促进了数据挖掘技术的出现及迅速发展。然而,随着计算机网络监控、气象监测、金融报价和传感器网络等领域的崛起,一种被称为数据流的新的数据处理模型被提出。这种数据流数据以很高的速度源源不断地到达,挖掘算法只能对数据处理一次,因此数据流环境下频繁项集挖掘算法的设计是一项极具挑战性的工作。数据流的无限性和高速性,决定了数据流上的挖掘算法必须为近似算法。针对如何设计有效的概要数据结构的问题,本文分析了已有的比较经典的频繁模式树FP-Tree结构,结合改进的以基本窗口为更新单位的滑动窗口模型,设计了一种二维数组结构用于存储频繁项集,并给出了该二维数组的特殊化赋值方法。基于提出的二维数组结构,本文设计了一种数据流上的频繁项集挖掘算法MFIBA(Mining Frequent Itemsets based on Bitwise AND)算法。该算法为一种批处理式算法,首先在到来的数据流上开辟一个固定大小的滑动窗口,再将该滑动窗口划分为几个相同宽度的基本窗口,并采用二维数组结构存储每个基本窗口中的频繁项集信息。当有挖掘请求时,挖掘算法通过在数组的各行之间执行按位“与”运算来产生频繁项集,并且根据数组中存储的值来计算每个频繁项集的支持度计数。作为一种近似挖掘算法,算法引入了允许误差参数,有效地删除了非频繁项集,节省了内存资源开销。将该算法与数据挖掘经典算法Apriori算法进行性能对比,结果表明,本文给出的算法在算法运行时间和内存消耗上略优于Apriori算法,适合进行数据流挖掘。
其他文献
由于人与自然的关系逐步由原来的亲和关系发展成为对立、排斥关系等现象,环境问题成为了20世纪60年代人类社会面临的首要问题。上个世纪60年代,环境伦理学作为一门新的学科受到
随着电信市场逐步开放的时代的到来,电信运营商之间的竞争也随之有愈来愈激烈的态势,为了占据市场,赢得主动,电信运营商纷纷加大营销力度,企业的营销理念逐渐从以产品为中心向以客
从2001年我国第一只开放式基金成立开始,经过短短的10余年时间的发展,到今天我国的开放式基金数量已超过964只,资产净值超过了2.07万亿元。随着我国开放式基金的快速发展,其
本文在对汽车制造企业生产现场进行大量的调查后,并在阅览了大量的有关同期化的中英文参考文献的基础上,建立了含有限暂存区的主、支混流生产线部件成品关联结构,并以此为研究对
企业家是企业的灵魂,是推动经济社会发展的重要动力来源,也是十分稀缺的经济资源。企业家的存在能够有效的提高企业的经营管理水平和经济效益。近年来,我国涌现出一批企业家队伍
目前世界范围内混凝土结构的耐久性问题日益凸显,受到各国科技人员和工业界的普遍重视。荷载和外界环境因素是影响混凝土结构耐久性的主要因素,研究应力及干湿循环条件下混凝土
近段时间,玉林、北流、容县以及广东茂名等地的养猪人,纷纷来到陆川县横山晖旺猪场参观考察,了解猪栏养鱼情况,学习猪栏养鱼技术。猪场负责人陈伟秀对远道而来的客人热情接待
<正>为贯彻落实国务院颁布的《计量发展规划(2013-2020年)》及国家质检总局《计量突发事件应急预案》,切实解决人民群众关注的计量问题,提高计量监管工作的科学性、针对性和
随着流程工业规模化程度的不断提高,控制系统日益成为提高流程工业安全性、产品质量和经济效益的重要手段。控制性能评估与诊断方法能够评价控制系统的表现,追踪和处理问题根
时空知识的建模是人工智能亟待解决的最重要问题之一。在现实世界中,时空知识大多随时间动态变化,且这些动态变化的时空知识在机器人导航、自动规划等领域具有广泛的应用。再有