面向不确定数据的频繁模式挖掘算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:a1390749
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展,导致在网络实际应用中产生了各种各样的数据。例如,网上、实体超市中产生的零售商品数据、无线传感器网络收集的数据和GPS定位系统中获取的地理位置信息等数据。面对如此多的数据,随之而来的问题是如何对这些存储在数据库中的海量数据进行处理和应用,数据挖掘理论和技术应运而生。在这些海量数据中,很多的数据是不完整的或是以不确定形式存在的,从不确定数据中发现有趣的知识和内容已经成为新的研究方向和热点。本文以不确定数据的频繁模式挖掘算法作为新的研究对象。首先介绍了数据处理中所需要的关键技术,如数据库技术、数据挖掘技术,并对数据频繁模式挖掘进行了概括。然后介绍了不确定数据挖掘的理论技术知识,包括不确定数据的定义,不确定数据的理论模型,不确定数据频繁模式挖掘算法。最后提出了两种有效的不确定数据频繁模式挖掘算法。本文所做的主要工作包含以下三个方面:(1)研究了不确定数据频繁模式挖掘算法的概要数据结构,设计了一种改进的基于树结构的不确定数据频繁模式挖掘算法的数据结构。计算机的数据结构是存储以及组织数据的最重要方式,因此逻辑结构严谨、合理的数据结构直接影响到算法运行的效率。本文根据不确定数据的特点和表现形式,在前人工作的基础上,对已有的基于树结构的不确定数据频繁模式挖掘算法的数据结构进行了优化,重新设计了面向不确定数据频繁模式挖掘算法中生成树中项头表的数据结构,即在项头表中增加了一个长度可变的动态数组,可以压缩构建频繁模式树时所占用的内存空间。(2)研究了基于树结构不确定数据频繁模式挖掘算法,提出了一种有效的不确定数据频繁模式增长算法。在研究不确定数据频繁模式增长算法的基础上,通过构建结构更加紧凑的树结构,提出了改进的不确定数据频繁模式增长算法。该算法可以在构建不确定数据频繁模式树的同时,不断地更新项头表中用来保存以该项为尾节点的所有可能频繁项集和相应期望值的数组。当频繁模式树构建完成以后,通过遍历项头表中的数组即可得到需要的概率频繁项集,而不需要遍历树结构得到概率频繁项集。最后通过实验验证了本文提出的算法不但能够减少算法运行时所占用的内存空间,而且提高了不确定数据频繁项集的挖掘效率。(3)研究了基于树结构不确定数据流频繁模式挖掘算法,改进了一种基于滑动窗口模型的不确定数据流频繁模式增长算法。数据流具有实时、无界的特点,受到计算机内存的限制,随着数据流的到来,内存中树据需要被尽快的处理掉,否则会导致内存溢出,而且伴随着数据流的到来,某些不频繁的项集可能会变成频繁项集。本文根据数据流的以上特点,结合数据流频繁模式挖掘中的滑动窗口模型,提出了一种基于滑动窗口模型的不确定数据流频繁模式增长算法。采用增量式的挖掘方法,当数据流中到来的数据量到达到一定规模的时候,使用批处理的方式进行处理,将挖掘得到的中间结果保存在项头表的概要数据结构中。随着数据地不断到来,窗口中的数据也不断地发生移动,新的事务不断被添加进来,旧的事务被移除出去,最后通过遍历数组就可以得到不确定数据流中的所有概率频繁项集。
其他文献
对于实时系统而言,其正确性不仅依赖于系统处理的逻辑结果,而且依赖于系统处理的及时性。这与系统采用的实时调度策略息息相关,而实时调度的核心是资源分配。资源的分配则体
无线传感器网络是由随机布放在监测区域内的大量的,具有信息采集、数据处理以及无线通信等多种功能的微型传感器节点组成的一个多跳自组织网络系统。它是一种新兴的信息获取
面对不断增长的合成孔径雷达图像收集能力,图像的解译能力不足成为制约其发展和应用的瓶颈。如何对大量图像进行自动解译,发现感兴趣的目标已经受到人们的广泛关注,也受到众
有效融合了专用集成电路(Application Specific Integrated Circuit, ASIC)与通用目的处理器(General Purpose Processor)优势的可重构计算系统,以其良好的灵活性,可重构性以及
射频识别,又名称为无线射频识别(RFID),它是利用射频信号的空间耦合性从而实现对目标对象的非接触式自动识别,而不需识别工作系统与特识别目标对象之间建立机械或光学接触,它
学位
本文提出了一个基于上下文语义的图像编辑算法,分析了图像的上下文语义特征,并将其应用到图像编辑技术中。图像语义是人们对图像的直观感受,包括人们对图像中对象的理解和隐
在现在信息和知识驱动的信息化环境中,数据在各个组织内部及之间进行流动的速度逐步加快,在出现紧急情况的时候需要能迅速地决定对敏感数据的访问,并保证这些敏感信息不被无
随着IBM提出的“智慧地球”被列为美国国家战略以后,我国国务院总理温家宝在无锡视察时也提出了“感知中国”的思想。作为“智慧地球”、“感知中国”核心的“物联网”在世界
学位
随着计算机视觉技术不断的发展,图像融合中的图像配准技术已经广泛地应用在医学领域、遥感领域、军事领域等许多领域中。图像配准是为了更全面的了解同一个事物的信息,而对这