论文部分内容阅读
互联网技术的快速发展,导致在网络实际应用中产生了各种各样的数据。例如,网上、实体超市中产生的零售商品数据、无线传感器网络收集的数据和GPS定位系统中获取的地理位置信息等数据。面对如此多的数据,随之而来的问题是如何对这些存储在数据库中的海量数据进行处理和应用,数据挖掘理论和技术应运而生。在这些海量数据中,很多的数据是不完整的或是以不确定形式存在的,从不确定数据中发现有趣的知识和内容已经成为新的研究方向和热点。本文以不确定数据的频繁模式挖掘算法作为新的研究对象。首先介绍了数据处理中所需要的关键技术,如数据库技术、数据挖掘技术,并对数据频繁模式挖掘进行了概括。然后介绍了不确定数据挖掘的理论技术知识,包括不确定数据的定义,不确定数据的理论模型,不确定数据频繁模式挖掘算法。最后提出了两种有效的不确定数据频繁模式挖掘算法。本文所做的主要工作包含以下三个方面:(1)研究了不确定数据频繁模式挖掘算法的概要数据结构,设计了一种改进的基于树结构的不确定数据频繁模式挖掘算法的数据结构。计算机的数据结构是存储以及组织数据的最重要方式,因此逻辑结构严谨、合理的数据结构直接影响到算法运行的效率。本文根据不确定数据的特点和表现形式,在前人工作的基础上,对已有的基于树结构的不确定数据频繁模式挖掘算法的数据结构进行了优化,重新设计了面向不确定数据频繁模式挖掘算法中生成树中项头表的数据结构,即在项头表中增加了一个长度可变的动态数组,可以压缩构建频繁模式树时所占用的内存空间。(2)研究了基于树结构不确定数据频繁模式挖掘算法,提出了一种有效的不确定数据频繁模式增长算法。在研究不确定数据频繁模式增长算法的基础上,通过构建结构更加紧凑的树结构,提出了改进的不确定数据频繁模式增长算法。该算法可以在构建不确定数据频繁模式树的同时,不断地更新项头表中用来保存以该项为尾节点的所有可能频繁项集和相应期望值的数组。当频繁模式树构建完成以后,通过遍历项头表中的数组即可得到需要的概率频繁项集,而不需要遍历树结构得到概率频繁项集。最后通过实验验证了本文提出的算法不但能够减少算法运行时所占用的内存空间,而且提高了不确定数据频繁项集的挖掘效率。(3)研究了基于树结构不确定数据流频繁模式挖掘算法,改进了一种基于滑动窗口模型的不确定数据流频繁模式增长算法。数据流具有实时、无界的特点,受到计算机内存的限制,随着数据流的到来,内存中树据需要被尽快的处理掉,否则会导致内存溢出,而且伴随着数据流的到来,某些不频繁的项集可能会变成频繁项集。本文根据数据流的以上特点,结合数据流频繁模式挖掘中的滑动窗口模型,提出了一种基于滑动窗口模型的不确定数据流频繁模式增长算法。采用增量式的挖掘方法,当数据流中到来的数据量到达到一定规模的时候,使用批处理的方式进行处理,将挖掘得到的中间结果保存在项头表的概要数据结构中。随着数据地不断到来,窗口中的数据也不断地发生移动,新的事务不断被添加进来,旧的事务被移除出去,最后通过遍历数组就可以得到不确定数据流中的所有概率频繁项集。