在线挖掘数据流闭合频繁项集算法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:dongge5266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机存储和网络通信技术的快速发展,数据流逐渐出现在日常生活中的各个领域,比如大型商场的售货记录,环境温度的检测数据,交易所的股票价格信息等。人们需要对海量的动态数据进行实时连续的收集与分析,进而挖掘数据流上的频繁模式得到越来越多的关注。与传统静态数据库相比,数据流具有持续不断、高速运行、无限到达的特点。数据流中的数据随时间的推移不断更新,而用户通常只关注近期有价值的模式。本文研究的是数据流频繁项集挖掘的一个主要方面:数据流闭合频繁项集挖掘。它是针对数据流频繁项集挖掘中得到大量冗余的频繁项集,造成内存过多的消耗和挖掘速度的极大下降而提出的。闭合频繁项集包括了挖掘出的所有频繁项集的完全集,从而避免了冗余频繁项集的产生,可以大大节省存储空间,提高挖掘效率,但是又不会丢失任何有用信息。数据流快速无限的特点及其应用领域的不断扩增,使数据流的在线挖掘技术越来越具有挑战性。提出了一种新的CMNL-SW挖掘算法(Closed Map and Num List-SlidingWindow),它沿用Moment算法的滑动窗口技术和CFI-Stream算法只维持闭合项集信息的方法,但与之不同的是,CMNL-SW算法不需产生事务的子集,也不需搜索每个子集的超集。算法使用数据结构Closed Map存储挖掘到的闭合项集和Num List存储所有不同项的序号,通过对添加新事务和删除旧事务包含的项序号进行简单的并集和该事务与之相关已经挖掘到的闭合项集进行交集运算来更新当前滑动窗口,使之能够根据用户任意指定的支持度阈值实时输出数据流上闭合频繁项集信息。通过理论分析和对真实数据集Mushroom、Retail-chain以及人工合成数据集T40I10D100K的挖掘结果表明,提出的算法在时空效率上明显优于同类经典算法Moment和CFI-Stream,并且随着数据流上处理事务数的递增和快速改变有很好的稳定性。
其他文献
本学位论文的研究课题来源于国家科技重大专项“新一代宽带无线移动通信网”之“超高速无线局域网无线接口关键技术研究与验证”课题(No.2010ZX03005-001-01)。该课题致力于
本论文分析了自差式8毫米波段探测器的回波信号和系统噪声特征,仿真并设计了信号处理电路,采用快速傅立叶变换(FFT)算法进行去噪。着重研究了系统的低噪声设计,对FFT去噪算法
随着互联网和信息技术的快速发展,多媒体信息资源越来越多,对多媒体信息进行检索和分类也越来越重要。广播、会议、互联网上的语音数据越来越多,如何在海量的语音库当中搜索出我
如今,网络已经融入到人们日常工作生活的方方面面,随着互联网的不断发展,诸如网络语音电话、在线游戏、电子商务、视频点播等实时应用业务不断涌现,对于网络故障恢复时间提出了更
多年来研究发现,人类在认知世界和了解周围环境及人与人彼此沟通了解的过程中,有高达70%以上的信息都是从眼睛获取的。人眼所含的信息可以反映一个人的精神状态、心理状态、身
3GPP长期演进(LongTermEvolution,LTE)项目作为一个“准4G”标准,由于其各种优点,备受关注。LTE系统与很多其他使用OFDM技术的系统一样,其对同步过程的要求非常严格。在时变多径
随着军事和国防工业的发展,场景模拟产生技术越来越在相关领域得到重视。高帧频场景产生系统是利用计算机软件来模拟高速运动物体在某些环境中运动过程的系统。系统在运行时会
目前在雷达成像领域,合成孔径雷达(SAR)成为研究热点,大部分学者都致力于研究条带式的成像模式,主要是对于地理环境进行成像,而聚束式SAR具有较高的分辨率,适用于小场景成像,特别是对
IEEE 802.16m是下一代移动通信系统IMT-Advanced的候选标准之一。其上行和下行的物理层都基于OFDMA (Orthogonal Frequency Division Multiple Access). OFDMA由于其子载波的
军事网格是在民用网格的基础上发展起来的,是军事信息系统集成的新兴技术,其核心是一个庞大的,分布于军事网格中各个节点的,协同工作的软件系统。它能够在现有的信息传输、处理设