条件对比序列模式挖掘算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xiaodehuwei12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对比序列模式挖掘是数据挖掘中的重要课题之一,在实际应用中具有非常高价值。对比序列模式挖掘旨在从具有类标签的序列数据中挖掘出具有明显差别的序列模式。近年来各种各样的对比序列模式挖掘算法相继被提出,然而关于对比序列模式冗余问题的研究依旧匮乏。对比序列模式挖掘主要分为两大类,分别为指定阈值的对比序列模式挖掘和top-k对比序列模式挖掘。现有方法挖掘出的序列模式都会存在一定的冗余,冗余是对比序列模式挖掘中一个急需解决的问题。导致对比序列模式挖掘结果冗余的原因较多,其中一个重要诱因是差异显著的子模式,即某个差异显著的子模式可能导致其父模式也是差异显著的。为了解决子模式产生的冗余影响,本文提出了条件对比度的概念,并针对这一概念提出了一个新的模式挖掘问题,即条件对比序列模式挖掘。本文将条件对比序列模式挖掘分为两类:(1)指定阈值的条件对比序列模式挖掘问题;(2)top-k条件对比序列模式挖掘问题。针对这两类模式挖掘问题,本文提出了CDSPM算法和TKCDS算法。其中CDSPM算法是针对指定阈值的条件对比序列模式挖掘问题。在CDSPM算法中本文运用Next跳转指针及相关算法计算条件对比度。TKCDS算法是针对top-k条件对比序列模式挖掘问题。TKCDS算法通过构造最小堆模式hash tree来计算条件对比度。CDSPM和TKCDS均采用GSP构造候选序列模式。本文选用了一系列公开的数据集进行了对比实验。实验表明条件对比度能很好地排除子序列模式的影响,在去除冗余问题上效果非常明显。利用CDSPM算法和TKCDS算法能够高效地挖掘出条件对比序列模式,并能过滤掉大量冗余的模式。
其他文献
云数据中心作为云计算的重要组成部分,已经取代了传统的数据中心,而大规模云数据中心的建设和运转,不仅带来大量的电能消耗和二氧化碳的排放,且资源利用率普遍过低,造成了环
虚拟机不仅提供高效和安全的计算资源容器,而且可以在多个物理主机之间平滑迁移。虚拟机的动态迁移是基于多个虚拟机的环境中的一个强大的管理工具,它已成为促进系统维护、负
在三网融合需求的促进作用下,中国国家新闻出版广电总局提出了下一代广播电视网(Next Generation Broadcasting Network,NGB)的概念,使用有线电视网络实现广播电视网、电信网
随着计算机和数字图像处理技术的迅速发展,基于计算机视觉的智能监控已逐渐应用到公共安全、智能交通、军事、工业检测等领域,而视频中的运动目标检测与跟踪是智能监控研究中
由于互联网的普及以及信息科技的高速发展,云计算产业也迅速发展,其典型特征是“按需服务,按量付费”。要保证服务质量,任务调度是关键。一个调度策略的好坏直接影响用户满意
随着多媒体设备、互联网以及云计算等技术的迅速发展与普及,信息社会进入了大数据时代。文本、图像、视频、音频等来源广泛、形式多样的多媒体数据作为信息传播的载体,蕴含着
随着云计算与大数据技术的骤速发展,数据的存储问题得到了越来越多的重视。用户通过按需付费的方式向云存储提供商购买存储服务。因此,具有高可靠性、低成本、自动容错等特点
在公开的互联网中传输信息很容易受到窃取或者破坏,尤其是涉及到相关领域的核心数据时,就会带来巨大的安全隐患,数字水印技术在维护数字产品版权等领域发挥了巨大的作用。传
随着软件的不断发展,软件测试的重要性逐步显现。回归测试作为软件生命周期的一个组成部分,在整个软件开发的过程中占有相当大的比重。软件在开发过程中会进行多次回归测试,
大数据是信息时代的里程碑,正在以巨大的能量推动着人类社会的深刻变革。随着信息技术的跨越式发展,尤其是互联网和电子存储技术,使得人类与大数据的关系更加紧密。在大数据