基于时间间隔的事件序列频繁模式挖掘算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Louis027
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现存的序列模式挖掘算法多是基于瞬时事件的,然而在现实世界中很多事件都是发生在一段时间内,例如语言分析,网络检测等,时间间隔事件序列频繁模式挖掘在这些领域都有很重要的应用。本文的主要研究内容正是带有时间间隔的事件序列频繁模式挖掘。  与传统的序列模式挖掘不同的是时间间隔事件之间的关系是很复杂的,这也正是这种序列频繁模式挖掘的难点。到目前为止多数文章的关系定义都是基于Allen关系定义,本文中的事件关系定义也是基于 Allen关系定义,并在此基础上进行了去噪声处理,使之更适应现实场景。另外本文简单的描述了影响频繁模式生成的各种兴趣度衡量,并且基于现实情况,本文采用支持度为兴趣度衡量。  而本文最主要的贡献是本文提出了一种基于“候选频繁模式生成—支持度计算”的高效算法,并且在两个阶段都提出了改进策略。首先在候选频繁模式生成阶段不同于传统的方法中利用k层频繁模式与k层频繁模式生成k+1层候选频繁模式集,本文提出用k层频繁模式与2层频繁模式构成k+1层候选频繁模式集,这样就能减少在合并两个频繁模式时的关于两个模式中间部分是否相等的比较次数,这种策略在提高算法效率的同时也能够减少冗余候选频繁模式的生成。其次,本文的算法维护一个2-频繁模式集合,利用一定的策略来尽可能的减小用于合并生成候选集的2-频繁模式集,使得产生尽量少的候选频繁模式,提高算法的效率。  在支持度计算阶段本文同样提出了两种改进策略。首先本文在构造候选频繁模式集的同时构造了索引,指向需要遍历的客户序列,这能够有效的减小算法的搜索空间,提高算法效率。其次不同于传统的挖掘算法中在计算支持度的时候多次遍历数据库,本文提出了一种算法,当计算具有相同长度的候选频繁模式的支持度时,只需遍历一次数据库。总之本文在支持度计算的过程中一方面减少遍历数据库的次数,另一方面减少遍历数据库时的搜索空间。  最后,本文提出了仿真数据的生成。在此基础上本文进行了两个方面的实验,一是本文提出了几个重要的参数对算法的影响,并且在实验中验证了提出的理论。二是为了证明本文提出的算法的有效性,本文就算法的效率以及正确率两个方面与枚举树算法和索引集算法进行了对比。
其他文献
半监督学习是人工智能研究领域的一种有效方法,主要是用于解决在标签样本数量不足的情形下模型的训练和分类(或识别)问题。现实生活中受各种主观或客观条件的影响,标签的样本的数
市政工程造价系统一直以来由于其自身的复杂性和变化性,至今未有人性化的计量计价软件。随着软件工程和软件复用的飞速发展,在当前最新的软件复用技术上设计新的工程造价系统
网络已经成为人们生活中不可或缺的一部分,然而网络入侵严重影响了网络的正常运行与使用,甚至会给用户带来了巨大的损失,网络安全已经成为一个重要的研究课题。网络安全通常
随着中医药信息化的进一步深入,更广泛的中医药临床数据被规范化整理,形成了大量标准的中医药数据库,使得中医药信息的数据量进一步膨胀,而原有的单机版DartSpora数据挖掘软
按照计算复杂性对计数问题进行分类是理论计算机科学中的一个核心主题。尽管最近几年精确计数领域有很大的进展,对于计数问题的可近似性的研究却一直都很初步,我们仅仅在一些非
人脸识别技术,具有直观、方便、快速、准确以及人机交互友好的特点,一直以来都是模式识别和机器视觉领域一个重要的研究方向。但是,可见光人脸识别在实际的应用过程中,容易受到光
RFID(Radio Frequency Identification)射频识别是一种快速、非接触、实时、低成本的物品识别方式,可以广泛应用于物体识别、跟踪,并能够与广泛的基于语义和逻辑的计算应用集
Mashup是Web2.0时代的一种典型的Web应用,它易在更方便的从多个外部资源站点中获取所需要的信息,并将这些信息有机的整合在一起,从而构建出全新的应用。它具有易用灵活,数据
在数字水印技术高速发展的情况下,数字版权保护的瓶颈体现在如何利用数字水印技术来抑制数字媒体非法扩散,以及如何保护在数字产品交易过程中参与交易的各方的合法利益上,因
国际电信联盟(International Telecommunication Union,ITU)和国际标准化组织(ISO/IEC)制定了一系列视频编码标准最新的视频编码标准H.264,以此改善视频的压缩效率和增强视频