基于素数编码的序列模式挖掘研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:dong_0622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘是数据挖掘领域中一个活跃的研究分支,有着广泛的应用前景,如顾客购买行为分析、Web点击流分析以及生物序列分析等,目前已经得到了广泛地研究,提出了许多经典的算法,如GSP算法、SPADE算法以及PrefixSpan算法等等,这些算法仅仅是挖掘出满足用户指定的最小支持度minsup的序列模式,然而用户可能需要更加抽象的信息,即根据分类概念,将序列数据库中的项目分成不同的类,形成不同的层次进行多层序列模式挖掘,而且用户可能更关注比较重要的序列模式,即将序列的权重参与到挖掘过程中进行加权序列模式挖掘。由于素数论中的素数编码方案具有良好的数学性质、鲜明的层次性与简洁的更新操作等优点,为此本文利用素数编码对序列模式挖掘进行了系统的研究,主要研究工作包括:(1)在多层序列模式挖掘中,编码既要直观地表达层次关系,又要方便确定不同层次之间的关系,编码方式将直接影响着算法的效率。本文在多层序列模式挖掘中采用素数编码,并证明了通过素数编码的简单整除操作就可确定层与层之间的父—子关系,提出了基于素数编码的多层序列模式挖掘算法(PMSM)和交叉层序列模式挖掘算法(CROSS-PMSM)。实验证明,该算法能有效地从序列数据库中挖掘多层和交叉层序列模式。(2)在加权序列模式挖掘中,基于候选码生成-测试方法的MWSP是目前应用性最好的算法之一,然而在挖掘过程中容易出现候选组合爆炸的情况,为此本文提出了一种高效的加权序列模式挖掘算法(PWSM)。PWSM算法引入k-最小加权支持数概念并利用前缀投影数据库原理有效地避免了候选组合爆炸的发生,并且在挖掘的过程中充分利用最小加权支持数,再次对算法进行优化。实验表明,该算法较MWSP算法有较好的时间和空间性能。(3)在多层序列模式和加权序列模式的基础之上,本文定义了多层加权序列模式MWSP (Multi-level Weighted Sequential Pattern),提出了多层加权序列模式挖掘框架,并且给出了基于素数编码的多层加权序列模式挖掘算法(PMWSM)。该算法即可以为用户提供更加抽象的信息又可以挖掘出满足用户需求的有价值的序列模式。通过实验证明,本文提出的基于素数编码的多层加权序列模式挖掘算法在时间与空间上都具有良好的性能。
其他文献
现在是信息化的社会,各种信息充斥在我们周围,空间信息在人们的生产和生活中更占到了所接收信息总量的百分之八十以上。这些信息通过数字地球平台以二维、三维的形式展示出来
大量的移动设备如个人数字助理(PDAs)、智能电话、笔记本电脑、甚至是视频游戏控制台等,在硬件和软件方面都取得了巨大的进展。这些设备集成了多个有线或无线接口,如蜂窝网络
计算机图形学在众多领域的成功应用促进了对三维模型的需求,出现了很多捕获三维模型的设备。最为常用的室内三维激光扫描仪所获得的网格数据所含噪声比较低,而室外激光扫描仪
随着信息技术的发展和互联网的广泛普及,人们对于互联网办公也越来越认同。这股浪潮也推动银行不断加强创新,将越来越多的传统业务搬到网上,并扩展新的应用,为客户提供多渠道的丰
近几年来,随着三维激光扫描技术的出现和不断快速发展成熟,基于点云的研究成为计算机图形学中的主要研究内容之一。在对点云的研究中,由于与视点无关的脊谷特征能很好表征三维物
目前防范木马的手段主要是依靠杀毒软件和网络防火墙所附加的检查功能。杀毒软件主要依靠对木马文件本身的特征以及木马对系统进行修改的行为特征来识别木马,防火墙软件主要通
随着互联网信息的迅速膨胀和发展,海量的信息不断涌入至网络中,在信息资源丰富的同时用户面临着“信息过载”和“信息迷向”的问题。商业搜索引擎在一定程度上解决了这些问题,但
随着计算机软硬件和图形学技术的高速发展,使得利用计算机自动创作动画成为一种普及的动画制作方法。近年来,随着运动捕获设备的广泛使用,生成了大量具有真实感的3D人体运动数据
随着科技的发展,计算机三维模拟模拟慢慢地进入人们的生活,并广泛地应用于各个领域,如军事、工业、气象、交通、教育、通讯、社会、娱乐等等。其中布料的三维模拟不仅可以增强窗
基于图像的建模技术多年以来一直是计算机视觉领域研究的一个热点问题。它是利用计算机视觉和计算机图形学的相关知识,仅仅根据物体在不同角度的一系列图像中记录的相关信息来