基于阵列的频繁模式挖掘算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:li2008shuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十年来,频繁模式挖掘在数据挖掘领域扮演着十分重要的角色.尽管属于数据挖掘中的一个年轻的领域,频繁模式挖掘已取得巨大的进步并获得了多方面的应用.若一个模式频繁地在数据集中出现,则称之为频繁模式.频繁模式挖掘根据所挖掘的模式类型可分类为频繁项集的挖掘、序列模式的挖掘以及结构模式的挖掘.本文主要研究频繁序列的挖掘算法,并将研究重点放置在基于模式增长的网络访问模式的挖掘上,主要提出了一种采用基于阵列技术的序列模式挖掘算法.首先,本文对频繁模式挖掘的基本内容进行了详细阐述,并根据所挖掘的模式类型,分类总结了相应算法,并对频繁模式挖掘在分类以及Web中的应用作了相应的阐述.其次,提出了基于阵列的,采用数据库映射和有效利用前缀树结构的一种序列模式挖掘算法.其采用本文提出的一种数据结构来存储序列的支持数.这样,可以用于减少对数据结构的扫描次数,提升算法的效率;同时利用剪枝技术,降低了算法中条件序列基的数量,减少算法运行时内存的占用.最后,详细介绍了频繁项集以及频繁序列挖掘研究实验中人工数据合成工具IBM Quest Synthetic Data Generator的使用方法,解释了由其合成的数据集中的数据格式.通过在人工数据集以及真实数据集上的实验验证了本文所提出的算法的效率在数据稀疏时优于经典算法;在内存消耗方而,无论数据集是稀疏的还是密集的,其表现都优于经典算法,而且当数据稀疏时表现地更为优越.
其他文献
随着互联网行业如火如荼的发展,WWW信息资源得到蓬勃的增长,近年来人们越来越关注搜索引擎的研究工作,传统的基于关键字的搜索策略在目前已经发展得相当成熟,为了适应WWW飞速发展
近几年随着移动互联网的高速发展,手机上的应用程序(APP)呈现出爆炸式增长,如何帮助用户在海量的APP中找到合适的APP是各下载平台急需解决的问题。传统热门排序的方法缺点十
文物数字化是计算机视觉在文化传承领域中非常重要的研究方向,其中三维重建和纹理映射是被应用得很广泛的技术,本文以实际应用场景为背景,针对当前纹理映射中存在的提升空间,
20世纪90年代开始,生物视觉感知领域的研究逐渐转向基于生物感知的图像显著性分析。这种机制结合心理学和神经生物学的研究成果,模拟人眼机能建立图像显著性提取模型,自动选
近年来,碰撞检测作为物理仿真、虚拟现实、机器人路径规划等技术的重要组成部分受到广泛的关注。随着柔性体仿真的兴起,碰撞检测过程中的自碰撞检测问题日益凸显,传统的包围
软件测试是软件工程中一个关键的组成部分,其伴随着软件的产生而产生,是保证软件质量和可靠性的关键步骤,其目的是用最少的时间和人力找出软件中潜在的各种错误和缺陷。随着
拒绝服务攻击(DoS,Denial of Service)是当前Intenet面临的主要安全威胁之一。DoS指的是攻击者通过向受害者发送大量的恶意报文和伪造报文以消耗受害者的各种服务资源,使得合
LTE(长期演进)是3GPP为了改进3G技术推出的演进项目,采用MIMO+OFDM技术,提高了频谱利用率和数据无线传输速度,采用改进的空中接入技术,改善和提高了小区边缘用户的性能及小区容量,同
目前关系数据库的关键词检索分为基于元组图的方法和基于模式图的方法,这两种方法的基本检索单元都是元组,因此它们本质上是基于元组图的,元组图的缺点是数据规模太大,而且由
当前有关食品安全问题的报道时有发生,如“毒豆芽”、“染色黑芝麻”等,而且,忙碌的上班族常常没有时间购买新鲜的农产品。城市人群希望方便地购买到安全新鲜的农产品,农村人