加权频繁模式挖掘算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:liuqingsong835200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,频繁模式挖掘作为数据挖掘中的重要技术,成为了人们的研究重点。随着应用场景越来越复杂,频繁模式挖掘已经无法满足实际应用的需求,因此加权频繁模式挖掘逐渐受到人们的关注。加权频繁模式挖掘重视项目之间重要性的差异,挖掘出用户更关注的频繁模式。本文在加权频繁模式挖掘研究领域,基于现有算法存在的不足开展研究,提出了两种改进的算法,并分别进行了实验评估。论文主要研究工作和成果如下:(1)在预设项目权重类的加权算法中,针对现有的IWS算法在稠密型数据集上的运行效率问题,研究提出了一种改进的加权频繁项集挖掘算法——间隔字节段差集算法(IBSS_FWI)。在稠密型数据集上挖掘加权频繁项集时,现有的代表性算法中,IWS运行效率低而WIT-diff内存需求高,本文针对这一问题提出了IBSS_FWI算法。IBSS_FWI提出了间隔字节段差集结构(IBSS),使得算法能够兼具位矢量和差集策略的优势。然后提出了两个IBSS之间的差集的快速计算方法,并且给出了通过IBSS计算项集加权支持度的方法。最后通过生成IBSS-tree从加权项事务数据库中挖掘出加权频繁项集。本文在公开数据集上,将IBSS_FWI和现有的两种加权频繁模式挖掘算法IWS和WIT-diff进行了实验对比。实验结果表明:在稠密型数据集上,IBSS_FWI在运行效率和内存占用两个方面均明显优于了现有的代表性算法WIT-diff和IWS。(2)在项目数量加权类的算法中,对当前TWTA算法的运行效率改善问题进行深入分析,研究提出了web日志中停留时间加权的频繁页面集挖掘算法——过滤验证算法(FTA)。针对现有的TWTA及WT算法存在大量候选集,运行效率低的问题,FTA提出了过滤不可能频繁的页面集的基本原理,并通过预处理、过滤、验证三个步骤来快速挖掘加权频繁页面集。在过滤步骤中,提出了两种过滤方案来提高过滤过程的效率,分别是基于改进Apriori的过滤算法(FAA)和基于WPS-tree的过滤算法(FWPS)。本文在公开数据集上,将FTA的两种实现方式——FTA_FAA和FTA_FWPS,与现有的TWTA、WT两种算法进行了实验对比。实验结果表明,FTA_FAA和FTA_FWPS的运行效率显著高于TWTA和WT算法,其中,FTA_FWPS的效率略高于FTA_FAA,而FTA_FAA在内存占用上相比FTA_FWPS具有较大优势。本文对加权频繁模式挖掘算法性能改善问题进行了积极探索,希望对于加权频繁模式挖掘等数据挖掘相关领域具有一定的学术和应用借鉴价值。
其他文献
白云鄂博北部地区横跨在华北板块北缘增生带和华北板块之上,是研究古亚洲洋和华北板块增生的理想区域,区域内发育有大量早古生代火山岩和侵入岩。对研究兴蒙造山带在早古生代
苏尼特右旗温都尔庙地区作为内蒙古兴蒙造山带南侧晚古生代构造研究的重点区域,对该区石炭、二叠系地层进行沉积岩石学、古生物地层学和同位素年代学的研究有助于了解区内盆
密码学作为保障数据安全传输的理论基础,在信息安全日益得到人们重视的大背景下,也逐渐成为热点的研究方向。分组密码以其加密速度快、灵活性强的优势被广泛应用到实际环境中。分组密码算法的差分攻击及其衍生的一大类密码分析方法已经在很多算法上都被验证是有效的。所以,对于一个加密算法来说,其抗差分攻击的性能是评估其安全性非常重要的方面。而差分攻击的第一步就是寻找一条有效的差分路线。差分路线的自动化搜索是近年来密
模型拟合是人工智能领域的基础研究内容,其涉及到图像处理、模式识别等计算机视觉领域的知识,已经被广泛应用到机器人定位、无人驾驶、图像拼接等任务中。模型拟合的目的是从
DRAM(Dynamic Random Access Memory)以其低能耗、低成本、良好的性能和可扩展性一直作为计算机内存的最佳选择。随着CPU多核技术的发展和系统实时性的要求,内存性能对整个系统的性能影响越来越大。DRAM内部层级结构可将其划分为多个能够并行访问的bank。因此,多核平台中内存的性能依赖于两个方面:数据是如何在bank中分布的,bank是如何在CPU核之间共享。这导致了多核系
毛竹(Phyllostachys edulis)是一种同时具有生态、经济和社会价值的禾本科植物,是我国分布极广的重要林木资源。同时,毛竹具有多种不同于其他植物的生长发育特性,如快速生长,
茉莉花(Jasminum sambac(L.)Ait)为木犀科素馨属植物。茉莉花多在夜间开放,是典型的夜花。茉莉花香气四溢,是著名的花茶原料和香精原料。在茉莉花开放过程中,其香气的合成、
教育信息化2.0时代,总结了教育信息化1.0时代建设的经验,提出了“互联网+教育”大平台的发展目标,指明了教育信息化应用系统的建设方向。“互联网+教育”平台的最大特点是整
在信息技术和通信技术的发展过程中,一直延续着信息采集、信息传输、信息处理的获取和处理方式,而在最基础的信息采集部分,最关键的技术是传感技术。传感,即从自然信源中获取信息,并对之进行处理的过程。与传统的传感器相比,光子晶体传感器具有高灵敏度、低模式体积、易集成和抗电磁干扰,同时光子晶体传感器是一种光器件,对于通信的全光集成也起着很大的推动作用。在光子晶体传感中,光子晶体微腔由于其结构的多样性和高Q值
软件定义网络(SDN,Software—Defined Networking)是由美国斯坦福大学Clean Slate研究组提出的一种具有革新意义的下一代网络架构。与传统网络不同,SDN通过南向接口协议将控