约束频繁项目集挖掘算法研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:ujjih
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息产业与数据库的迅猛发展,特别是在计算机得到广泛普及之后,人类所积累的知识和数据量正在呈指数增加。伴随而来的就是大型数据库急遽增加和海量信息存储的问题。这些数据就像是金矿,需要用特殊的工具进行挖掘和处理,找到其中真正有用的金子。这也是拥有大量数据集的用户非常关心的问题。   针对数据挖掘的研究方法主要包括分类、聚类、序列分析、关联规则的发现、约束、偏差分析等,而关联规则的发现是数据挖掘研究中的一个重要的领域。对一个大型的数据集而言,如果盲目的进行挖掘不仅效率低下,而且还可能产生过多的冗余数据,造成用户更大的困扰。而在数据挖掘和知识发现过程中合理使用约束则可以提高挖掘的效率和精度,使挖掘的知识真正为我们所用。   本文主要对关联规则以及约束问题做了全面的分析和总结,并在此基础之上提出新的算法。   首先,为了避免大量的不相关的项目进入挖掘过程,造成计算时间和空间的极大浪费,本文运用简洁性约束的特性,对事务数据库做预处理,得到满足简洁性约束频繁项目集,去除关联性不强的冗余数据,加快知识生成的过程。其次,动态生成阈值。根据用户的需要和实际情况,运用标准正态分布的性质,动态的生成单调性与反单调性阈值来对数据进行约束,由于挖掘是在用户的指导下进行的,使得挖掘的结果更准确,挖掘结果之间联系更加紧密,同时挖掘结果也必将是用户真正感兴趣的知识。   关联规则是挖掘和发现大量数据中项集之间有趣的关联或者相关联系。但是随着数据量的增加,数据密度的增大,数据挖掘结果和挖掘时间之间的矛盾凸显。因此,采用简洁性约束对数据进行处理,并使用正态分布原理计算动态阈值,提高了数据挖掘的每一步的高效性、准确性。  
其他文献
随着软件技术的迅速发展,软件系统的规模不断扩大,对系统模块化要求也越来越高。面向方面编程(AOP)作为一种新的软件开发范型,利用方面来实现横切关注点的模块化,使系统的可
每天众多的财经网站会发布股票信息,这些信息数据量巨大、存在大量冗余和容易混淆的数据,一般的用户需要花费很多时间才能获得自己想要的股评信息。本文从国内互联网股评及网
随着网络及软件技术的快速发展,Web services的重要性越来越明显。为了更好的应用Web services,Web services分类成为重要的基础性工作,其在Web services的发布,发现,语义标
梁-柱结构是结构工程中常见的构件,无论是在机械工程、土木工程、水利工程以及航空航天工程,还是在一些高科技领域,都能够找到梁-柱结构的应用背景。随着高科技的不断发展,梁
科技时代带来信息的飞速增长,计算机与网络技术的飞速发展使整个应用领域的数据和信息十分巨大,更甚于人类的参与,使得数据与信息系统中的不确定性更加显著、因此,对于图片视
安全是任何网络系统都关心的问题;对于缺少基础设施的资源约束型无线传感器网络来说,安全显得尤为重要。长期以来,无线传感器网络安全的研究是无线传感器网络研究中的研究热
远程复制又名远程镜像,是维持数据一致和灾后恢复的基础,也是数据容灾的核心技术。它在本地生产中心与物理上分离的备份中心建立远程复制连接,在备份中心存储并维护数据镜像。当
Internet的普及和应用十分迅速,已成为人们获取信息和知识的重要途径。互联网体系结构具有开放、异构和分布式等特点,互联网上的信息具有海量、冗余、更新快等特点。搜索引擎
森林资源是社会发展的重要物质基础,其可再生性对经济发展、社会进步和环境的稳定具有重要意义,是其它资源所不能代替的。随着遥感技术的快速发展及广泛应用,地物的纹理、形状等信息十分丰富。近年来,使用滤波技术对图像纹理特征进行纹理捕捉,已成为提高图像分割精度研究的主要方向之一。综合运用光谱信息和图像纹理信息提取森林植被纹理结构特征,已经成为当前遥感图像分割技术研究的一个重要方向。由于,遥感图像中森林植被树
随着信息技术不断的飞速发展,促使人们对家居环境的舒适性、安全性提出了更高的要求。此外安防技术也已经从商业领域、军事领域等逐步开始转变、渗透到了家庭领域;安防系统由