基于粗集约简构造概念格的关联规则挖掘

来源 :上海海洋大学 | 被引量 : 2次 | 上传用户:shigang_fly1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数据库管理系统被广泛应用,以及计算机和网络的发展,产生了各种各样的数据。在如何从海量数据中提取有价值的知识和信息,更好利用这些数据,来预测未来发展趋势等迫切的需求下,数据挖掘便应运而生,引起了信息产业界和整个社会的广泛关注,成为目前研究热点之一。关联规则挖掘是数据挖掘的一个重要研究内容和研究热点之一。粗糙集与概念格是数据分析和知识处理的有力工具。粗糙集理论是一种处理不完备和不确定知识的数学工具,已经广泛应用于数据挖掘等领域。基于粗集属性约简,删除冗余属性,降低属性的维数,来减少数据挖掘规模和大量候选项集的产生,是粗糙集理论在数据挖掘领域的重要研究内容之一。而概念格产生于形式概念分析,它的每个结点实质上是一个最大项目集,通过构造概念格,利用Hasse图可视化的优点,方便计算支持度和置信度,以及快速地找出感兴趣的或有意义的关联规则,使用户能更好的分析挖掘结果,得到较好的关联规则。因此,利用概念格提取关联规则是有意义的。本文分析了经典的关联规则挖掘算法,对进一步需要研究的问题进行了分析,包括挖掘过程中产生大量候选项集、多次扫描数据库,以及当数据属性数目较多时挖掘效率低下等问题。分析了经典的属性约简算法,包括Pawlak属性约简算法,信息熵约简算法和Skowron矩阵约简算法,而这些算法要么不够直观,要么比较复杂,要么计算量大,空间性能较低,要么实现困难。接着以这些问题为突破口,将粗集约简和构造概念格关联规则提取这两种方法综合,实现关联规则挖掘。本文主要工作及结果如下:1)本文提出一种改进的基于知识划分粒度的决策表约简算法。该算法从知识划分粒度概念出发,定义了相对知识划分粒度和相对知识划分粒度的相对重要度,以相对知识划分粒度相对重要度为终止条件,求取相对属性约简集。该算法采用的启发式算法,首先通过决策表信息求出相对核,然后在核的基础上求出相应的相对约简集。并通过实验分析表明该算法是有效的,能得到精确的约简集,表现形式简洁,易于理解,易于在计算机上实现。2)本文将粗集约简和构造概念格关联规则提取这两种方法综合,来提取关联规则。主要思想是,在数据挖掘数据预处理阶段完成后,使用改进的基于知识划分粒度的属性约简算法对数据预处理好的数据进行属性约简,删除冗余属性,降低属性的维数,来减少数据挖掘规模和大量候选项集的产生。然后通过构造概念格算法对约简结果集构造概念格,通过Hasse图形式表现决策表信息。利用Hasse图可视化的优点,方便计算支持度和置信度,以及快速地找出感兴趣的或有意义的关联规则,使用户能更好分析挖掘结果,得到较好或感兴趣的关联规则。通过全球变暖的实例进行了实验分析和验证,表明将粗集约简和构造概念格关联规则提取这两种方法综合,是有效的,并能得到较好关联规则。3)在上述研究基础上,设计基于粗集约简构造概念格的关联规则挖掘原型系统。该系统具有普遍适用性,主要优点在于,减少了候选项集、数据挖掘规模和扫描数据库以及大量冗余的规则的产生,提高了挖掘的效率和准确性。
其他文献
随着信息时代的高速发展,使得二维条码在多个领域内广泛的被应用,但在复杂环境情况下,对所拍摄的二维条码进行解码会受外界条件影响,造成拍摄的条码图像退化,不利于二维条码信息
随着全球信息化的高速发展,计算机网络已经成为了一种不可或缺的信息知识来源,但随之而来的,是网络信息的无限增长。这种无限制的增长带来的是信息资源供给量远远大于资源的需求
机器翻译作为计算机自然语言处理的一个重要分支。近年来,随着计算机计算速度,存储容量的不断提高,基于实例的机器翻译方法越来越受到研究者的青睐。基于实例的机器翻译(EBMT)克
生产调度问题是一类复杂的组合优化问题,在实际生活中存在于多个领域,如铸造业、金属加工业、物流、通讯等。对生产调度问题进行研究的主要目的是使得资源在使用过程中进行合理分配,从而提高资源的利用率及生产效率,合理的调度方案可以大幅提升企业的竞争力。随着社会的发展,生产调度问题逐渐变复杂,从经典调度发展到一类新型的调度,即批处理机调度。批处理机调度问题(简称批调度问题)区别于传统调度的主要特征是一台机器在
基于H.264/AVC编码标准的可分级视频编码(Scalable Video Coding,SVC)可以实现时间、空间和质量三种可分级性编码,以应对网络异构性、终端设备多样性和用户需求个性化等要求。由
在人工智能不确定性问题研究中,如何实现定性概念定量化,是解决多属性复杂系统评价的难点,传统的方法是通过专家依据经验给出定性评价指标的隶属度或隶属函数,经过随机模糊变换实
传统的手写输入法识别过程包括用户输入,单字识别,用户选择以及改错,在这个过程中,不免会打断用户书写过程中的思路,难以保持书写的连贯性,导致输入法的效率低。同时这种输入法识别
搜索引擎的出现帮助用户在纷繁杂乱的互联网信息中寻找相关的信息,因此检索结果的排序是至关重要的。作为新兴信息检索技术的排序学习算法是解决互联网信息检索问题的新的解决
随着互联网的发展,人们越来越多地依靠网络来获取和发布信息,互联网中存储和传播的信息对于大众舆论的形成和传播有巨大的影响,其中也隐藏着巨大的安全威胁。许多不法分子利用网
高速发展的互联网时代,用户业务需求的日益增长使得功能单一的原子服务必须通过一定的逻辑规则进行组合才能使用。原子服务的可靠性、可用性等质量属性以及隐私暴露、信任度等