基于邻域粗糙集的属性约简算法研究及应用

来源 :青岛大学 | 被引量 : 0次 | 上传用户:why_2213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论是一种数据信息的处理工具,能帮助我们从海量数据中高效的挖掘、获取出我们所需要的信息,在许多领域都得到广泛应用。但是经典的粗糙集理论模型只适合处理离散型数据,而在用其处理连续型数据时,需要先对数据离散化,这样容易导致某些数据信息的丢失。为此邻域粗糙集模型通过引入了邻域粒化和度量空间的概念,将粗糙集理论的等价关系转化为邻域空间上对信息粒子的覆盖关系,可直接处理连续型数据,避免了原粗糙集处理连续属性带来的信息丢失问题,扩大模型的适用范围。同时,由于邻域粗糙集模型引入了邻域粒化的计算,导致整体算法效率下降。本文主要是在现有邻域粗糙集属性约简模型的基础上,针对发现的问题,对其进行改进,并通过实验加以验证。另外,本文将改进的算法应用到改进的C4.5决策树分类器模型中,对其进行深入研究。本文主要工作如下:(1)对现有邻域粗糙集属性约简算法进行分析,针对现有算法中通过依赖度函数判断属性重要度来进行属性约简时,存在重复冗余计算,导致算法复杂度高、计算量大。本文重新定义了属性重要度的求解方法,降低了算法计算的复杂性。同时,为了减少属性间的相关性对最终结果的影响,引入相关系数的有关知识,进一步筛检属性。最终提出一种适用于二分类问题的属性约简算法。通过与其他算法的实验对比,验证了本文算法可降低属性约简的复杂度,提高运行效率。(2)现实中除了二分类问题,还有许多多分类问题。为了克服上述算法的局限性,本文结合Relief算法,提出适用于多分类情况下的属性重要度加权函数,并将其应用到邻域粗糙集属性约简的模型当中。最终提出基于Relief算法的邻域粗糙集快速属性约简算法。并通过实验验证算法是有效可行的。(3)分析了C4.5决策树分类算法,对其中存在的问题进行相应改进。将本文改进的属性重要度算法作为C4.5算法中分裂节点的选择标准,同时基于Fayyad的边界点判定定理,优化连续属性分割阈值的选择方法,减少阈值选择时对数据集的遍历次数,构建出一种同时适用于离散型和连续型数据的分类器模型,并通过实验证明了该模型对提高决策树分类精度和决策树生成效率是有效的。
其他文献
随着互联网的迅速发展及其应用的快速普及,微博、微信朋友圈、QQ动态等社交平台由其内容简洁通俗、发布便捷及时、方便用户交流等特点吸引了越来越多网民的关注,成为抒发情感
人工蜂群算法是基于仿生学提出的群智能优化算法,具有结构简单、参数少、全局搜索能力强等特点,现如今已被应用到诸多领域。但是传统蜂群算法依然存在易陷入局部最优、局部开
投资效率低下在我国现代企业中较为常见,其对企业发展产生的负面影响也得到了学术研究者们的广泛关注,现有关于非效率投资治理的文献多从董事会治理、高管激励、制度环境等因
人体下肢关节以矢状面运动为主,穿戴式下肢矢状面运动测量系统在医疗康复、影视动画、运动健身等领域前景广阔。当前主流的下肢运动测量系统存在运动空间受限、穿戴舒适性差
本文以2013年至2018年沪深A股839家非金融上市公司为样本,实证检验了政企关系、银企关系和环境不确定对企业非效率投资的影响,并在此基础上以政企关系和银企关系作为调节变量
随着科学技术的发展,遥感卫星数据的获取越来越方便,利用遥感大数据技术对农作物进行旱情监测成为了农业领域的研究热点之一。冬小麦是山东地区的主要农作物,近年来山东地区
太赫兹波是处于毫米波与远红外光之间的一种特殊而又重要的电磁波。太赫兹波在生物医学、成像、通信、遥感等方面都具有非常诱人的应用前景,因而引起了人们的广泛关注与研究
高功率密度(109-1013 W/cm2)的激光脉冲聚焦于靶材表面产生的高温高密的激光等离子体具有多种电荷态共存、原子过程复杂、演化过程快速和温度密度空间梯度较大等特点。激光等
随着微型飞行器的深入研究,扑翼飞行器也越来越受到重视,由于其尺寸小、质量轻、隐蔽性强等特点,在侦察、救援等领域有着广阔的应用前景。目前大多数的扑翼机器人采用电机作
家族企业是一种历史悠久的企业组织形式,在不同的地区能表现出了较强的灵活性和适应性。我国的家族企业起步较晚,但如今已成为国民经济的重要组成部分。随着高层阶梯论的提出