论文部分内容阅读
三支决策理论(3WD)由三种决策规则组成,分别是接受决策、拒绝决策和不承诺决策。在传统的二支决策的基础上,三支决策增加了一个不承诺决策选项,即表示人们可以在信息不充分的情况下采取不承诺决策,又称为延迟决策。三支决策理论是姚在研究粗糙集和决策粗糙集理论的过程中提出的,为粗糙集理论的三个域提供了合理的语义解释:划分到正域中的对象表示做出接受决策;划分到负域中的对象表示做出拒绝决策;划分到边界域中的对象表示需要等待进一步观察才能做决策,即延迟决策。这种三支决策的决策模式与人类在解决实际问题时的决策模式很相似,目前已经在多个学科领域中得到广泛应用,例如医疗诊断、投资决策、垃圾邮件分类等等。基于决策粗糙集的三支决策模型是应用最广泛的三支决策模型,它在处理分类问题时具有一定的代价敏感性,而且可以直接通过损失函数计算阈值α和β,但是该模型没有对边界域做进一步的讨论。基于构造性覆盖算法的三支决策模型将构造性覆盖算法引入到三支决策理论中,为三支决策理论开辟了新的研究方向。它可以不需要讨论任何参数问题而自动形成三个域,而且该模型针对边界域的处理问题提出了三种处理原则,但是这三种原则在分类过程中都没有考虑到代价敏感性。近年来,随着数据挖掘技术和机器学习技术的不断发展,人们越来越多地意识到分类问题往往具有代价敏感性,如何有效地处理三支决策边界域也已经成为三支决策领域亟待解决的问题。因此,本文针对三支决策边界域的处理问题提出了两种代价敏感的分类模型,其目标就是为了对边界域进行处理的同时尽可能地降低分类损失和高代价样本误分类数。本文的主要工作包括:1、本文首先对三支决策理论的发展历程做了简单的梳理,并对该理论的研究现状以及存在的问题进行了分析和总结。然后详细介绍了两种经典三支决策模型的相关理论,即决策粗糙集模型和基于构造性覆盖算法的三支决策模型。最后针对三支决策边界域的处理问题提出了两种代价敏感的模型,分别是基于CCA的代价敏感三支决策边界域处理模型和基于K最近邻的代价敏感三支决策边界域处理模型,为三支决策边界域的处理问题提出了新的解决方案。2、基于CCA的代价敏感三支决策边界域处理模型(CPBM)将误分类损失函数的大小关系作为依据来调整样本与覆盖之间边界距离,以降低处理边界域样本的分类损失。而在基于CCA的三支决策模型中,距边界最近原则在处理样本时没有考虑分类的代价敏感性,只是根据与该样本边界距离最小的覆盖类别对样本进行划分。相比于非代价敏感的距边界最近原则,CPBM在处理边界域时可以有效提高高代价样本的召回率,最高可以达到20%,从而降低分类损失。3、基于K最近邻的代价敏感三支决策边界域处理模型(CTK)将K最近邻的思想与代价敏感的方法相结合,在处理边界域样本时将不同的决策损失进行量化,通过选择决策损失最小的决策来降低分类损失。根据求得的最优K值,该模型在处理边界域样本时可以充分的利用最近邻K个覆盖的类别信息来提高分类准确性。因此,与普通的非代价敏感方法相比,CTK在处理边界域时不仅可以有效降低分类损失,而且在某些数据集上其分类的错误率也相对较低。