代价敏感学习中属性约简与决策树分类若干关键问题研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:yao2042547
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性信息的过程。数据挖掘又译为资料探勘、数据采矿,是数据库知识发现中的一个步骤。数据挖掘与统计学、机器学习与数据库等理论与技术交叉渗透,有着深刻的研究意义和广泛的研究价值。代价是数据的重要方面。实际应用中常见的代价有测试代价、误分类代价、计算代价和延迟代价等。测试属性需要付出一定代价,我们称之为测试代价。这些代价包括金钱、时间和其它各种资源。当我们对实例做出错误分类的时候,同样也需要付出代价。例如,当医院诊断病人时,如果把有病诊断成健康,这种情况下可能都会付出代价,我们称之为误分类代价。等待而没有做有意义的事情所浪费的时间,我们称为延迟代价。正因为代价在现实中的重要意义,代价敏感学习正在成为数据挖掘中的热点课题。粗糙集理论是数据挖掘的一个重要工具,它在处理不确定数据和不完备信息系统方面具有很大的优势。代价是数据的重要方面,衡量了数据的外部特征。决策粗糙集理论所研究的代价主要是误分类代价。数据的获得需要付出测试代价,因此在粗糙集理论模型中考虑测试代价是现实意义的。这就需要一个能够考虑测试代价和误分类代价两种代价的代价敏感粗糙集模型。建立代价敏感粗糙集模型,并基于此模型研发高性能算法,可以为实际应用中的问题提供一套低代价、低风险的数据挖掘解决方案。在最近的代价敏感粗糙集研究中,已有研究者提出回溯法求解代价敏感粗糙集的最优约简。回溯法是穷举法的一种,它能够找到最优解。但在大数据集上,回溯法无法在可以容忍的时间内给出结果。因此,有学者提出了启发式算法,主要有信息熵启发式算法和遗传算法。但这些算法的效果并不理想,所以本文就提出基于蚁群优化原理和模拟退火原理的算法来解决代价敏感粗糙集中的属性约简或属性选择问题。决策树是数据挖掘和机器学习中一类高效的分类方法。由于代价的重要性,代价敏感决策树的研究成为热点。目前,已有的相关算法处理的都是符号型数据的分类问题。而现实生活中,存在大量的数值型数据,因此,本文基于C4.5算法开发了一套处理数值型数据代价敏感分类问题的决策树算法。本文内容主要包含代价敏感粗糙集的属性约简和代价敏感决策树相关问题的研究。第一部分详细研究了基于代价敏感粗糙集理论的属性约简问题。首先,我们提出了一个基于蚁群优化的算法和一个基于模拟退火原理的算法来解决最小测试代价属性约简问题。实验结果表明,我们算法的效果明显优于已有的启发式算法。其次,我们开发了一个基于模拟退火原理的算法来解决最小代价属性选择问题。这个最小代价属性选择问题是考虑两类代价的属性选择问题。这两类代价是测试代价和误分类代价。实验结果表明,在大多数情况下,新算法的效果优于已有的算法,但还有提升的空间。我们算法在大数据集上的处理时间令人满意。第二部分详细研究了考虑测试代价和误分类代价这两类代价的决策树的分类问题。并且研究了代价敏感决策树的剪枝技术。首先,本文基于C4.5决策树算法提出了一个能够处理代价敏感问题的代价敏感决策树算法。实验表明,我们的代价敏感C4.5可以很好地处理数值型数据的代价敏感分类问题。其次,本文尝试利用竞争方法和后剪枝技术来提高代价敏感决策树的效果。实验结果表明,竞争方法和后剪枝技术能够显著地提高决策树的效果。最后,本文设计了基于概率机制的后剪枝技术来进一步提高代价敏感决策树的质量和分类效果。我们设计了两种概率剪枝技术:静态概率剪枝技术和动态概率剪枝技术。实验结果表明,概率后剪枝技术的效果明显优于无概率后剪枝技术。而动态概率剪枝技术效果尤为明显。动态概率剪枝技术的一个优势是不需要用户的干预。
其他文献
随着信息化技术的发展和Web2.0时代的到来,数据资源的类型和规模不断扩大,社会发展已经进入到大数据时代。大数据时代的来临,给索引技术和数据库系统的发展带来了巨大的机遇和挑
随着数据库技术越来越广泛的应用于生活、生产和社会各个方面,对数据库管理数据的能力和效率方面的要求愈来愈高。在已有的软件和硬件资源的基础上,充分地发挥数据库的潜能,优化
空间遥感图像的形成经历了多个环节,这些环节中不可避免的出现了图像的退化,图像质量降低,为了获得高质量的空间图像,需要对获得的遥感图像进行消噪和去模糊处理,一般进行图像增强和图像复原操作。目前国内外各个机构对获得高质量的遥感图像做了研究,因此而衍生出了众多的图像恢复方法,例如采用图像点扩散函数的图像复原,采用图像调制传递函数的图像复原。本文深入研究了利用刃边法求取点扩散函数的过程,对影响图像复原效果
随着全国铁路的提速和高速铁路的建设,我国铁路交通发展进入一个新阶段,也预示着我国交通事业的规划向着更高效的方向发展,这使得人们对于铁路建设的安全性提出了更高的要求。智
在国民经济与国防现代化建设中,计算机软件在日常生活中的应用越来越普及,软件可靠性问题日趋受到人们的重视,尤其对于一些安全关键领域,如载人航天、高速轨道交通等。应用于
二值图像连通域标记是指将二值图像中通过给定规则相互连接的像素附上同样的标记,而相互不连接的像素附上不同标记的处理过程。二值图像连通域标记在机器人视觉,人脸识别等相关
随着信息产业尤其是互联网行业的高速发展,使得人们获取和存储数据的能力不断提高,数据库中存储的数据以指数形式不断增长。但在这些海量数据中,真正对于人们有决策价值的知
随着互联网和多媒体信息技术的快速发展,图像信息的数量急剧增加,使得人们获取和检索图像必须面对海量图像数据库。如何从海量的图像库中快速、有.效地检索到所需的资源已经
随着互联网技术的发展越来越成熟,远程教育也越来越受到人们的关注,它给那些希望继续深造但又受到时间、空间限制的人提供了一个很好的学习平台。远程教育是一个全新的教学方
随着经济和物质生活水平的不断提升,中国人口城市化进入高速发展阶段,人口老龄化问题也日渐突出。最新人口普查显示,中国老年人口已接近3亿,相关的医疗监护随之成为社会关注的热