论文部分内容阅读
在模式识别、机器学习以及数据挖掘领域当中的最基础性问题就是数据的分类问题,在日常的工作和生活当中分类问题已经司空见惯。近些年来,越来越多的研究者们开始从事数据分类问题的研究,已有的研究文献显示,各类基础算法以及改进算法包括数据预处理、分类学习等算法层出不穷,特别是90年代初期统计学习理论的问世标志着人们在算法领域的研究已经比较丰富,但是有一个突出的问题逐渐显露出来,那就是在实际的问题当中,当需要对某一个数据集进行分类,究竟应该如何选择这些算法和方法才能使我们的分类过程简化,这是一个日渐引起关注的问题,特别是对于类别分布非均衡性数据的分类问题,算法的选择更加麻烦。本文紧紧围绕数据集的分类问题中有关分类算法的选择问题展开研究,在深入探讨TK Ho等人提出的数据几何复杂度理论的基础上,创造性的提出了基于几何统计理论和信息论两个角度的数据混淆度的衡量指标,并分别在人工生成的类别分布非均衡性仿真数据集和真实数据集当中对这些衡量指标进行实验,得出了一系列适用于类别分布非均衡性数据集的数据混淆度衡量指标的规律和结论,这些规律和结论对于类别分布非均衡性真实数据集的分类器选择问题具有重要的指导意义。主要的研究内容和研究成果如下:首先,阅读和整理了国内外近些年来的参考文献,主要涉及的方面包括分类学习、数据几何复杂度、数据混淆度、类别分布非均衡性数据的分类等等问题,并对这些问题的研究现状进行了总结和分析(详见第一章)。其次,深入讨论数据混淆度和类别分布非均衡性数据的分类问题,在数据复杂度的基础上讨论数据混淆度,同时阐述了数据混淆度与数据复杂度之间的关系。针对类别分布非均衡性的数据分类问题,给出其研究的现状,并讨论了类别分布非均衡性数据集对模式分类的影响等(详见第二章)。再次,为了研究数据混淆度的衡量指标在类别分布非均衡性数据集当中的适应性,需要对数据混淆度的衡量指标进行详细的介绍和说明。提出了基于几何统计理论和信息论两个角度的数据混淆度的衡量指标,重点对这些指标进行改进和推广使其能适应不同类型的数据集,同时对个别指标的改进算法进行对比以选出较优指标(详见第三章)。然后,为了检验新学习算法或者评估新指标的有效性,需要在人工生成的仿真数据集和真实数据集中进行实验验证。由于仿真数据的可控性和真实数据的可信性,因此本文采用两种数据集相结合的方式进行实验(详见第四章)。最后,将仿真数据集应用在基于两种不同角度的数据混淆度衡量指标的计算方法上,以得出数据混淆度的衡量指标在类别分布非均衡性数据集当中的一些规律和结论,并且利用真实数据集进行实验验证以证明这些规律和结论的正确性,最后的实验结果表明,结论准确有效并且可以利用这些结论和规律对非均衡数据分类时的算法选择环节提供指导信息(详见第五章)。