论文部分内容阅读
预测建模是数据挖掘中的一项重要任务。现在很多企业使用预测技术来改善商业决策、提高生产率、检测疾病、预测天气等等。k NN算法是预测建模最简单最有效的算法。k NN算法是基于实例的学习,使用算法时我们必须有接近测试样本数据的训练样本数据。由于k NN算法具有准确率高、对离群点不敏感、对数据无假定输入要求等优点,在分类、回归、聚类等领域中得到了广泛的研究与应用,现已成为数据挖掘十大算法之一。然而,k NN算法在一些应用中也存在缺点。例如,多数类偏向、最优k值难以确定、维数灾难等。为此,专家学者们提出了一些新算法和改进算法来解决k NN算法存在的问题。针对以上问题,本文基于QENN算法提出了RBQENN算法,解决了k NN算法对不平衡数据分类时的多数类偏向问题。针对RBQENN算法的最优参数难以确定问题,本文提出了基于GEP的参数优化方法来解决。此外,本文还引入GEP作为特征选择方法解决RBQENN算法的维数灾难问题。本文将每个算法都跟其它算法进行了对比实验来证明提出算法的有效性。本文主要工作包括:(1)针对k NN算法在对不平衡数据分类时的多数类偏向问题,引入QENN算法,提出RBQENN算法,该算法只选取超球半径内的训练样本作为最近邻,并通过实验证明RBQENN算法在分类性能和回归性能上优于k NN算法和QENN算法。(2)针对RBQENN算法的参数优化问题,本文提出了基于GEP的RBQENN算法参数优化方法,该方法利用GEP算法在RBQENN算法参数取值范围内搜索最优参数值,并通过实验证明提出的参数优化方法的有效性。(3)针对RBQENN算法的维数灾难问题,本文提出了基于GEP的特征选择方法,该方法利用GEP算法对数据集的特征组合搜索最优特征子集,并实验证明提出的特征选择方法的有效性。本文研究工作的意义:通过本文中的实验表明本文提出的算法在分类和回归上都取得了较好的实验结果,因此本文研究工作具有一定的应用价值。