论文部分内容阅读
传统的模型选择中,往往以所有模型中性能指标值的最大或最小来进行最优模型的选择.然而,实际应用中这样选择出的最优模型常常具有较高的复杂度,缺乏较稳定的泛化能力,原因可能是模型选择时,指标值的差异在统计意义下并不显著,且差异是由随机误差导致的.为此,本文假定所有候选模型的复杂度已知,基于组块3×2交叉验证性能指标差异的显著性t检验给出了一种新的模型选择算法,它通过两两比较模型的性能指标差异,逐步选择出了在统计意义下指标无显著差异且复杂度较小的模型,模拟实验表明此方法在大多数情形下有更好的泛化能力.进一步,基于组块3×2交叉验证模型选择方法是组块3×2交叉验证t检验模型选择方法的基础,本文在分类问题的模型选择中,从理论上证明了组块3x2交叉验证模型选择方法具有选择一致性,并通过模拟实验验证了基于均值和投票两种情形所选择的最优模型是一致的.接下来,在回归和分类的模型选择任务中,将组块3×2交叉验证t检验模型选择方法与AIC, BIC, SRM, MDL, Bootstrap,5折交叉验证,组块3x2交叉验证方法基于均方误差准则进行了实验比较.实验结果表明,在平方损失(回归)和0-1损失(分类)最小化下,组块3×2交叉验证t检验模型选择方法常选择到复杂度较小的模型,并且在大多数情形下具有较小的均方误差.本文的创新之处是,在模型选择问题中引入了模型的复杂度度量作为模型选择的一项指标,提出性能指标值在统计意义下无显著差异时,选择复杂度较小的模型,并给出了基于组块3x2交叉验证t检验的模型选择算法,通过模拟实验证明了其优良性.