论文部分内容阅读
变量与特征选取技术已经被广泛应用许多研究领域,这些研究领域通常要处理成千上万的数据并且需要对数据进行分析研究。这些领域包括:互联网的文本处理、基因芯片的数据分析和组合化学。变量选择的目的一般主要为三方面:提高预测功能,提供更快更高效率的预测方法以及通过对数据的降维获得对数据更好的理解。在做模型选择时,变量选择涉及变量降维与参数调整。然而,变量选择在理论与实际应用中存在某些挑战。从实际应用的角度出发,减少变量维数可以分类器分类复杂度并且提高计算速度,但要在大量的变量中穷举搜索出目标变量,搜索算法的效率与复杂度是关键。一些变量选择的方法即便是在微小的扰动下也非常不稳健,比如训练样本数据的减少,变量个数的减少,变量带入的噪音等扰动。从理论上讲,变量选择的模型选择是个难点。这些难点在于机器学习与变量选择的同时进行,或者在无监督的学习中,类别个数的选择与变量选择同时进行。除上述问题外,评估一个变量与目标概念的相关程度以及提供对于所选变量集合稳健性的理论解释也是需要解决的问题。最后,对于各种变量选择方法比较与评估也有待继续深入研究。
本文的目的是让读者了解变量选取的方法,并结合支持向量基(SVM)与后退算法(Backward)提出了自己的模型,对于有监督的机器学习大大提高了变量选择的准确性与稳健性,并在模拟数据以及实际例子中取得了较好的结果。