论文部分内容阅读
本文在模式分类的背景下,对特征选取的一些问题进行了深入研究,主要工作如下。
1)粗糙数据模型是Kowalczyk提出的一种广义粗糙集模型,具有结构简单、实用性强的优点,但也存在建模效率低、分类精度和噪声数据处理能力严重依赖于数据空间的栅格划分的弱点。为此,文中引入了模糊自适应聚类技术,将数据空间的硬划分转化为与模式类相适应的模糊划分,提出了一种基于粗糙集理论的规则模式分类器模型——模糊粗糙数据模型。该模型能够用较少数目的模糊类反映出数据集中具有超椭球、超平面或超线型的特征模式类,有效地提高了分类器模型的建模效率和数据概括能力。不同数据集的实验测试结果验证了该模型的优良性能。
2)互信息是特征选取问题中一类非常有价值的特征评价准则,但却存在高维空间下难以计算的困难。针对这一问题,论文首先对各种特征评价准则进行了系统研究,在此基础上,推导出了高维特征空间在信息均匀分布条件下,候选特征f<,i>与输出类别C之间在给定已选特征子集S情况下的条件互信息I(C;f <,i> |S)的近似估计公式。利用该公式,可以在特征信息不严重背离均匀分布的情况下对特征进行有效地评价。基于该估计公式,提出了一种基于已选特征子集二阶互信息的特征选取Filter算法(SOMIFS),该方法能够自适应地估计出候选特征与已选特征之间关于输出类别的冗余信息,不再象Battiti的MIFS方法及Kwak和Chow的MIFS-U方法那样,需要预先人为设定与特征冗余程度有关的参数β的数值,从而大大改进了算法的性能。另外,针对特征信息任意分布的情况,给出了一种基于互信息的构造性特征评价准则;基于该评价准则,进一步提出了特征信息任意分布条件下的构造性特征选取方法(MICC)。
通过在不同的解析数据集和基准数据集上的测试与比较,实验结果表明,与Battiti的MIFS及Kwak和Chow的MIFS-U等特征选取方法相比,本文所提方法SOMIFS和MICC能够提供更加准确、有效的特征评价准则,具有更强的适应性和更好的预测性能。
3)在输入特征之间存在复杂关联关系的情况下,使用单一评价准则的filter方法由于存在“嵌套”效应等弱点,往往难以发现最优特征子集。针对这一问题,文中提出了一种基于互信息、以filter为局部搜索方式、以混合遗传算法为优化组织形式的特征选取Wrapper方法。该方法将遗传算法的全局搜索能力强、filter方法的计算速度快和wrapper方法的预测精度高等三方面的优势,以互信息为纽带完美地结合在一起,该使得该方法具有很强的最优特征子集搜索能力。不同类型的数据实验研究表明了该方法不论在分类预测精度上,还是在适用性上都具有很好的性能。
4)研究了特征选取的应用问题,分析了影响特征选取算法选用的因素及其相互关系,对合理选用特征选取算法具有一定的参考意义。