论文部分内容阅读
随着当今信息社会的不断发展以及大数据时代的到来,人工智能(AI,Artificial Intelligence)的兴起正在大幅度改变我们的认知和生活,人工智能发展的背后,是对复杂的数据挖掘技术和机器学习算法的深入研究.在机器学习的实际应用中,数据的特征数量过多往往会引起“维度灾难”,使得数据分析效率降低,模型训练时间过长,模型结构过于复杂,泛化能力随之下降.特征选择能去除一些不相关(irrelevant)或冗余(redundant)的特征,提高计算效率,减少运行时间.除此之外,减少无关特征有助于理解数据,选取出真正与问题相关性高的特征有利于简化模型.经典Relief算法是一种常用的过滤式特征选择方法,它通过计算各特征和分类的相关性给予特征以权值,在进行特征选择时权值小于某个阈值的特征将被去除.经典Relief算法一般以随机样本中各特征区分其附近样本类别的能力为基础,来计算特征和类别之间的相关性.经典Relief算法的运行时间随着样本的随机抽样次数N和初始特征个数M的增加而增加,计算效率较高.Relief系列算法包括最早提出的经典Relief算法以及后来拓展来的Relief-F和RRelief-F算法,其中经典Relief算法针对的是二分类问题,Relief-F算法可以解决多分类问题,RRelief-F算法更多解决的是目标属性为连续值的回归问题.极大熵Relief特征加权(maximum entropy relieffeature weighting)算法,简称ME-Relief算法,它结合了最大间距和极大熵原理,具有更高的适应性和鲁棒性.对于数据集逐步增大的问题,ME-Relief算法已经扩展到在线版本,因而能够处理多分类数据和在线数据.本文提出了极大信息增益Relief算法,即MIG-Relief算法.该算法首先根据信息增益和间距最大化构造了新的目标函数,在目标函数中提出了具有更好光滑性的模糊差异度度量函数,减少了参数对优化目标函数的影响,从而提高了算法对数据的适应性;除此之外,本文对MIG-Relief算法的数学形式和应用方面也进行了更细致的研究.