基于特征选择的降维方法的研究与应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:kenkenson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息科学的迅猛发展,各类智能终端设备广泛应用于日常生活中,其产生的数据呈现出爆炸式的增长。在数据挖掘过程中常常会出现高维的数据灾难,这些数据中存在大量不相关或噪声数据,使用这些数据去训练机器学习模型会导致计算效率低、过拟合等问题,进行数据降维正好能解决这一问题。本文针对不同类型的数据降维方法进行了研究,探讨了算法的运行情况及其应用场景。首先,基于粗糙集理论及其属性约简原理,将其与粒子群的特征子集搜索算法结合起来,引出了基于粒子群的属性约简算法(PSOFS)。然而,粒子群算法在迭代搜索过程中种群的位置信息过于集中,容易导致算法陷入局部最优。因此对粒子更新规则进行了改进,实现了一种基于基因交叉变异更新规则的量子粒子群的属性约简算法(QPSOFS),扩大了算法搜索域,有效避免了粒子群算法中局部最优的缺点,能更好的得到全局最优解。通过UCI经典数据集进行实验,比较了不同算法之间的性能差别,验证了量子粒子群属性约简算法的有效性。其次,基于随机森林的相关理论及其特征重要度定义,讨论了特征重要度对算法相关参数、噪声特征、以及高相关性特征等的灵敏度,验证了随机森林算法特征重要度评估的有效性与稳定性,实现了一种基于随机森林特征重要度的特征选择方法(RFFS)。通过UCI数据集对这一算法有效性进行了验证。最后,进行了算法实例应用的讨论。在面部语义的识别过程中,分别采用PSOFS、QPSOFS以及RFFS算法进行语义特征的提取,选取较优的RFFS算法的结果建立了简单的语义识别规则。在人脸图像分类中,RFFS较好的解决了PCA降维后特征分类准确率较低的问题。通过应用分析充分验证了本文研究算法的有效性。
其他文献
中南美地区是服装制造、消费的好地方。中南美地区劳动力丰富、工资低廉、土地供应量充足且租金低,与邻近国家在运输上也有一定的便利条件。美国对中南美国家在配额分配方面
<正>中国制造最困难也最核心的是,如何建立起对商业超越世俗利益的成就动机。金融危机后,多数企业开始反思"工业精神"的缺失,但并不知道如何有效培育"工业精神",以及如何运用
随着"疏散化"趋势的到来,我国大都市地区所呈现的集聚与扩散趋势逐渐明显。以我国128个大都市区为例,对其经济发展在空间上的集散特征进行空间自相关分析。全局莫兰指数表明,
<正>近日读陈履生编著《红旗飘飘——20世纪主题绘画创作研究》,获益良多,也引发了一些关于主题性创作的研究方法与叙事框架的思考。所谓"主题性创作",严格来说只是一种约定
在2008年金融危机中,由于银行控股集团表现出巨大的抗风险能力,导致许多非金融控股集团转变成为银行控股集团。但同时,监管者和立法者也关注到银行控股集团公司治理的复杂性从一
2003年SARS是高传染性的公众健康危机,我国铁路旅客运输出现严重“滑坡”并蒙受巨大损失。本文依据本底趋势线理论,对此次危机造成铁路客运量损失、危机生命周期及全国28个省市
“中国制造2025”是我国实施制造强国战略第一个十年的行动纲领,制造业结构调整是“中国制造2025”提出的首要任务。作为实施制造强国战略“中国制造2025”加速制造业结构调
将高维特征用于跳频电台细微特征个体识别具有很大优势,为了增强对跳频电台的分类识别能力,需要增加特征类型和维数,提高特征集的表征能力,但同时会引入大量冗余特征,导致分
目的探讨慢性阻塞性肺(COPD)疾病患者力量训练依从性的影响因素,为改善COPD患者力量训练提供依据。方法采用抽样调查方法选取2017年12月-2018年5月上海市肺科医院COPD实施力
伴随着大数据时代的来临以及移动互联网络的飞速发展,移动互联网已经被广泛运用到社会生活的方方面面,由于移动互联网的全面运用,人们的生活方式也发生了较大的变化。随着“