高维数据交互特征选择和分类研究

被引量 : 5次 | 上传用户:Rainbow820710
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,很多领域都存在着“维数灾难”问题,因此性能越来越好速度愈来愈快的特征选择成为研究热点。常用的方法包括基于统计量、基于全局优化和基于罚函数的特征选择。然而,这些传统特征选择依赖于高维数据的原始特征空间,很少考虑特征间的复杂交互。不考虑交互特征空间的特征选择为模式识别、机器学习和数据挖掘的发展带来很大的限制。高维数据特征间的交互使分类问题复杂化,例如医学数据和生物信息学数据等。如何利用线性方法的简单性和可解释性等优点并考虑复杂特征交互的特点,目前已经成为挑战性研究工作。高维数据的回归和分类问题的稀疏性使线性方法例如lasso取得了巨大的成功。因此,运用罚函数和凸优化等数学理论,深入研究交互特征选择的模型和方法,促使回归和分类问题的可解释性的客观化,是大数据分析方法应用的亟迫需求。本论文针对特征选择问题的复杂性和速度低等问题,以数学形式高度抽象地给出了交互特征概念和交互特征生成方法,构建了符合分类问题的基于罚函数和凸优化的特征选择数学模型,改进了坐标下降算法,开展了实验与评估工作。这无论对特征交互和特征选择的理论研究还是罚函数和凸优化的数学原理实际应用,均具有重要的意义和价值。首先,基于多元数据图表示原理和重心交互特征,采用全局优化特征选择理论研究了交互特征选择问题。在重心交互特征和遗传算法、微分进化和粒子群优化的基础上,改进了进化操作,提出了交互特征的遗传算法、微分进化算法和粒子群优化算法的特征选择方法,分类器采用传统分类器。提出方法的特点是分类性能高但运行时间长,这为研究罚函数特征选择奠定了实验基础。其次,在深入研究基于全局优化算法的交互特征选择的基础上,通过学习罚函数、凸优化和lasso方法,构建了交互特征的弹性网模型,给出了弹性网罚两类或多类逻辑回归模型和坐标下降算法,并以此为基础,提出了交互特征的弹性网特征选择方法,分类器采用传统分类器和lasso分类器。实验结果证明提出方法具有可解释性、分类性能高和运行时间低的特点。最后,在弹性网特征选择的基础上,考虑交互特征罚函数,基于原始特征和交互特征分层的思想,提出了一种交互特征的分层lasso特征选择方法。构建了交互特征的分层lasso罚逻辑回归模型,凸松弛策略,基于坐标下降法的分层模型参数的计算,基于广义梯度下降法的分层模型参数的计算,正则化参数优化选择策略。最后提出了重心交互特征的分层lasso模型和坐标下降算法。实验结果证明提出方法分类性能高。
其他文献
食品产业是中国乃至全球经济发展最快的重要支柱产业之一。食品产业集群已成为区域经济发展新的增长点,也是食品产业未来的发展方向。食品产业集群的发展涉及众多影响因素,发
牙周炎是一种破坏性疾病,与微生物、宿主和环境有关,是导致成年人牙齿丧失的主要原因。在局部致病因素中,以菌斑多见,吸烟和肥胖则是众多全身因素中的高危因素。通过常规的牙
生态文明是一种哲学思想,是指人与自然的关系要和谐相处,建立和谐文化,是一个哲学层面的教育思想,是中国特色教育思想体系的重要内容。我国教育界、教育研究界对生态文明的研究甚
期刊
目的:对老年心衰患者的心理状况应用SAS焦虑自评表以及SDS抑郁自评量表的情况进行分析,并针对其实际情况加以实施有效的护理。方法选取2013年2月~2014年8月我院心内科中接收的心
我是加拿大渥太华大学一名三年级的医学生,准备从事家庭医生职业。在二月份的《加拿大家庭医生》杂志中,当我读到Miriam Divinsky有关叙述医学(Narrative medicine)的介绍后
为了实时、直观、综合地掌握全国煤矿生产状况和各级监管信息,统筹国家层面煤矿安全监管及事故救援工作,通过对我国当前各级信息管理系统现状的分析,并结合地理信息系统实时和综
法国年鉴学派在20世纪后半叶的史学实践中有着重要影响。作者彼得·伯克在《法国史学革命》一书中自如运笔,简明扼要地将年鉴派的一轮花甲历程分析得丝丝入扣。此书优长,在乎
革命文化是中国人民在中国共产党领导下书写的红色篇章,是中国特色社会主义文化自信的源头,也是中国革命胜利的文化支撑与精神标识。大学生作为国家与社会未来发展的重要群体
采用土壤水分张力计观测研究了江西红壤坡地年内土壤水分变化特征,分析对比了土壤不同层次、时间和坡位的土壤水吸力变化,以及在百喜草种植、百喜草覆盖、裸露3种处理下红壤
为研究黄土高原地区人工刺槐林地土壤水分变化特征,对陕北地区不同纬度带30a人工刺槐林林下土壤剖面水分条件进行研究,以期探索该区域刺槐林地土壤水分含量及相关因素的响应