若干特征筛选方法及其模拟研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:r54321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际中,为了应用回归分析方法,人们通常首先要对回归自变量进行选择,以剔除掉对因变量的影响较弱的自变量。当自变量的维数p比样本容量n小或者p相对于n来说不是很大时,变量选择问题有许多成熟的有效的方法,如Lasso、Adaptive Lasso、Elastic Net、SCAD等方法。近几年来,随着数据收集技术的发展以及数据收集成本的下降,高维数据甚至超高维数据越来越多地出现在科学的各个领域中。所谓的超高维数据是指p远远大于n的情况。这所谓的“大p小n”问题给上述方法带来了严重的挑战,如统计的精确性、模型的可解释性、算法的复杂度等。针对这样的超高维数据,统计学者们提出了所谓的特征筛选方法,即从这非常多的p个变量中剔除对因变量影响较小的变量,这样就可以对保留下来的自变量进行精确的选择并估计参数。经常使用的一些特征筛选方法包括:SIS、SIRS、NRS、DC-SIS、RRCS等。统计学家已经证明这些方法具有良好的性质,如确定筛选性质、选择相合性质等,这就可以确保它们能进行有效的特征筛选。本文旨在对这些常用的特征筛选方法进行全面的介绍与比较分析。文章首先详细地介绍这些特征筛选方法,包括它们的理论依据、估计量、筛选准则以及理论性质等,并对它们采用的准则、适用的模型范围、以及优缺点等进行了比较分析;从理论上对这些方法以及它们的异同有了明确的认识。然后,文章又通过数值模拟研究对这些方法的筛选效果进行了对比分析。本文设置的模型考虑了自变量之间不同的相关性、不同的误差分布、不同的活跃预测变量个数等诸多情况;通过模拟研究,对这些方法的适用范围以及模拟效果有了直观的印象。分析模拟结果可以发现,这几种方法的模拟效果和它们的理论性质基本是吻合的,它们都能较好地进行特征筛选。在线性模型下,只要信噪比不是很小,本文研究的这几种方法都有很好的模拟效果,能准确地对预测变量进行排序和筛选;在本文设置的这几种模拟情形下,SIS方法只在误差分布非厚尾的线性模型下有良好的筛选效果,SIRS方法在多指标模型和变换模型下的筛选效果比较理想,NRS方法和RRCS方法都在厚尾分布、多指标模型、变换模型以及非参数模型下的有着不错的筛选效果,DC-SIS方法在厚尾分布和非参数模型下的模拟结果有明显的改善;而在预测变量与响应变量对称相关的设置下,本文的模拟试验结果表明,没有哪一种方法明显地优于其它方法。随着大数据时代的到来,超高维数据越来越多地出现在科学研究以及人们的生活中。因此研究特征筛选的方法不但具有重要的理论意义,而且也有着重要的实用价值。本文通过理论介绍以及模拟研究认为,在实际中使用这些特征筛选方法时,首先要尽量根据实际的问题以及经验确定合适的模型,然后选择一个较好的方法,这样才能确保有良好的使用效果。
其他文献
20世纪80年代以来,随着经济全球化和一体化趋势的加强,曾经盛行一时的“本地为本地”的生产和市场战略已成为明日黄花。如今,通过海外采购、制造和组装,供应链可以横跨整个地球。
我国自2003年试点与实施新型农村合作医疗制度(简称“新农合制度”)以来,经过13年的发展已经取得诸多成果,如基本全面覆盖农村人口,筹资基金额大幅增长,门诊住院补偿比例和最高报销
在本文中,把资本配置效率分为两部分—融资效率和投资效率。所谓融资效率,是指融资效率是指通过证券市场的融资机制,促进资金合理流向发展前景好的行业或企业;所谓投资效率,是指企
诚信源于企业文化建设,关键在于企业出台诚信公约,树立先进典型,强化与社会、服务对象的积极互动,同时采取各种灵活有效的活动和措施,调动员工积极性,唤醒员工主体意识,从而
本文针对现有关于独立董事与公司绩效间实证研究结果的不一致,综合代理理论与资源依赖理论,提出独立董事职能研究的新框架,即认为独立董事职能不仅仅限于监控职能,而应是包括资源提供在内的两种职能的结合。据此,设立研究假设,建立独立董事职能的影响模型,进行实证检验。研究认为,独立董事通过其资本行使职能,能对公司业绩产生作用。独立董事行使职能的过程中受到一些因素的影响,如独立董事的独立性、激励等。另外,公司已