高维重尾数据的平衡惩罚分位数回归方法

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:X22521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为现代科技技术飞速发展的产物,高维重尾数据在经济、金融、生物、医学等领域司空见惯,高维和重尾是此类数据的直观特征.若考虑高维特征,首先它具有内在的稀疏性,意味着在数据模型所涉及变量大部分都是噪声变量,如果在建模中将噪声变量都考虑在内,不仅会降低模型的可解释性,还会增加模型的拟合误差,因此在拟合之前,首先进行噪声变量筛选或者变量选择,是处理高维数据的自然想法,惩罚损失估计就是其中一类常用方法.一般而言,常见的惩罚函数分为凸惩罚和凹惩罚两大类,其中凸惩罚函数具有不漏选重要变量的筛选性质,但其参数估计往往有偏,变量选择效果还有待提升;而凹惩罚函数则能够依概率1选择真实的模型,也就是oracle性质,并且还能得到参数的渐近无偏估计,但其全局解的性质并不明确,并且它在高维数据下的效果往往不够稳定.这种互补的特性产生了将二者相互结合的惩罚思想.依照现有研究,结合双惩罚的模型通常能使模型中的凸惩罚起到变量筛选作用,并基于此使凹惩罚函数发挥变量选择作用,最终建立解释性更好以及偏差相对小的模型,只是这些方法多数基于最小二乘思想,对于重尾数据的拟合效果还需提升.重尾数据具有比指数型分布更大的尾概率,通常使用分位数估计代替最小二乘估计对其进行处理,并且能够得到相对不错的拟合效果.分位数估计具有对数据分布的要求宽松,能够更全面地拟合数据分布信息,并且建立一个稳健估计的优势.基于这些优势,有理由相信惩罚分位数估计是处理高维重尾数据的一类有意义的方法.本文考虑以上思想,将结合双惩罚的思想推广到分位数回归背景,研究它的理论性质并进一步进行数值与实证分析以佐证其应用效果,研究这种方法在高维重尾数据中的适应性.基于一些常见的正则条件,本文从理论的角度分析了两种惩罚在方法中分别起到的作用,并建立了方法变量选择的oracle性质以及渐近正态性质.这表明在分位数背景下,该方法很好地结合了两种不同类型惩罚的性质,也体现了文题中“平衡”的含义.该方法是高维惩罚方法在重尾数据高维模型背景下的一大补充,具有一定的理论与实际意义.数值分析结果也表明,该方法对于服从不同分布尤其重尾分布的效果要强于最小二乘估计,并且能够得到更为全面的拟合信息,进一步表明了该方法的意义与优势.实证研究也将在文中给出.
其他文献
多智能体系统在进行分布式协作控制任务时,首要目标是促使系统成员的指定状态值达成一致。Olfati-Saber提出离散时间一致性协议要求智能体在演化过程中与每一个邻居进行通信协作。然而,当大规模多智能体系统依据上述控制协议进行演化时,存在通信冗余与无效的邻域信息会限制系统的收敛一致的能力和系统收敛一致的速度。因此需要为一致性协议设计出合理有效的邻域成员选取策略减少不必要的通信。保持系统通信拓扑的连通
北京电力科学院电子资源管理系统是为解决科学院现存海量资源难以系统化管理的问题而研发的系统。通过本系统的研发实现了对北京电力科学院自身系统资源进行系统化、规范化管
纳米反应器是指多个分子以特定方式连接而形成的一类具有催化活性的人工模拟酶分子或分子组装体,因其可基于分子层次上对空腔的微环境及催化过程进行模拟再现,从而引起了广大研究者的注意。根据组装分子的数量和空间排列,可收敛自组装成有限的离散型单分子笼状纳米反应器,或发散自组装成无限的聚合网状纳米反应器。笼状纳米反应器具有更好的溶解性及显著的客体响应能力,其在气体分子的储存与分离、活性中间体的捕捉、离子/分子
说话人识别是一种利用说话者的声学特征来进行身份验证的技术,又称为声纹识别。我们知道,人类的声纹是独特的、简单易得的、并且非常稳定的,说话人识别技术利用人类声纹的特
互联网技术飞速发展,用户每天通过在线社交会产生大量数据,通过对数据的分析及利用可以为人们创造更多的价值。而高效的图匹配技术可以为数据分析提供鼎力支持。图模式匹配(G
随着电子信息技术的迅速发展,对电子元器件的小型化、低成本、多功能化以及高稳定性的要求越来越高,对相应材料也提出了更高的要求。钨青铜结构材料作为重要的一种功能材料,具有优异的介电、铁电及非线性光学等性能,得到了广泛的应用。钨青铜型材料复杂的晶体结构极大的丰富了其性能调节和优化的可能性。遗憾的是,目前对钨青铜结构材料的电学和非线性光学性能研究较多,但多为单一研究的性能,多种性能的系统性研究很少。同时对
海洋是重要的战略空间和后备资源宝库,伴随着我国综合国力的不断增强,国际间深海领域的竞争也逐渐激烈。因此大力发展海洋高新技术,提升国家竞争力成为关键。感应耦合锚系链
聚类分析是探索数据内在关系的一种最重要的技术,其应用范围包括统计学、计算机科学、生物信息学等。迄今为止,许多学者,针对不同的问题和应用环境,提出了不同的聚类算法。在
近年来,国家电网提出采用新一代具有抗干扰能力强、低功耗等特点的宽带微功率无线抄表技术来替代窄带微功率抄表。由于Chirp扩频调制技术与宽带微功率无线抄表技术的需求十分
随着卫星定位技术以及无线通讯技术的迅速发展,移动对象上安装的移动定位设备也越来越多,GPS轨迹数据的获取也变得越来越容易,由此也产生了海量的轨迹数据,如何大量轨迹数据