超高维非参数可加模型的变量筛选与统计推断

来源 :厦门大学 | 被引量 : 0次 | 上传用户:CmMocean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术的快速发展,(超)高维数据涌现于多个领域。其特征为预测变量个数远大于样本量。且预测变量与响应变量之间往往非线性相关。传统的统计学方法与线性模型假设不再适用。考虑到完全非参数模型的“维度诅咒”,在本文中,我们针对非参数可加模型提出新的变量筛选方法与总体显著性检验统计量。为了充分降维,学者提出了多种独立变量筛选方法与正则化回归法。但是,这些方法均存在诸多弊端。因此,Wang(2009)提出了基于超高维线性模型的向前回归(FR)法。基于FR算法的优良表现,我们在本文中将FR算法拓展为基于向前可加回归的变量筛选方法(FAR)。此外,我们严格建立了FAR算法的筛选一致性,并通过模拟实验和真实数据分析检验了 FAR算法在有限样本下的表现。研究结果表明,与独立变量筛选方法相比,FAR算法能更加有效地识别可加模型中的真实预测变量。且当预测变量间高度相关时,FAR算法甚至比基于迭代过程的独立变量筛选方法表现更好。同时,为了满足现代生物学领域的需求,本文还提出了非参数可加模型总体显著性检验,并提出了两个相关统计量Zn,p和Tn,p,同时采用了基于重回归的交叉验证法(RCV)估计模型的方差。该检验的实质是超高维增广线性模型回归系数的总体显著性检验。然而,现有的超高维线性模型回归系数检验工作仍存在部分空白。因此,我们提出了条件U型检验(CUT),对现有理论进行补充。但是,由于超高维模型中噪音的干扰,现有的高维检验以及CUT检验的势大幅降低。为此,我们提出了基于变量筛选与数据多切分的条件U型检验(CUTS)。我们通过模拟实验发现,在原假设下,Zn,p、Tn,p以及CUT统计量的渐近分布均为正态分布。此外,我们还通过模拟实验和案例分析检验了 CUTS检验在有限样本下的有效性。
其他文献
从保险人和再保险人角度出发的最优再保险模型在文献中已经被广泛研究了。然而,作为再保险合约的双方,保险人和再保险人有利益冲突。从一方角度出发的最优再保险合约可能不被
产酶溶杆菌(Lysobacter enzymogenes)是农业植物病害生物防治中一种重要的革兰氏阴性细菌,其由IV型菌毛(Type IV pili,T4P)介导的跳蹭行运动(twitching motility,TM)在抑制植
茶树修剪在茶园管理中是一项重要的工作,为确保茶树健康生长以及茶园产量,每年都会从茶树上剪下大量茶树修剪物。而这些修剪物的处理不同地区处理不一样。当然,处理方法不同
稻瘟病菌(Magnaporthe oryzae)引起的稻瘟病是目前世界上水稻种植区域最为严重的病害之一。鉴于水稻作为全球半数人口主食的重要经济价值,以及水稻-稻瘟病菌互作系统作为探索
现如今地震频发,时常出现泥石流、洪水等自然灾害,还有部分人为地超载行为都为桥梁结构的安全使用带来巨大的挑战。桥梁在其设计使用寿命过程中,在各种环境因素、人为因素的
三角范畴在众多代数研究领域的发展中发挥着重要的作用.本文研究三角范畴和三角范畴recollement中一些三角子范畴的性质,同时讨论相关Abel范畴挠理论和局部化范畴的若干问题.
近些年来,永磁同步电机在电动汽车、航空航天、风力发电以及地铁高铁等领域得到了广泛应用。随着电力电子、微电子技术以及电机控制理论的发展,电机驱动系统摆脱了仅三相供电系统的束缚,多相电机因其容错能力强、功率密度小、转矩密度高以及高可靠性等居多优势,得到了越来越多的关注。在电机控制系统中,其主要由电机本体、驱动电路、采样电路、逆变器等组成,而在电机运行过程中,某个部位很有可能发生故障,导致电机不能正常运
设X为Banach空间,S知是X的单位球面.称B = {B_τ}τ∈Λ为x的一个球覆盖,若V_τ ∈ Λ,B_τ为内部不含原点的闭球,且Sx(?)∪τ∈AB_τ· SX的一个球覆盖B的半径r定义为r = r(
近年来国内外对体外预应力加固方法做了大量的理论与试验研究,然而,对于预应力筋和原受弯构件之间的受力关系却没有明确阐明,《混凝土结构加固设计规范》GB50367-2013中对此
柳枝稷(Panicum virgatum L.),是原产于北美洲的多年生禾本科草本C_4植物。本研究以四倍体低地型柳枝稷品种Alamo(4-1)为研究材料对柳枝稷染色体加倍体系进行优化,采用秋水仙素处理愈伤组织,借助组织培养建立了柳枝稷染色体加倍高效体系,并对3个四倍体低地型柳枝稷品种Alamo(4-1)、Kanlow(83-2)、Newyork(84-1)的加倍植株进行倍性鉴定(Kanlow(8