论文部分内容阅读
在经典的多元统计分析中,一般要求样本量n要远大于变量个数p,且绝大多数统计方法的大样本性质是在维数p固定、n趋于无穷的条件下获得的。近十年来,随着高通量生物技术的迅速发展,大尺度数据的收集变得越来越容易和自动化,使得变量个数以及观测数都得到了很大幅度的增加.在很多实际问题中,变量个数p与样本量n相差不多甚至会远大于n。这些新型的数据给多变量统计推断方法带来巨大挑战和机遇,促使研究工作者寻求新的统计方法和理论。本论文以统计遗传中的若干热点问题为出发点,着重探讨多变量分析中的假设检验和变量选择问题,提出了一些新的统计推断方法,且通过随机模拟和实例分析来验证这些新方法的可行性和有效性。本论文共分五章,主要内容概括如下:
第一章首先简单介绍两种高通量的生物数据以及与其相关的统计遗传学问题,本文讨论的内容都是以这些数据和问题作为基本出发点。其次,本论文多处涉及到一些新近发展的正则化统计方法,作为预备知识,我们简要介绍这些与本文密切相关的正则化方法。
第二章以关联分析中的多位点分析问题为背景,系统地讨论了主成分方法在检验回归方程显著性中的统计性质.首先,我们提出一个基于主成分回归的检验统计量,进一步得到这个检验统计量的精确功效函数。这个结果揭示了检验功效与主成分个数之间的关系,同时指出用累计贡献率方法来决定主成分个数时存在的风险。其次,我们提出一个加权形式的主成分检验统计量。这个统计量不仅包括很多现有的检验统计量,而且有助于比较这些方法之间的优缺点.最后,为了避免选择一个特定的主成分个数,我们给出了3个自适应的检验方法。
第三章研究多个数量性状的基因定位问题。在生物医学研究中,很多情况需要关心多个具有一定相关性的复杂性状,而传统的单个性状基因定位方法无法利用性状之间的相关信息,也不能很好地控制第一类错误.本章我们提出一个两阶段策略来处理多个性状基因定位问题:首先,在多变量回归的框架下构造Wilks型统计量来检测可能存在的基因点位以及基因与基因互作位点,并用置换检验来有效地控制整个筛选过程的假阳性率;其次,在选定的模型基础上,采用单变量混合线性模型来估计各个遗传效应值.水稻数据分析和模拟的结果说明本章提出的新方法是可行的、有效的。
第四章研究高维回归模型中回归方程的显著性检验问题。首先,在线性回归的框架下,我们构造一个基于软阈技术和独立性原则的检验统计量来衡量回归变量与因变量之间的关联程度.这个检验统计量能压缩大部分噪声变量,从而能敏感地检测出稀疏性备择假设.其次,我们把这个检验统计量推广到高维Logistic回归情形中。最后,用模拟和白血病数据分析来比较新方法与其他已有方法之间的优缺点。
第五章讨论“大p,小n”情形下多样本均值检验问题。这一章主要包括三方面内容:首先,以高维一样本问题为出发点,我们提出一个基于正则化的检验方法来解决高维数据分析中存在的困难.通过把软阈技术引入检验统计量,新方法能有效地降低随机噪声对功效的影响,同时能挑选出对拒绝原假设有贡献的特征变量;其次,我们把新方法推广到多个样本问题,从而把一些传统的多变量方法推广到高维情形;最后,把本章提出的新方法应用于实际临床数据的基因集分析,结果验证了提出的新检验方法韵有效性。
综上所述,本文首先研究了主成分降维技术在回归方程显著性检验中的统计性质,揭示了无指导学习的降维方法在处理检验问题中存在的风险.这些结果具有一定的理论意义,有助于实际工作者更深刻地认识这类方法的优缺点。其次,本文提出了一个基于混合线性模型的多个性状基因定位方法,推广和发展原先的单个性状基因定位方法。这个新的方法有着广泛的应用价值,实际数据分析和模拟结果说明本章提出的新方法是可行的、有效的.最后,本论文系统地研究了高维数据处理中的两类假设检验问题,提出了若干有效的检验统计量,从而推广和扩展了一些经典的检验方法。这些推断方法不仅具有重要的理论意义,而且在高维数据分析中有着广泛的应用价值,实例分析和随机模拟结果表明这些方法是可行且有效的。