多变量数据遗传分析方法的研究

来源 :浙江大学 | 被引量 : 3次 | 上传用户：tiantianle_a

【摘要】

：

在经典的多元统计分析中，一般要求样本量n要远大于变量个数p，且绝大多数统计方法的大样本性质是在维数p固定、n趋于无穷的条件下获得的。近十年来，随着高通量生物技术的迅速发展

【作者】

：

沈炎峰

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2010年01期

【关键词】

：

数理统计多元分析变量选择高维数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在经典的多元统计分析中，一般要求样本量n要远大于变量个数p，且绝大多数统计方法的大样本性质是在维数p固定、n趋于无穷的条件下获得的。近十年来，随着高通量生物技术的迅速发展，大尺度数据的收集变得越来越容易和自动化，使得变量个数以及观测数都得到了很大幅度的增加.在很多实际问题中，变量个数p与样本量n相差不多甚至会远大于n。这些新型的数据给多变量统计推断方法带来巨大挑战和机遇，促使研究工作者寻求新的统计方法和理论。本论文以统计遗传中的若干热点问题为出发点，着重探讨多变量分析中的假设检验和变量选择问题，提出了一些新的统计推断方法，且通过随机模拟和实例分析来验证这些新方法的可行性和有效性。本论文共分五章，主要内容概括如下：　　第一章首先简单介绍两种高通量的生物数据以及与其相关的统计遗传学问题，本文讨论的内容都是以这些数据和问题作为基本出发点。其次，本论文多处涉及到一些新近发展的正则化统计方法，作为预备知识，我们简要介绍这些与本文密切相关的正则化方法。　　第二章以关联分析中的多位点分析问题为背景，系统地讨论了主成分方法在检验回归方程显著性中的统计性质.首先，我们提出一个基于主成分回归的检验统计量，进一步得到这个检验统计量的精确功效函数。这个结果揭示了检验功效与主成分个数之间的关系，同时指出用累计贡献率方法来决定主成分个数时存在的风险。其次，我们提出一个加权形式的主成分检验统计量。这个统计量不仅包括很多现有的检验统计量，而且有助于比较这些方法之间的优缺点.最后，为了避免选择一个特定的主成分个数，我们给出了3个自适应的检验方法。　　第三章研究多个数量性状的基因定位问题。在生物医学研究中，很多情况需要关心多个具有一定相关性的复杂性状，而传统的单个性状基因定位方法无法利用性状之间的相关信息，也不能很好地控制第一类错误.本章我们提出一个两阶段策略来处理多个性状基因定位问题：首先，在多变量回归的框架下构造Wilks型统计量来检测可能存在的基因点位以及基因与基因互作位点，并用置换检验来有效地控制整个筛选过程的假阳性率；其次，在选定的模型基础上，采用单变量混合线性模型来估计各个遗传效应值.水稻数据分析和模拟的结果说明本章提出的新方法是可行的、有效的。　　第四章研究高维回归模型中回归方程的显著性检验问题。首先，在线性回归的框架下，我们构造一个基于软阈技术和独立性原则的检验统计量来衡量回归变量与因变量之间的关联程度.这个检验统计量能压缩大部分噪声变量，从而能敏感地检测出稀疏性备择假设.其次，我们把这个检验统计量推广到高维Logistic回归情形中。最后，用模拟和白血病数据分析来比较新方法与其他已有方法之间的优缺点。　　第五章讨论“大p，小n”情形下多样本均值检验问题。这一章主要包括三方面内容：首先，以高维一样本问题为出发点，我们提出一个基于正则化的检验方法来解决高维数据分析中存在的困难.通过把软阈技术引入检验统计量，新方法能有效地降低随机噪声对功效的影响，同时能挑选出对拒绝原假设有贡献的特征变量；其次，我们把新方法推广到多个样本问题，从而把一些传统的多变量方法推广到高维情形；最后，把本章提出的新方法应用于实际临床数据的基因集分析，结果验证了提出的新检验方法韵有效性。　　综上所述，本文首先研究了主成分降维技术在回归方程显著性检验中的统计性质，揭示了无指导学习的降维方法在处理检验问题中存在的风险.这些结果具有一定的理论意义，有助于实际工作者更深刻地认识这类方法的优缺点。其次，本文提出了一个基于混合线性模型的多个性状基因定位方法，推广和发展原先的单个性状基因定位方法。这个新的方法有着广泛的应用价值，实际数据分析和模拟结果说明本章提出的新方法是可行的、有效的.最后，本论文系统地研究了高维数据处理中的两类假设检验问题，提出了若干有效的检验统计量，从而推广和扩展了一些经典的检验方法。这些推断方法不仅具有重要的理论意义，而且在高维数据分析中有着广泛的应用价值，实例分析和随机模拟结果表明这些方法是可行且有效的。

其他文献

约束矩阵方程及迭代解法的预处理技术

约束矩阵方程问题及其迭代解法在结构设计、动力模型修正、振动理论等众多领域有重要应用，其研究已成为计算数学最热门的课题之一，至今已取得很多研究成果，但迭代法加速技术或预

学位

约束矩阵方程迭代法多项式预处理技术正交投影

基于智能终端的电网空间数据采集模式研究

针对多种电网空间数据采集模式进行了研究。在国网北京市电力公司营配贯通数据采录过程中,分别对图样标绘、专业仪器采集和智能终端标绘三种采集模式进行实践并对比分析,提出

期刊

空间数据采集智能终端营配贯通地理信息系统仪器采集人力资源成本电力公司数据导入支撑工具地图数据

中国区域发展多元统计分析

改革开放以来,中国经济在快速增长的同时,区域发展差距也逐渐扩大,这势必会对我国经济发展、社会发展、社会稳定等诸多方面造成不利的影响。因此,区域发展差距成为当前制约我

学位

《集芙蓉以为裳》(中国画)

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

“超越”——KOLON SPORT 40周年庆典

以时尚设计出众的韩国第一户外运动品牌KOLON SPORT在2014年迎来了品牌40周岁生日,周年庆典暨2014春夏时装静态展亦在798艺术区玫瑰之名艺术空间展出。这场春夏时装展被品牌

期刊

热带丛林SPORT视觉焦点时尚设计艺术区KOLON SPORT 40艺术空间建筑设计师户外服装悬置

李小超雕塑作品

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

雕塑作品

概念教学在初中数学课堂中的实施

在中学数学教学中,正确理解数学概念是掌握数学基础知识的前提,是学好定理、公式、法则和数学思想的基础,搞清概念是提高解题能力的关键.只要对概念理解的深透,才能在解题中

期刊

初中数学概念教学规律

Thue-Morse词与因子重叠

在前人的工作基础上,本文研究了Thue-Morse 词的性质及其应用,重叠因子.绪论主要介绍了问题研究的背景及意义,回顾前人所做的工作和已得结论,最后列出本文常用的一些记号.　

学位

Thue-Morse词数论因子重叠

教师课程能量释放的条件与策略分析

教师课程能量不同于教师课程能力，是指教师所拥有的、在具体的课程活动中所释放出的智识、人格、生活、情趣、思维、信仰等方面的整体教育智慧，两者之间是一种同中有异、异中有

期刊

教师课程能量教师课程能力

常利率下带扰动的马氏调制风险模型

1905年,Lundberg和Cramer提出了复合泊松风险模型.它是保险理论中的经典模型,它考虑了保单中最基本的要素保费收入与索赔支出.虽然这样考虑方便了我们的理论研究,但此模型在实际应用中有很大的局限性.因此,许多学者对经典风险模型进行了改进与推广.马氏调制风险模型便是经典风险模型的一个很重要的推广.马氏调制风险模型通过考虑一个马氏过程来模拟外界因素对保险公司的影响.同时许多学者将利率,贷款,

学位

马氏调制风险模型广义Gerber-Shiu函数阈值分红策略期望折现分红函数矩母函数

多变量数据遗传分析方法的研究

与本文相关的学术论文