惩罚回归方法的研究及其在后全基因关联研究中的应用

被引量 : 9次 | 上传用户:itfanniaoniao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的顺利完成和单体型图谱(HapMap)计划的不断推进,以及高通量技术平台的建立和完善,全基因组关联研究(genome-wide association study, GWAS)发现了大量复杂疾病相关变异,而且构建了包含海量数据的单位点核苷酸多态性(single nucleotide polymorphisms, SNP)基因分型数据库。深入挖掘这些GWAS数据,发现更多复杂疾病的易感位点,减少遗传性缺失(missing heritability),成为了当前生物信息学领域的热点问题之一,这些都称为GWAS的后续研究。相应地,一些新的研究策略已经被应用到后GWAS中,包括针对高维基因组学数据分析基因-基因交互作用、从基因水平或者SNPs集上研究遗传变异与疾病的关联、利用二代测序(next generation sequencing)研究领域所涉及的罕见变异来弥补传统GWAS遗传性的缺失。这些研究策略都需要处理包含越来越多遗传变异的数据。若用变量来表示遗传变异,这些数据的变量数远远大于样本数,存在大量的冗余信息或噪音。如何去除数据中的冗余信息以发掘数据中潜在的易感性可归为变量选择问题。惩罚回归变量选择方法,可以处理高维数据中的变量选择问题。该方法通过在损失函数的基础上增加惩罚函数,可将噪声项的效应值缩减为零,实现变量选择的目的。虽然惩罚回归的方法很多,不同方法,各有利弊,但是真正利用这些方法来成功地解决GWAS研究的案例尚不多。基于此,我们主要利用并改进这些方法,用于解决后GWAS的关键问题,并针对实际的问题提出快速有效的算法,从而进一步发掘出丢失的遗传度。全文结构如下:第Ⅰ部分,改进惩罚回归方法,并应用于基因-基因的交互作用分析。将平稳选择应用到惩罚回归方法中,提出了平稳SCAD惩罚回归方法,用于检测全基因关联研究中基因-基因交互作用。针对高维数据中,通过交叉验证来选择调整参数的惩罚回归,会带来过多假阳性这一问题,本研究将错误发现率(FDR)与平稳选择概率阈值建立关系,在一些常规条件下,该方法既能有效选择变量,又能控制错误发现率。通过模拟不同的交互作用情形,评价并比较了LASSO、 SCAD、平稳LASSO及平稳SCAD在处理基因-基因交互作用时的统计学性质。最后,我们把平稳SCAD应用于肺癌全基因关联研究的部分数据中。第Ⅱ部分,对基于SNPs集关联分析的多种成组惩罚方法进行评价。本研究系统评价了四种成组惩罚回归方法,在处理基于SNPs集的全基因组关联研究时的统计学性能。利用基于真实的基因型数据结构进行模拟实验,针对病例-对照设计的全基因组关联研究,在不同致病基因数、致病基因所含不同SNPs数、致病基因所含不同致病SNPs数、基因内致病位点效应方向等多种情形下,比较了四种方法用于选择变量的统计学性能。并分析了22个与肺癌可能存在关联的通路上的GWAS数据。第Ⅲ部分,提出加权两水平惩罚并应用于罕见变异的关联分析。针对罕见变异可能在疾病发生发展过程中起重要的作用这一假设,提出加权的成组指数惩罚LASSO,它是一个两水平惩罚回归方法。通过对罕见变异的效能加权,使得对于等位基因频率小的SNP的效应项惩罚力度相应地变小。本研究通过对罕见变异数据的模拟实验,将加权的方法同综述中的方法在处理罕见变异时的场景下做了统计学性能比较。最后,通过分析第17届遗传分析会议(GAW17)罕见变异数据集,再次验证了加权方法的优越性。第Ⅳ部分,构建惩罚回归变量选择中的错误发现率(FDR)。针对惩罚回归在处理高维数据时,造成过多假阳性这一问题,我们将多重比较中FDR的思想应用到惩罚回归中,通过求惩罚回归优化解所用的Karush-Kuhn-Tucker(KKT)条件,建立回归分析和假设检验的对应关系,从而说明惩罚回归中引入FDR是自然合理的。并且引入FDR后,我们更容易解释选入变量的统计学意义。通过虚拟LD结构的模拟实验,将改进的惩罚回归同原有惩罚回归及控制FDR检验的方法作比较。最后,把改进的惩罚回归方法应用到肺癌GWAS数据分析中。
其他文献
由于近年来燃油的价格持续上涨,道路施工中生产沥青混合料成本的比重加大,通过比较,发现燃煤比燃油更经济,因此希望通过技术上的改进使燃油改燃煤技术在工程上得到应用,从而
<正>"绝唱唱段"简述(一)"绝唱唱段"创作意识的萌生在20世纪50年代,中国歌剧进入了最重要的发展时期,尤其是在借鉴和吸收了一些戏曲因素后,散发着更为耀眼的光芒。1957年,南京
跨国公司在全球经济的发展中起到不可忽视的推动作用。由于跨国公司自身特点以及经营环境的特殊性,跨国公司财务管理也与普通公司有所不同。而这些财务管理的特殊性也为跨国
国家公务员制度是适应现代政府科学管理的需要而建立起来的一种官吏制度.其基本原则主要有民主原则、平浇等原则、公开原则、效能原则和内行领导原则等.各国公务员管理都有一
国家生态旅游示范区是我国"十五"期间旅游业的重点建设工程.为正确反映其建设效果,构建了国家生态旅游示范区的评价指标体系,即3个准则层、11个指标层、56个要素层,对各指标
随着人类社会的不断进步和人类文化的持续发展,各种类型的交易会、博览会、展览会在人们经济与文化生活中的地位越来越重要。现代展示含有动态和静态两层含义,并且有着不同的
根据路桥上市公司2007-2011的面板数据,从偿债营运能力、获利能力、获现能力及可持续成长性四个维度,运用因子分析法构建路桥上市公司盈利质量评价模型,在此基础上从外部环境
脱空是水泥混凝土路面的常见病害之一。路面板下出现了脱空,这对水泥混凝土路面板的受力是极为不利的,在荷载的作用下,脱空部位的边缘将会产生应力集中现象,由于早期出现的脱
政府信息化是社会信息化的基础。在“信息高速公路”应用中被列为第一位的“电子政务”,可以提升政府效率、防止与遏制腐败,是现代政治文明的标尺与“催化剂”。基层政府(浙
氢能以其轻质,储量丰富,产物绿色环保而受到广泛关注。然而,未来氢经济的发展,仍然受到其储运方式的制约[1]。近来,Mg(BH4)2·6NH3由于具备较高的理论储氢容量(16.8%)和较为温和