论文部分内容阅读
目的基因与环境因素之间的互作分析(G×E)是当代研究的热点问题。针对此类互作分析,最基础的方法即是采用流行病学中的交互效应的理念来建立交互效应项,采用比较成熟的统计手段来判断交互效应是否存在以及它的大小。但是随着人们发现基因与环境之间的交互并非仅仅是相加模型和相乘模型这么简单,同时也发现环境因素对基因的影响也并非均为线性关系,那么传统的互作分析模型就失去了效果。本次研究就是针对全基因组关联分析中环境因素对基因的非线性影响和基因与SNP的高维特征,提出了采用基于稀疏主成分分析与变系数模型相结合的方法来估计环境因素对基因的非线性影响,为基因与环境互作分析提供新的思路和手段。方法鉴于基因是生物体的功能单位,本研究对基因数据以每个gene为单位,对每个gene中的SNP进行稀疏主成分分析处理,然后利用每个gene的稀疏主成分和环境因素构建基因与环境互作的非线性模型。通过不同的模型假定分别介绍了用于探究是否存在基因效应、存在的基因效应是线性效应还是非线性效应的假设检验原理和方法,然后采用非参数统计中B样条的方法来估计各基因整体效应的回归系数,并且进行假设检验。本研究实例分析选自GENEVA的关于新生儿体重的资料。新生儿体重不仅受到自身遗传基因的影响,同时也与母体的环境有关。该资料包含有1126个新生儿个体自身的全基因组信息,将其母亲的口服葡萄糖耐量试验(OGTT)的血糖水平作为环境因素。通过对个体数据的整理,得到12005个基因,采用主成分分析和稀疏主成分分析的方法,利用每个gene的稀疏主成分和环境因素建立关联性模型,并在模型检验结果的基础上进行模拟研究,进一步验证了该方法的可行性。所有的参数估计和假设检验以及模拟证实研究均采用R软件完成,稀疏主成分分析采用Elastic net包实现。结果1、通过对新生儿体重全基因组数据进行分析,将每个基因的稀疏主成分作为基因效应,将新生儿母亲OGTT血糖检测结果作为环境因素来构建稀疏主成分模型。经Manhattan图分析确定ANGPT1(含有67个SNP)和NCOA5(含有15个SNP)两个有意义的基因,它们分别位于8号染色体和20号染色体。经过稀疏主成分分析后,按主成分筛选所解释的变异超过80%标准,基因ANGPT1提取了7个有意义的稀疏主成分,基因NCOA5提取了4个有统计学意义的稀疏主成分。2、对比研究了每个基因的主成分和稀疏主成分作为基因效应拟合模型的效果,经Manhattan图分析表明,两法所找到的有意义基因完全吻合。3、通过不同的模型验证,本研究不仅发现基因NCOA5和基因ANGPT1的总体效应是有显著性的,同时也发现基因的主效应和基因与环境因素(母亲血糖U)的交互效应具有统计学意义。其中,基因ANGPT1的主效应(P=0.0003)比交互效应(P=0.002)更加显著,而基因NCOA5的主效应(P=0.003)要弱于交互效应(P=0.00015)。4、对每个基因的稀疏主成分分析结果显示,在基因ANGPT1中,7个主成分中有4个是有意义的;而在基因NCOA5中,4个主成分中有3个是有统计学意义的。通过对有显著性的稀疏主成分对应的载荷系数分析,进一步找到了有显著性的SNP,它们与母亲血糖存在交互效应,从而影响新生儿体重。5、利用基因ANGPT1和NCOA5有意义的稀疏主成分与母亲血糖水平拟合新生儿体重模型,可以发现随着母亲血糖水平的增高,新生儿体重也有逐渐增加的趋势,并且呈非线性变化,也进一步表明新生儿遗传基因与母亲孕育环境因素的非线性交互效应存在;6、模拟证实表明,随样本量由200增加到500和1000,总体基因效应和基因-环境交互效应的检验效能越来越高;随着模型误差由32?减小到22?和12?,总体基因效应和基因-环境交互效应的检验效能也是逐步提高;在相同样本量、相同模型误差以及相同的?情况下,模型对交互效应的检验效能要明显高于对整体效应的检验效能,说明该模型更加适合于检验非线性交互作用。结论在基因与环境因素互作的研究中,本文在变系数模型的基础上进一步引入了稀疏主成分方法,将二者联合起来对每个基因进行分析,通过不同的模型检验来寻找与环境因素存在交互效应的功能基因,进一步通过有显著性功能基因的稀疏主成分载荷系数来寻找有显著的SNP,从而确定基因与环境的非线性关系。本文通过实例分析和模拟研究都验证了稀疏主成分变系数模型在基因环境互作研究中的可行性,为复杂疾病的G×E研究提供了新的有力工具。本课题为国家自然科学基金“心脏康复二级预防模式评价及数据缺失机制模型研究(编号:81172774)”和“复杂疾病基因与环境互作模型分析方法研究(编号:31371336)”资助项目。