论文部分内容阅读
背景在后全基因组关联研究(Genome-Wide Association Study,GWAS)时代,揭示稀有/低频变异的影响以及广泛存在的基因间非线性交互是解决“遗传缺失”问题的重要途径,然而利用高维低频变异数据挖掘基因交互作用在统计功效、维度困扰及生物学解释上仍然是重大挑战。基于通路分析选择变量的方法是解决维度困扰、提高效能以及获得更优生物学解释的重要途径。在统计方法上,随机森林方法是目前常用的关联位点筛选方法,可在一定程度上发现位点间的非线性交互作用。还有学者提出在GWAS研究筛选位点的BGTA(Backward Genotype-Trait Association)算法,利用GTD(genotype-trait distortion)得分可检测无/弱主效应位点间的交互作用。本研究基于通路分析的策略,运用两阶段的BGTA算法,分别从SNP(Single Nucleotide Polymorphism)水平和基因水平上探索全基因组关联研究中的遗传交互作用,构建可视化遗传交互网络,并与随机森林方法结果比较。为识别无主效应交互作用提供有效的统计分析策略,为进一步探索疾病相关通路的生物学机制提供遗传关联研究的重要线索。方法本研究数据来源于遗传关联工作组19(Genetic Analysis Workshop,GAW19)中无相关人群的外显子测序数据以及真实的高血压表型数据,以是否患高血压作为结局变量。利用KEGG数据库检索高血压相关肾素-血管紧张素-醛固酮系统(Renin-angiotensin aldosterone system,RASS)相关通路的基因信息,再与GAW19数据库中外显子测序数据匹配获得初始遗传数据集。根据纳入条件最小等位基因频率((Minimum allele frequency,MAF>0.01),连锁不平衡(linkage disequilibrium,LD,r2<0.8),和哈迪温伯格平衡检验(Hardy Weinberg equilibrium test,HWE,P≥0.05),获得候选遗传变异数据集。为便于说明和结果展示,本研究对所有位点按1,2,……统一编号。采用两阶段BGTA算法分析基因交互作用。第一阶段,选择随机子集k=10的BGTA算法筛选出GTD得分前100的返回子集。第二阶段,将筛选后的位点采用k=2的BGTA算法分析交互作用,并通过置换检验进行统计学检验及FDR(false discovery rate)校正。利用有统计学意义的SNPs对构建SNP的遗传交互网络以及映射到基因的遗传交互网络。最后应用logistic回归验证位点的主效应、相乘交互作用和相加交互作用。采用随机森林的重要性评分和袋外估计误差对初始数据集的位点进行筛选,随后通过决策树对筛选后的位点分析交互作用,进一步应用logistic回归验证,并与两阶段BGTA算法进行比较。以基因为单位,用BGTA算法第一阶段筛选后的位点GTD得分构建整合基因交互作用信息,分别获得最大平均边际效应(M值)和基因交互作用得分(均比R值、分位数比Q值)。采用置换数据的方式构建基因对交互作用信息的零分布,并通过曲线法和秩方法进行统计学检验,确定最后纳入的基因交互作用。最后构建SNP和基因水平上的交互作用网络。在实例研究中,采用广州市中小学生腹型肥胖相关LncRNA HOTAIR调控通路上的遗传变异数据进行分析。依据腰高比(Whtr)>0.5定义腹型肥胖结局,共有4007例样本。分别采用BGTA算法和交互作用得分分析基因-基因、基因-环境交互作用,并采用Logistic回归验证。结果利用KEGG数据库检索出RASS三条相关通路的基因,与GAW19数据匹配后根据纳入条件共获得包含53个基因的248个位点,其中有110个低频变异。第一阶段的BGTA筛选出76个可能与高血压表型关联的位点,其中有61个低频变异;第二阶段BGTA算法筛选交互作用结果显示,共纳入了1102对SNP交互作用,其中82对SNP交互作用的FDR控制在10%以内(P<0.007)。82对SNP中共包括56个位点,其中低频变异有44个。交互作用中位点49(PIK3R3)、26(ATP1A4)、52(REN)、247(THOP1)、184(ANPEP)与其他位点存在大量的边,可看做关键的枢纽位点。logistic回归验证结果显示有16对无主效应的SNP交互作用,12对相乘交互和10对相加交互,且这些交互作用多为位点26、49、48与其他位点间的交互作用。随机森林方法根据平均降低基尼指数(Mean Decrease Gini,MDG)和平均降低精确度(Mean Decrease Accuracy,MDA)反映的重要性评分,分别筛选出35个(包含0个低频变异)和61个(包含30个低频变异)位点。进一步通过决策树对筛选的位点建立交互作用树模型,以及用logistic回归验证结果发现4对SNPs存在无主效应的相乘交互作用和3对SNPs存在相加交互作用(P<0.0001)。采用两阶段BGTA算法分析以基因为单位交互作用结果显示,均比法共纳入了33对基因交互作用,其中9对基因交互作用经置换检验具有统计学意义(P<0.01)。分位数比法共纳入了17对基因交互作用,其中4对基因交互作用经置换检验具有统计学意义(P<0.01)。基因交互网络图显示基因PIK3R3与醛固酮的合成与分泌通路上的基因存在广泛的基因交互作用。实例研究结果显示,BGTA算法并未发现基因-基因、基因-环境的交互作用对于腹型肥胖的影响,交互作用得分结果显示位点rs11202592和rs762624在检验水准为0.1的条件下有统计学意义(P=0.083)。利用logistic回归验证显示两位点联合效应与腹型肥胖结局存在关联(P=0.0387)。结论1.在本研究数据中,采用两阶段的BGTA算法与随机森林方法相比,在关联变异筛选阶段(即第一阶段),BGTA算法可筛选出更多的具有潜在交互作用的位点,其中筛选的低频变异和编码蛋白信息的变异所占的比例均更高。在二阶交互作用识别阶段(即第二阶段),BGTA算法可发现更多的低频变异交互、无主效应交互作用、相乘和相加交互,通过两两交互作用的GTD得分构建可视化遗传交互网络,可发现关键的枢纽位点,更易于生物学解释。2.基于BGTA算法构建基因交互网络可提升基因交互作用的可解释性,但分析交互作用能力不足,有待于进一步研究。3.基于通路分析的变量候选策略可提高识别复杂疾病重要遗传变异交互作用的能力和生物学解释性。