基于通路分析的遗传交互网络方法应用研究

来源 :广东药科大学 | 被引量 : 0次 | 上传用户:joey_don
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景在后全基因组关联研究(Genome-Wide Association Study,GWAS)时代,揭示稀有/低频变异的影响以及广泛存在的基因间非线性交互是解决“遗传缺失”问题的重要途径,然而利用高维低频变异数据挖掘基因交互作用在统计功效、维度困扰及生物学解释上仍然是重大挑战。基于通路分析选择变量的方法是解决维度困扰、提高效能以及获得更优生物学解释的重要途径。在统计方法上,随机森林方法是目前常用的关联位点筛选方法,可在一定程度上发现位点间的非线性交互作用。还有学者提出在GWAS研究筛选位点的BGTA(Backward Genotype-Trait Association)算法,利用GTD(genotype-trait distortion)得分可检测无/弱主效应位点间的交互作用。本研究基于通路分析的策略,运用两阶段的BGTA算法,分别从SNP(Single Nucleotide Polymorphism)水平和基因水平上探索全基因组关联研究中的遗传交互作用,构建可视化遗传交互网络,并与随机森林方法结果比较。为识别无主效应交互作用提供有效的统计分析策略,为进一步探索疾病相关通路的生物学机制提供遗传关联研究的重要线索。方法本研究数据来源于遗传关联工作组19(Genetic Analysis Workshop,GAW19)中无相关人群的外显子测序数据以及真实的高血压表型数据,以是否患高血压作为结局变量。利用KEGG数据库检索高血压相关肾素-血管紧张素-醛固酮系统(Renin-angiotensin aldosterone system,RASS)相关通路的基因信息,再与GAW19数据库中外显子测序数据匹配获得初始遗传数据集。根据纳入条件最小等位基因频率((Minimum allele frequency,MAF>0.01),连锁不平衡(linkage disequilibrium,LD,r2<0.8),和哈迪温伯格平衡检验(Hardy Weinberg equilibrium test,HWE,P≥0.05),获得候选遗传变异数据集。为便于说明和结果展示,本研究对所有位点按1,2,……统一编号。采用两阶段BGTA算法分析基因交互作用。第一阶段,选择随机子集k=10的BGTA算法筛选出GTD得分前100的返回子集。第二阶段,将筛选后的位点采用k=2的BGTA算法分析交互作用,并通过置换检验进行统计学检验及FDR(false discovery rate)校正。利用有统计学意义的SNPs对构建SNP的遗传交互网络以及映射到基因的遗传交互网络。最后应用logistic回归验证位点的主效应、相乘交互作用和相加交互作用。采用随机森林的重要性评分和袋外估计误差对初始数据集的位点进行筛选,随后通过决策树对筛选后的位点分析交互作用,进一步应用logistic回归验证,并与两阶段BGTA算法进行比较。以基因为单位,用BGTA算法第一阶段筛选后的位点GTD得分构建整合基因交互作用信息,分别获得最大平均边际效应(M值)和基因交互作用得分(均比R值、分位数比Q值)。采用置换数据的方式构建基因对交互作用信息的零分布,并通过曲线法和秩方法进行统计学检验,确定最后纳入的基因交互作用。最后构建SNP和基因水平上的交互作用网络。在实例研究中,采用广州市中小学生腹型肥胖相关LncRNA HOTAIR调控通路上的遗传变异数据进行分析。依据腰高比(Whtr)>0.5定义腹型肥胖结局,共有4007例样本。分别采用BGTA算法和交互作用得分分析基因-基因、基因-环境交互作用,并采用Logistic回归验证。结果利用KEGG数据库检索出RASS三条相关通路的基因,与GAW19数据匹配后根据纳入条件共获得包含53个基因的248个位点,其中有110个低频变异。第一阶段的BGTA筛选出76个可能与高血压表型关联的位点,其中有61个低频变异;第二阶段BGTA算法筛选交互作用结果显示,共纳入了1102对SNP交互作用,其中82对SNP交互作用的FDR控制在10%以内(P<0.007)。82对SNP中共包括56个位点,其中低频变异有44个。交互作用中位点49(PIK3R3)、26(ATP1A4)、52(REN)、247(THOP1)、184(ANPEP)与其他位点存在大量的边,可看做关键的枢纽位点。logistic回归验证结果显示有16对无主效应的SNP交互作用,12对相乘交互和10对相加交互,且这些交互作用多为位点26、49、48与其他位点间的交互作用。随机森林方法根据平均降低基尼指数(Mean Decrease Gini,MDG)和平均降低精确度(Mean Decrease Accuracy,MDA)反映的重要性评分,分别筛选出35个(包含0个低频变异)和61个(包含30个低频变异)位点。进一步通过决策树对筛选的位点建立交互作用树模型,以及用logistic回归验证结果发现4对SNPs存在无主效应的相乘交互作用和3对SNPs存在相加交互作用(P<0.0001)。采用两阶段BGTA算法分析以基因为单位交互作用结果显示,均比法共纳入了33对基因交互作用,其中9对基因交互作用经置换检验具有统计学意义(P<0.01)。分位数比法共纳入了17对基因交互作用,其中4对基因交互作用经置换检验具有统计学意义(P<0.01)。基因交互网络图显示基因PIK3R3与醛固酮的合成与分泌通路上的基因存在广泛的基因交互作用。实例研究结果显示,BGTA算法并未发现基因-基因、基因-环境的交互作用对于腹型肥胖的影响,交互作用得分结果显示位点rs11202592和rs762624在检验水准为0.1的条件下有统计学意义(P=0.083)。利用logistic回归验证显示两位点联合效应与腹型肥胖结局存在关联(P=0.0387)。结论1.在本研究数据中,采用两阶段的BGTA算法与随机森林方法相比,在关联变异筛选阶段(即第一阶段),BGTA算法可筛选出更多的具有潜在交互作用的位点,其中筛选的低频变异和编码蛋白信息的变异所占的比例均更高。在二阶交互作用识别阶段(即第二阶段),BGTA算法可发现更多的低频变异交互、无主效应交互作用、相乘和相加交互,通过两两交互作用的GTD得分构建可视化遗传交互网络,可发现关键的枢纽位点,更易于生物学解释。2.基于BGTA算法构建基因交互网络可提升基因交互作用的可解释性,但分析交互作用能力不足,有待于进一步研究。3.基于通路分析的变量候选策略可提高识别复杂疾病重要遗传变异交互作用的能力和生物学解释性。
其他文献
目的 分析探讨延续护理对乳腺癌患者术后生存质量的影响效果,为优化乳腺癌患者术后临床护理提供参考。方法 选取2015年12月至2017年6月期间我院收治的乳腺癌术后患者128例,随
<正> 腊梅科仅2属9种,分布于东亚及北美。其中腊梅属为我国特产,共6种,分布在亚热带地区;夏腊梅属我国仅夏腊梅一种。 夏腊梅(Calycanthus chinensis)为本世纪60年代初发现于
旅游服务质量决定旅游目的地旅游的可持续发展,提高旅游服务质量,有助于提高旅游目的地的管理水平和综合竞争力,及游客的重游意愿。本文对被誉为"中国荷都"的南四湖湿地旅游
<正>当前,江苏监狱工作已经处在较高的发展平台,为深化监狱分类提供了历史机遇和现实基础。面对"十三五"监狱发展目标任务和总体要求,进一步深化监狱分类,可谓顺应其势,正当
从文化与成人教育相关联的视角分析了美国成人学习支持服务,论述了美国成人学习支持服务建设的文化环境,为我国成人教育的发展提供新的思考视角,并提出相应的策略与方法。
生鲜配送成本管控存在着诸多的难点,对成本财务核算带来了较大的挑战,也给企业管理带来了诸多困惑。要强化对生鲜配送的成本管控,就需要采用合理的成本核算方法。本文主要就"
目的:评价能谱CT分团注射门静脉成像对门静脉的显示情况及患者所受辐射剂量的研究。材料和方法:收集2014年6月至2014年12月间经我院行门静脉CTV检查的患者,从中选取门静脉正常
我国目前正处于社会变革时期,农村社会存在爆发公共危机的隐患。在研究大量近期文献的基础上,对公共危机的概念和我国农村存在公共危机以及公共危机管理方法的研究现状进行了
目前我国诸多政策文本中对社会养老服务体系的定义主要由三部分构成,分别是居家养老、社区养老和机构养老。在当前老龄化背景下,我国老年人的需求变化对养老服务供给提出了更高要求,养老服务供需矛盾凸显。从需求端来看,养老服务具有多层次、融合性的特征,从供给端考虑,目前也有了融合式发展的实践。然而目前我国社区、居家、机构各养老主体分离、缺乏互动,造成养老资源的割裂和闲置,不利于养老服务的高效供给。纵观各国(地