论文部分内容阅读
背景随着高通量测序技术的快速发展,产生了大量外显子测序(whole exome sequencing,WES)和全基因组测序(whole genome sequencing,WGS)数据,为研究者们探索与复杂疾病/性状关联的常见变异(common variance,CV)或稀有变异(rare variance,RV)提供了更多机会。但面对快速涌现的遗传数据,虽然已有很多遗传关联研究的方法被提出,但由于检验功效的缺乏,从海量变异中发现与复杂疾病关联的致病变异依然是有限的,统计方法依然面临巨大挑战。近年来有研究者提出,提高遗传变异检验效能的一种方法是将SNPs(Single Nucleotide Polymorphisms)的生物学信息以先验形式结合到统计模型中并用于遗传关联研究中。而且,随着生物信息学技术的发展,大量公共生物信息功能数据库的出现,为遗传变异提供了多种生物信息先验。因此,本研究鉴于目前遗传关联研究效能低的问题,将生物信息先验评分结合到贝叶斯压缩模型来识别SNPs,并应用于遗传关联研究中,与常规统计方法比较,为提高复杂疾病关联SNPs的发现率提供方法学支持。方法本研究采用结合生物信息先验的贝叶斯压缩模型进行遗传关联研究。在无压缩(即采用大尺度参数,相当于没有压缩的情景)、对所有SNPs给予固定压缩以及包含生物信息先验评分的变异特异性压缩三种情景下,探索结合先验信息的贝叶斯压缩模型的性能,并与线性模型或Logistic回归模型比较。其中每个SNP的变异特异性压缩参数值由SIFT、Regulome DB和CADD(Combined Annotation Dependent Depletion)3个生物信息数据库预测,并且将预测评分以线性方式插入到压缩参数范围内。所有情景被应用到遗传分析工作组19(Genetic Analysis Workshop 19,GAW19),包括一个连续型模拟表型数据和一个二分类真实表型数据。GAW19来自德克萨斯州医学研究中心。本研究选取的连续型表型数据为200个模拟表型数据之一,共包含1943个观测,表型为模拟的收缩压,且与真实收缩压相关。遗传变异数据来自3号染色体,剔除最小等位基因频率(Minor Allele Frequency,MAF)小于0.01和哈迪温伯格平衡(Hardy-Weinberg Equilibrium,HWE)小于0.05的SNPs后共获得4907个SNPs,选取与模拟收缩压(systolic blood pressure,SBP)表型关联最强的4个SNPs,并随机选取了6个无关联SNPs,映射到所在连锁不平衡(linkage disequilibrium,LD)区域后,共得到2个“True block”和6个无关联LD区域上的115个SNPs。研究以“True block”的平均排名作为模型评价指标,并探索“Top block”的方差比与“True block”的平均排名作为模型评价指标的一致性。理论上,“True block”的平均排名越靠前,模型的性能越好。“Top block”的方差比越大,模型的性能越好。本研究选取的二分类表型数据是来自GAW19中的一个真实测序数据,表型为真实的高血压(有/无)。排除92例表型缺失者后余1851条观测,其中病例427人,对照1424人。基于通路策略,选取肾素-血管紧张素-醛固酮系统(renin-angiotensin-aldosterone system,RAAS)中的96个基因,映射到GAW19的奇数染色体后共获取12251个SNPs,剔除MAF<0.01和HWE<0.05的SNPs后最终得到249个LD区域上的318个SNPs。由于真实二分类表型数据事先未知真关联的SNPs,因此,只将“Top block”的方差比作为二分类表型数据的模型评价指标。结果1.连续型模拟表型数据集中,在无压缩情景下,贝叶斯压缩模型和线性模型中“True block”的最佳平均排名均为5.00;对所有SNPs给予固定压缩时,随着压缩参数等级的变化,贝叶斯压缩模型中的平均排名大于5.00。但对贝叶斯压缩模型中的每个SNP应用由CADD评分定义的变异特异性压缩时,“True block”的最佳平均排名为4.50,线性模型的平均排名为5.00。但贝叶斯压缩模型结合SIFT评分和RegulomeDB评分时,最佳平均排名分别为5.50和14.50;2.在变异特异性压缩情景下,当“True block”的平均排名最优时,压缩上界均为0.001,下限从0.0001到0.000001,并且达到最优压缩范围时,“Top block”的方差比也均达到最大值5557.50。3.二分类真实表型数据集中,当采用CADD先验评分作为变异特异性压缩时,由“Top block”的方差比确定的最优压缩参数上限也为0.001。且在最优压缩范围下,贝叶斯压缩模型识别出15个高血压关联SNPs,而Logistic回归模型识别出11个,两种方法的结果中共有9个SNPs重叠,提示贝叶斯压缩模型可能有更大的检验效能。结论1.采用变异特异性压缩的贝叶斯压缩模型在检出关联SNPs的能力方面优于线性模型和Logistic回归模型。而对所有SNPs执行固定压缩或不压缩时,贝叶斯压缩模型并不会比常规统计方法有更好的效果。2.结合CADD评分的贝叶斯压缩模型在应用于遗传关联研究时表现出良好的性能,提示在遗传关联研究中,采用CADD数据库对遗传变异进行生物功能评分预测,并将该评分作为遗传变异的生物信息先验是恰当的。3.“Top block”的方差比和“True block”的平均排名相关,“Top block”的方差比最大时,模型也达到最优压缩范围。因此,实际研究中,“Top block”的方差比可替代“True block”的平均排名作为寻找最优压缩参数的良好指标。