论文部分内容阅读
基因型填充技术,即利用现有的基因型信息,对未测定或者不完整的基因型进行计算推断,从而获得更多的基因组信息。其基本原理是根据参考群体或群体内其他个体与目标群体的基因型数据内的连锁不平衡信息和重组率等构建共有的单倍型片段,然后利用单倍型片段信息对目标群体内未分型位点进行估算并填充完整。基因型填充作为基因组数据处理的重要工具,填充结果的好坏直接影响后续分析,为了得到好的填充结果,需要制定完善的填充策略。本研究模拟出四个亲缘关系由远及近的群体共20000个个体、染色体长度为10Mb的基因组数据。将模拟后的数据按目标群体与参考群体划分并剔除MAF<0.01的位点。其中,填充验证(目标)群体固定为群体1内的1 000个个体,而参考群体大小为100、1 000、3 000、5 000、10 000个个体共五个水平。按芯片数据和全基因组测序数据两种数据类型对验证群体的位点进行删除,分别保留原位点数量的1、5、10、30、50、90%的位点,即目标群体位点占参考群体位点比例/SNP覆盖度。使用Beagle5.1和Minimac4两种软件进行填充,填充后计算填充可靠性、填充错误率和填充耗时。比较不同填充方法、目标位点比例(SNP覆盖度)、参考群体大小、参考群体与目标群体个体间的遗传距离和数据类型这几种因素对填充效果的影响。结果表明:1)目标位点比例/SNP覆盖度在本研究所有填充情形下对填充可靠性和错误率的影响都是极显著的(P<10-4),是影响填充效果的最主要因素。利用Beagle5.1填充测序数据时,参考群体为100,SNP覆盖度从1%提升至90%,填充可靠性由0.21提升至0.99,填充错误率由19%降低至0.16%。此外,参考群体大小、目标群体与参考群体间的遗传距离在部分填充情形下也对填充效果有重要影响。2)Beagle5.1在大多数情况下的填充效果优于Minimac4,但当各因素水平很低时,Beagle5.1的填充效果更容易受到影响。相比于Minimac4,Beagle5.1能在因素水平较低的标准下,使填充后的数据达到优良或理想状态,这种优势在测序数据的填充下更为明显。同时,本研究范围内Beagle5.1的填充速度均低于同水平下Minimac4的填充速度。3)除目标位点比例/SNP覆盖度极低的情况下,基于测序数据的填充效果往往优于基于芯片数据的填充效果。利用Beagle5.1对1000个个体进行填充时,当测序数据的SNP覆盖度达到5%(测序深度达到1-2×左右)以上,填充效果即优于芯片数据;当SNP覆盖度达到30%(测序深度为4×左右),填充效果便可达到可靠性大于0.99且填充错误率小于1%,说明测序数据在基因型填充方面具有很强的优势,较低覆盖度下便可获得高质量的填充结果。根据以上结果,本研究针对不同的填充目的制定了不同策略,为基因型填充的应用提供了参考。