基于全基因组测序的表型预测方法研究及其体系构建

来源 :东北农业大学 | 被引量 : 3次 | 上传用户:zhoujiayan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组选择GS(Genomic Selection)也叫基因组预测GP(Genomic Prediction)是一种用于计算基因组育种值GEBV(Genomic Estimated Breeding Value)的方法,估算精准育种值需要检测覆盖所有全基因组水平遗传标记假设,然后对其个体进行评估。当前全基因组选择的方法非常多,如基于贝叶斯模型的方法(Bayesian A、B、C、lasso等),还有基于最佳线性无偏预测BLUP(Best Linear Unbiased Prediction)模型的方法(g BLUP,rr BLUP等)。每种预测方法计算原理不同,对于表型性状预测效果有很大差别,所以预测选择适合的方法是提高最大精准值Accuracy最好的途径,其基因组育种值是作为育种家育种的重要参考。本文研发了一个新基因组选择方法m MAP(Mining the Maximum Accuracy of Prediction)是将当前流行的基因组选择方法建立方法库,然后去预测运算大量不同的物种性状,采用交叉验证得到精准值,形成具有参考价值的知识库。新的物种性状根据知识库采用挖掘技术去选择最优GS方法在预测GEBV中指导育种分析。现在知识库里面有三百多种物种性状测得精准值,并不断有GS方法加入到方法库,再将预测新物种性状精准值累积到知识库中。m MAP方法具体研究实现过程及效果:(1)对于新物种性状预测,通过引入数据挖掘技术应用到基因组方法的选择上,将聚类分析处理知识库与多种流行的基因组预测方法相结合,目的是应用最少的基因组预测方法算出预测精准值最高。根据提供的三组知识库数据,真实预测累积数据、两组模拟知识库数据之间分别符合正态分布和随机分布,分别在92.27%、93.40%和90.2%以上找到该表型对应GS方法预测精准值的最高。(2)预测精准值运算采用统计学中交叉验证(Cross validation)提高验证精准值的效率。验证设计采用随机分5组,以80%已知表型数据作为训练群体,预测20%未知表型数据,然后重复100次以上验证去预测精准值基本上覆盖了所有假设,将其误差降到最低。也将交叉验证分组进行不同设置扩展实验,如3、5、10、20等,再重复100次以上其Accuracy接近稳定。(3)确定新表型性状选择GS方法的最佳时机,本研究设计了聚类中心最远、最近收敛方法去检验找到新预测表型最适合的GS方法。通过实验设置初始聚类分组重复100次以上使得初始知识库处理聚类核心比较稳定,然后在收敛时根据距离每组聚类核心最近位置值和最远边缘值查找,使得最新GS方法预测Accuracy将其临时组合到知识库,然后迭代收敛检验直到连续两次内没有新GS方法产生,避免了偶然性。通过真实数据检验对于新性状查找大概迭代3次左右即可找到最佳方法,迭代本身时间仅几秒钟。(4)每种GS方法都有独立的实现包,只需要将聚类产生的新GS方法和物种性状传到包里进行预测。而且各个包之间相对独立,通过主线程对聚类结果进行分别调用,其结果不会相互影响,经过比对结果,继续收敛。通过独立包的设计达到方法执行相对独立,保证数据安全和缩短运行时间。(5)采用面向对象技术实现m MAP研发,可以通过多线程实现独立包调用。通过引入操作系统底层封装技术Docker,直接调用Linux服务封装简化操作系统内核形成Docker容器,实现多线程应用。将容器封装到WEB环境,通过B/S操作访问模式,提供服务为育种家随时随地进行运算,结果会自动生成分析报告和育种值。该平台已经可以远程应用,并在2017年1月PAG(The Plant and Animal Genome)大会上进行了展示。(6)提供给m MAP运算的基因型数据可以是已发表公共的数据,也可以由原始测序数据转换得到。因此高通量测序数据转换基因型数据作为输入接口,整合到m MAP计算平台中构建一个完整体系,目的是可以降低原始数据存储空间、缩短转换时间以及高效服务育种业务。目前高通量测序原始数据(fastq格式)比对参考基因组序列(fasta格式),通过bowtie、sam Tool、GATK等工具进行数据转换、calling SNPs等操作,然后再变换成可用的基因型文件如Hapmap、Numeric Genotype等格式为后续分析服务。但是高通量测序原始数据太大,转换时间太长,整个处理过程占用大量资源。针对运行时间和占据空间问题,本研究设计了一个基因型数据处理管道,目的是提高效率,主要涉及算法技术和效果:HDF5数据格式替代fasta作为参考基因组,占空间小,比对速度较快;由于处理过程中大量的中间数据产生影响其效率,本研究设计一种高效双索引文件格式来存储差异基因位点数据,根据差异数量减少中间文件占用空间;由于生成SNP及基因文件都占据大量空间,引入g ZIP压缩方法,能将大型基因数据文件压缩到50倍以上,而且编写方法直接调用压缩数据和还原的SNP数据,其操作与源数据效果相同。为了提高调用及转换基因型数据过程效率,对于变换基因型数据存储形式采用压缩格式,并提供很多灵活的操作接口,方便后续分析统计。整个管道采用面向对象技术研发,实现并行处理,并提供数据接口服务与m MAP整合在一起。通过m MAP方法预测很多物种性状,根据设置的条件可以找到最优合适的GS方法,并调用生成育种值,为育种家提供直接帮助。通过管道研究,能够完成大批高通量原始测序数据的转换,引入并行运算和相关技术可以完成基因大数据处理模式,并对遗传领域后期数据分析(如全基因组关联分析GWAS和GS)提供基础服务。
其他文献
旨在探讨黄芩甙对新城疫病毒感染鸡胚成纤维细胞Toll样受体2、3、4、7 mRNA表达的影响。新城疫病毒(NDV)感染鸡胚成纤维细胞,使用MTT法检测黄芩甙对鸡胚成纤维细胞的最大安全浓
目的探讨电刺激配合吞咽功能训练对脑卒中吞咽障碍的临床疗效。方法选取脑卒中吞咽障碍患者204例,随机分成观察组102例和对照组102例,对照组仅给予吞咽功能训练,观察组在吞咽
在GPS软件接收机信号跟踪过程中,为了解决传统的八通道GPS跟踪方法耗时较长,提出了一种基于码存储的SGR信号跟踪方法。本文对传统的八通道的GPS码跟踪方法进行了分析与理论介
分数频率复用技术已经用在了干扰限制的网络系统中,从而提高蜂窝网络的覆盖能力,其代价是降低了可用网络资源的数量,进而降低了系统的频谱利用率。通过引入归一化的频谱利用