论文部分内容阅读
猪是重要的农业动物之一,猪肉约占世界肉类消费总量的40%。野猪起源于东南亚地区,在亚洲和欧洲两个中心被独立驯化成家猪;并不断向世界各地扩散,形成丰富多样的家猪品种。对猪基因组的遗传学研究,不仅有利于剖析猪的群体结构、遗传多样性、驯化和进化,也有利于解析猪复杂性状的因果机制、提高育种效率和生产性能。然而,前人的研究主要集中在猪基因组中SNP、INDEL、CNV和SV等变异的功能,而忽视了短串联重复序列变异(STR)的重要作用。STR,又称简单重复序列(SSR),是指基因组上核心基序长度为1-6碱基的串联重复DNA序列。STR约占真核生物基因组总长的0.5%-15.5%,具有高度多态性;STR曾经被认为是没有功能的“垃圾DNA”,但最近多项研究表明,STR在动植物基因表达和复杂性状的调控中发挥着重要作用。本研究收集来自全球22个家猪品种、2个野猪群体和7个其他猪属共计394个样本的全基因组重测序数据,利用TRF和lob STR软件,共鉴定到878967个多态性STR变异(p STR),大幅扩充了猪STR变异数据库。研究发现:(1)编码区域的p STR受到了纯化选择的影响;CCG、AGG和AGC等三核苷酸p STR在CDS、5’UTR和H3K4me3区富集,而ACAGCC重复序列在SINEs元件中显著富集,表明这些STRs在猪基因组中具有重要的功能。(2)利用近三十万个高质量的p STR对品种的分类效果要好于全基因组SNP数据。(3)鉴定了14125个拷贝数扩张评分大于10的p STR,其中位于A3AGLT2基因的p STR在亚欧猪群间分化极其显著。(4)在亚洲野猪和家猪之间,鉴定了1484个显著分化的p STR,最显著信号位于TBX19、MSTN、SFT2D2和AHR等基因附近;在欧洲野猪和家猪之间,共鉴定了1325个显著分化的p STR,最显著信号位于MFSD12、NR6A1、FAF1和LAS1L等基因附近。(5)在中国地方猪环境适应性分析中,共有3268个p STR与年平均温度变异显著关联,涉及EDA、METTL8和FAM155B等基因;共有2692个p STR与高原适应性显著关联,涉及EPAS1、PDK1和PIK3C2B等基因。在分析家猪与野猪之间的分化以及中国地方猪环境适应性时,我们还发现许多p STRs比SNPs的信号更显著,支持了STR在鉴别选择信号等群体遗传学领域可以提供重要的补充信息。总之,本研究提供了迄今为止最全面的猪基因组p STR集合,并阐明了短串联重复序列变异在猪进化、驯化和环境适应中的作用。为了探究STR变异对基因表达的影响,本项目专门研究了家猪嵌合家系F6和F7世代全基因组重测序及其对应的肝脏组织全基因组表达谱数据。其中,F6和F7群体的样本量大小在质控之后分别为260和296。在F6和F7世代的肝脏组织中,分别鉴定出5,203和5,868个与基因表达显著相关的STRs(e STRs,FDR<1%)。正交验证分析表明,不同群体间显著性e STR的重复率为92%。与e SNP比较发现,e STR的遗传力约为顺式遗传力的1/4;利用贝叶斯精细定位法,在F6和F7中分别确定了235和298个候选的FMe STR(Fine-Mapped e STR),且两个群体间共享12个e Genes,分别是ABTB1、ASB5、NDUSF5、CARD19、MPG、KNJ18、RTTN、IL33、BCKDK、RAB4B、SNX33和ARPC5基因。此外,我们发现FMe STR在猪基因组中内含子区域,以及ATAC、HIC Compartment A和H3K4me3等表观遗传修饰区域显著富集。最后,我们观察到数百个e STRs与GWAS SNPs有共定位,其中20个位于GWAS-SNP附近的FMe STR又与表观遗传修饰峰重叠,其靶基因的功能与GWAS表型相关,提示这些STR很可能是候选的因果变异。例如,第9号染色体上的一个FMe STR落在H3K4me3、H3K27ac和ATAC的保守峰上,又与血细胞计数的GWAS SNP毗邻,且显著影响了CLPB基因的表达。综上所述,本研究对猪肝组织的e STRs进行了全面的调查,证实了STR变异对猪肝脏组织的基因表达具有显著的调控作用,为研究复杂性状的遗传基础提供了重要的见解。