论文部分内容阅读
棉花是重要的经济作物和油料作物,其纤维作为重要的工业纺织原料,在国民经济中占据着重要的地位。随着经济的发展,人口数量增加、耕地面积减少,保障棉花有效供给的形势愈发严峻,提高棉花产量、改善纤维品质和加强棉花抗病性的研究始终是我国棉花育种的主攻方向。
以基因组序列为基础——单核苷酸多态性SNP分子标记技术发展为开展棉花相关研究提供了新契机。SNP标记具有分布广、数量多、稳定性好的特点,特别是分布于基因编码区内的非同cSNP,改变了以其为模板翻译的蛋白质序列,也就影响了基因的正常表达和其控制的蛋白质的正常功能。
本研究选用2014年Illumina公司开发研制的棉花70KSNP芯片(国际棉花SNP联盟)对构建288份国内外陆地棉种质资源群体(西北内陆棉区137份,长江流域40份、黄河流域61份、辽宁特早熟棉区13份以及国外各类品种资源37份)研究群体遗传多样性、群体结构,开展关联分析,为今后全面地发掘棉花种质资源的相关育种目标性状基因、从全基因组水平理解棉花重要农艺性状的遗传基础提供新的研究策略。通过研究发现:
1、使用覆盖全部26条棉花染色体的全基因组SNP标记对总共288份陆地棉种质进行了基因分型。结果表明,检测到的多样性水平相对较低,基因多样性为0.31,PIC为0.25。其中,美国棉花种质具有比中国种质更高的遗传多样性。
2、通过IlluminaCottonSNP70K芯片对288份国内外陆地棉自交系进行基因分型,一共得到63058个SNPs,经过质量控制后,最终得到18,687个高质量(maf≥0.05)的SNP标记;其中3302个SNP没有锚定到染色体上,2824个SNP以Scaffold形式存在。
3、288份棉花品种△K的最大值为K=3。在K=3时,将所有288份材料分为三个亚群。大多数棉花种质被清晰的分类到三个亚群中。在三个亚群中,种质资源来自(中国,美洲,非洲和欧洲)几个不同的地区,表明不同地区之间存在着种质的交换和驯化。AMOVA结果表明推断组之间的差异不显著,意味着美国与中国原产棉花种质之间的差异很小。
4、调查了288份棉花品种在3年环境里的表型性状,包括果枝数、单株铃数、单铃重、衣分、纤维品质等在内的9个产量及品质相关性状,发现除2014年的铃重,衣分和纤维绒长,2015年的铃重,衣分,纤维绒长和纤维比强度,2016年的衣分,纤维绒长和比强度,BLUP环境下的铃重,衣分,纤维绒长,纤维整齐度,纤维表强度,马克隆值的遗传力大于0.5,其余性状在相应环境下的遗传力均小于0.5,表明这些性状受遗传影响较小,受环境的影响较大。大部分性状呈正态分布,并且铃重、衣分、纤维绒长、整齐度、马克隆值性状间存在显著相关。
5、为了选择最佳的PCA个数,使用了控制PCA个数(1-10个)的10种不同的方法进行比较分析后发现,不同性状对PCA个数的敏感程度不同,大多数性状在PCA个数为1-5或6的时候,对PCA个数较敏感;当PCA个数为6-10的时候,大多数性状对PCA个数不太敏感。因此,从这9个性状的QQ图来说,除单株铃数(BP)和单铃重(BW)分别选择前3个及前9个PCs用于后续的GWAS分析(PCA和PCA+K模型)外,其余7个性状,在进行GWAS分析时,均选择前10个PCs来控制群体结构。
6、最佳PCA确定之后,使用6种不同模型进行GWAS分析,发现不同模型对9个不同性状群体结构的控制效果不同,总得来说,GLM模型的拟合效果最差,即控制假阳性的效果最差;其次为PCA模型(10PCs)和Q模型。而对于混合线性模型的3种方法来说,不同性状的3种方法的表现效果也不同,比如对于BN,BP,BW,ELO和UI这5个性状来说,Q+K模型的拟合效果最好,对于LP,STR及UHM性状来说,Q模型和Q+K模型在控制假阳性的效果上差异不大,而对于MIC性状来说,PCA模型(10PCs)控制假阳性的效果最好。因此除MIC性状选择PCA模型(10PCs)作为最佳模型外,其余模型均选择Q+K模型作为最优模型。
7、在最优模型下,3个环境及blup条件下,9个性状一共检测到45个显著的SNP-性状关联,涉及到8个性状,37个SNPs,每个SNP能解释的表型变异从5.96%-10.30%等,同时发现,有4个SNP可以在多个环境下被检测到,有2个SNP被多个性状检测到,这些SNP位点将是后候选研究要进一步验证的位点。同时也发现,在这9个性状中,只有8个性状检测到显著的SNP,性状BN没有检测到显著位点。
以基因组序列为基础——单核苷酸多态性SNP分子标记技术发展为开展棉花相关研究提供了新契机。SNP标记具有分布广、数量多、稳定性好的特点,特别是分布于基因编码区内的非同cSNP,改变了以其为模板翻译的蛋白质序列,也就影响了基因的正常表达和其控制的蛋白质的正常功能。
本研究选用2014年Illumina公司开发研制的棉花70KSNP芯片(国际棉花SNP联盟)对构建288份国内外陆地棉种质资源群体(西北内陆棉区137份,长江流域40份、黄河流域61份、辽宁特早熟棉区13份以及国外各类品种资源37份)研究群体遗传多样性、群体结构,开展关联分析,为今后全面地发掘棉花种质资源的相关育种目标性状基因、从全基因组水平理解棉花重要农艺性状的遗传基础提供新的研究策略。通过研究发现:
1、使用覆盖全部26条棉花染色体的全基因组SNP标记对总共288份陆地棉种质进行了基因分型。结果表明,检测到的多样性水平相对较低,基因多样性为0.31,PIC为0.25。其中,美国棉花种质具有比中国种质更高的遗传多样性。
2、通过IlluminaCottonSNP70K芯片对288份国内外陆地棉自交系进行基因分型,一共得到63058个SNPs,经过质量控制后,最终得到18,687个高质量(maf≥0.05)的SNP标记;其中3302个SNP没有锚定到染色体上,2824个SNP以Scaffold形式存在。
3、288份棉花品种△K的最大值为K=3。在K=3时,将所有288份材料分为三个亚群。大多数棉花种质被清晰的分类到三个亚群中。在三个亚群中,种质资源来自(中国,美洲,非洲和欧洲)几个不同的地区,表明不同地区之间存在着种质的交换和驯化。AMOVA结果表明推断组之间的差异不显著,意味着美国与中国原产棉花种质之间的差异很小。
4、调查了288份棉花品种在3年环境里的表型性状,包括果枝数、单株铃数、单铃重、衣分、纤维品质等在内的9个产量及品质相关性状,发现除2014年的铃重,衣分和纤维绒长,2015年的铃重,衣分,纤维绒长和纤维比强度,2016年的衣分,纤维绒长和比强度,BLUP环境下的铃重,衣分,纤维绒长,纤维整齐度,纤维表强度,马克隆值的遗传力大于0.5,其余性状在相应环境下的遗传力均小于0.5,表明这些性状受遗传影响较小,受环境的影响较大。大部分性状呈正态分布,并且铃重、衣分、纤维绒长、整齐度、马克隆值性状间存在显著相关。
5、为了选择最佳的PCA个数,使用了控制PCA个数(1-10个)的10种不同的方法进行比较分析后发现,不同性状对PCA个数的敏感程度不同,大多数性状在PCA个数为1-5或6的时候,对PCA个数较敏感;当PCA个数为6-10的时候,大多数性状对PCA个数不太敏感。因此,从这9个性状的QQ图来说,除单株铃数(BP)和单铃重(BW)分别选择前3个及前9个PCs用于后续的GWAS分析(PCA和PCA+K模型)外,其余7个性状,在进行GWAS分析时,均选择前10个PCs来控制群体结构。
6、最佳PCA确定之后,使用6种不同模型进行GWAS分析,发现不同模型对9个不同性状群体结构的控制效果不同,总得来说,GLM模型的拟合效果最差,即控制假阳性的效果最差;其次为PCA模型(10PCs)和Q模型。而对于混合线性模型的3种方法来说,不同性状的3种方法的表现效果也不同,比如对于BN,BP,BW,ELO和UI这5个性状来说,Q+K模型的拟合效果最好,对于LP,STR及UHM性状来说,Q模型和Q+K模型在控制假阳性的效果上差异不大,而对于MIC性状来说,PCA模型(10PCs)控制假阳性的效果最好。因此除MIC性状选择PCA模型(10PCs)作为最佳模型外,其余模型均选择Q+K模型作为最优模型。
7、在最优模型下,3个环境及blup条件下,9个性状一共检测到45个显著的SNP-性状关联,涉及到8个性状,37个SNPs,每个SNP能解释的表型变异从5.96%-10.30%等,同时发现,有4个SNP可以在多个环境下被检测到,有2个SNP被多个性状检测到,这些SNP位点将是后候选研究要进一步验证的位点。同时也发现,在这9个性状中,只有8个性状检测到显著的SNP,性状BN没有检测到显著位点。