基于两阶段的全基因组关联分析及表型预测方法研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:trulyliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大多数人类和动植物的复杂性状都是数量性状,检测控制这些数量性状的基因位点(Quantitative trait locus,QTL)对剖析复杂性状的遗传基础至关重要。事实上,数量性状通常受数量多、效应微小、易受环境影响的QTL所控制,如果仅采用生物学方法检测基因,将耗费大量的人力和时间,因此常结合统计学方法来提高检测效率。全基因组关联分析(Genome-wide association analysis,GWAS)可以将生物个体的表现型与基因型相联系,通过检测单核苷酸多态性(Single nucleotide polymorphism,SNP)标记与性状的关联程度,来判断有无与标记连锁的性状基因或QTN(Quantitative traitnucleotides)。随着测序技术的进步产生了数以百万的SNP,传统的统计方法已难以分析与之对应的高维海量数据。机器学习方法计算速度快,适用于分析P>>N问题,近年来已成功应用于高维遗传数据分析,然而其中大多数方法存在泛化能力弱、过拟合、分类效果不理想以及检测精度低等现象。为了克服以上缺点,本研究提出了一种将变量选择与机器学习算法相结合的两阶段全基因组关联分析方法,称之为基于最小角回归和随机森林的两阶段算法(TSLRF)。该方法充分考虑了群体结构和多基因效应的控制,通过最小角回归方法选择与目标性状潜在相关的SNP,随后用SNP子集建立随机森林模型,进一步筛选出与目标性状显著关联的QTN。本研究首先通过来自拟南芥自然群体的模拟数据(1,000次重复)集和真实数据集(5个开花期数据集)验证了新方法的可靠性,随后又进一步将该方法拓展,应用于表型预测,探究植物性状预测的准确性和可靠性。主要研究结果如下:1、新方法首先利用 FASTmrEMMA(Fast multi-locus random-SNP-effect EMMA)对数据集进行群体结构和多基因效应的校正,再通过最小角回归选择与目标性状潜在相关的SNP,并利用随机森林对筛选出的SNP按重要性得分降序排列,进而检测与目标性状显著关联的QTN。模拟和实际数据研究的结果表明:与其他方法相比,新方法检测到的QTN与非关联SNP具有更加显著的区别;模型准确度和模型拟合度较高;基因检测能力更强,共检测到60个被证实与目标性状显著关联的基因,同时检测到多个基因簇与目标性状相关;此外计算速度也较快。2、将新方法进行拓展,通过群体结构和多基因效应的校正考虑群体的复杂遗传结构,并对相同基因数据进行表型预测。模拟和实际数据的预测结果表明:与其他方法相比,在缺失率为5%、10%、15%和20%的情况下,新方法的表型预测准确度和预测模型的拟合度均较高。此外,随着缺失率的升高,表型预测的准确度和模型拟合度不断地降低,并呈现出越来越显著的差异。利用新方法对结合了表型预测值的基因数据进行分析,计算效率高、速度快,基因检测能力也比其他方法更强。在海量数据分析、优异亲本组合预测和全基因组标记辅助育种中,新方法提供了理论依据。
其他文献
麦长管蚜是小麦上一种严重的害虫,一般在小麦叶片上利用高度专化的口针刺吸韧皮部汁液。植物韧皮部防卫(phloem-based defence,PBD)反应受MYB转录因子调控,是抵御昆虫侵害和抵抗病原物的一种有效机制。PBD可形成的凝集素蛋白质和胼胝质作为植物对抗蚜虫的物理屏障。植物表面蜡质也是植物对抗外界恶劣的生物和非生物因素的屏障,可以阻碍害虫寄生和影响植食性昆虫对植物的取食。转录因子MYB调控
水稻(Oryza sativaL.)是一种重要的粮食作物,保证水稻生产对于我国粮食安全具有重要的意义。然而,在水稻的生产过程中,病虫害是影响水稻产量和品质的重要因素。稻飞虱(Rice Planthopper)是水稻生产的头号害虫,其中灰飞虱(Small Brown Planthopper,SBPH),寄主植物范围最广,不仅危害水稻、小麦、玉米等禾本科植物,吸食韧皮部汁液,造成叶片枯黄,甚至整株死亡
猪伪狂犬病(PR)是由猪伪狂犬病毒(Pseudorabiesvirus,PRV)引起猪的繁殖障碍、共济失调、呼吸困难等症状的一类高接触性传染病,所有年龄段的猪群均易感,且成年猪多隐性感染,不出现症状,但长期排毒,防治排查困难,是现如今养猪业危害最大的传染病之一。目前,没有有效的治疗方法,疫苗预防和猪群净化是防控该病的主要方法。随着人类抗病毒研究的发展,筛选和研制用于免疫失败个体或特殊动物个体的抗P
塞内卡病毒A(Senecavirus A,SVA)是属于小RNA病毒科的单股正链RNA病毒,该病毒于2002年首次发现,并被归类为新的病毒属——塞内卡病毒属。自然感染SVA的母猪发病表现为厌食、短暂的低烧、蹄部及口鼻处有充满水泡液或破裂的水疱,并且SVA病毒感染也可能导致新生仔猪死亡。脑心肌炎病毒(Encephalomyocarditis virus,EMCV)也是小RNA病毒科的单股正链RNA病
穆藕初(1876-1943)是中国近代重要的棉作专家、棉纺织企业家和农政工作者,倾其毕生心力从事棉业改良事业。不同于纯粹的农学家或企业家,穆藕初凭借多重身份在近代植棉业改良中扮演了重要角色,展现出其身份、理念和工作的独特性,这正是本文研究的重点所在。穆藕初倾力从事植棉业改良事业与近代中国棉业发展的历史背景有关。十九世纪中期,在洋纱、洋布的大量输入冲击了中国原有的棉货市场,中国传统手工棉纺织业逐渐向
随着近年来全球气候变化和城市化进程,城市气候条件正日益发生变化,相应的城市植物物候期的变化愈发的明显。目前对于城市植物物候期变化的研究相对集中于乔灌木,鲜有对于草本植物的物候期观察研究,加之目前城市自生草本植被是近年来城市生态学研究领域的热点话题,对于城市自生植物群落物候期的特点研究显得尤为重要,并且在植物生态实践领域具有较高的研究价值和应用潜力。本研究以南京市城东地区(南京农业大学和南京理工大学
以稗(Echinochloa crus-galli)为代表的稗属杂草(Echinochloa spp.),是水稻田发生危害最为严重的杂草,严重影响水稻的产量和质量。五氟磺草胺是近几年防除稻田稗属杂草最重要的除草剂,因其作用靶标单一且连续多年使用,导致稗对五氟磺草胺产生了比较严重的抗药性。本研究防除对象抗五氟磺草胺稗AXXZ-2种群其ALS基因存在Ala-205-Val氨基酸位点突变,且AXXZ-2
致病疫霉(Phytophthora infestans)引起的晚疫病是马铃薯和番茄上的毁灭性病害之一,严重威胁马铃薯和番茄的品质及产量。1845-1850年由致病疫霉侵染引发的马铃薯晚疫病大流行曾导致震惊世界的“爱尔兰大饥馑”,至今,晚疫病每年在世界范围造成高达数百亿美元的经济损失,严重威胁着世界粮食安全。目前,农业生产上对晚疫病的防控主要依赖于施用化学农药,然而严重依赖化学防治易造成病原菌抗药性
旋毛虫(Trichinellaspiralis)是一种肠道寄生线虫,感染人和动物引起旋毛虫病(Trichinellosis)。旋毛虫病是一种全球性分布的人兽共患寄生虫病,对我国畜牧业、社会经济以及国民健康具有严重威胁。研制安全有效的兽用旋毛虫疫苗,可以从根本上预防旋毛虫感染,是控制旋毛虫病的有力措施之一。旋毛虫弹性蛋白酶(Trichinella spiralis elastase-1,TsE),是
乳酸菌是应用广泛的益生菌种,对宿主的健康具有重要作用。肠出血性大肠杆菌是肠道致病菌,感染后多用抗生素进行治疗,而抗生素破坏肠道菌群的结构和组成,造成菌群失衡。肠道菌群在宿主的免疫等方面发挥重要作用。研究乳酸菌对大肠杆菌的抑制,有助于大肠杆菌的防治,减少抗生素的使用,对开发益生菌资源具有重要指导意义。本研究以鸡肠道组织为样品,体外以Caco-2细胞为模型筛选出抑菌能力强,耐受效果优并且具有粘附效果的