基于机器学习和全基因组选择的长牡蛎选种分类

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zybp821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长牡蛎是我国北方重要的经济贝类,随着养殖规模扩大,由于缺乏科学完善的苗种培育体系致使长牡蛎出现了品质下降、种质退化问题,这就需要加强选种育苗工作,通过诸如全基因组选择等先进的计算辅助育种技术,选择培育高质量长牡蛎品种。但是随着高通量测序技术的发展,全基因组规模的单核苷酸多态性(single nucleotide polymorphism,SNP)遗传标记密度越来越高,造成基因数据的特征维度远高于样本数量,这对全基因组选择的数据分析方法提出了更高的要求。随着近些年机器学习在特征选择、建模预测等方面的能力越来越强,其相比于传统生物信息学方法在计算效率、准确度方面具有更大的优势,因此将机器学习与全基因组选择相结合对精准选育进行研究能够有效促进育种技术的进步与发展,具有重要的研究意义。本文针对长牡蛎选种预测问题,利用机器学习方法对长牡蛎全基因组数据的分类模型进行研究,主要工作内容如下:1.针对长牡蛎全基因组数据的超高维度状况,本文提出了一种互信息-多模型稳定性选择特征选择法(mutual information-multiple models stability selection,MI-MSS)。MI-MSS特征选择法通过两个阶段实现降维,其中一阶段基于互信息法,通过度量变量间互信息快速筛选特征,二阶段使用多模型稳定性选择法,进行子采样并综合多种模型结果以选取重要特征,从而有效的将复杂非线性数据集降低到合适的维度。对比实验表明,该方法相比于常规特征选择方法所选择的特征更有利于提升分类模型的精度。2.本文提出了一种结合MI-MSS和lightGBM的长牡蛎种质分类模型,该方法利用MI-MSS方法完成特征选择,使用基于决策树的lightGBM集成学习框架构建分类模型。lightGBM具有分类精度高、不易过拟合的优点,能够高效处理复杂非线性的基因数据。实验结果表明,本文所提出的长牡蛎全基因组种质分类模型具有较好的分类效果,在综合评价指标上优于其他常规的机器学习和生物信息学方法。3.为了将上述的理论研究进行工具化实现,本文开发完成了一套长牡蛎全基因组数据分析预测软件,该软件有着较为完善的图形界面,提供了完整便捷的全基因组数据分析流程。软件主要基于QT开发框架与Python编程语言设计实现,支持的功能包括数据清洗、特征选择、建模分析等等,使用者能够根据研究需求选择不同模块加以组合使用。该软件操作简单、使用方便,为生物全基因组选择相关研究提供了实用的工具。
其他文献
染色体区域维护蛋白1(XPO1),也被称为CRM1,最初在裂殖酵母中被发现。XPO1最初是通过其基因的突变被提取研究。XPO1后来被发现是一个重要的核输出受体。结外自然杀伤细胞(NK)/T细胞淋巴瘤(ENKTL)因其侵袭性和预后较差的特点,已成为近年来的活跃研究领域。本课题通过计算机辅助药物设计的方法,针对XPO1蛋白探索研究了新型靶向性小分子化合物抑制剂,并探索了其对XPO1蛋白的体外结合能力以
抗体功能化微纳材料因其亲和力和特异性的优势被广泛应用于临床诊断、生物分离纯化和环境与食品检测等领域,其中材料表面抗体分子状态(密度、取向等)的调控、非特异性吸附是开发抗体功能化材料的关键科学问题。本文制备了一系列不同电性高分子刷修饰的纳米粒子,通过物理吸附固定抗HCG抗体。考察了抗体种类、电荷密度、溶液离子强度、p H和复杂生化液体等多种因素对抗体固定及其抗原结合活性影响;选择最佳孵育条件用于竞争
高频神经电刺激,又称为千赫兹交流电(kilo hertz alternative current,KHAC)神经传导阻断,可以对神经的传导功能造成可逆的抑制效果,具有良好的临床应用前景:包括阵痛、麻醉、缓解痉挛、帮助尿道功能障碍患者排尿等。然而,在研究过程中发现,高频交流电对神经传导功能的抑制不是完全可逆的,即阻断神经的同时往往伴随着损伤。为了提高电刺激的阻断效果并同时降低附带的神经损伤,有必要对
中心法则提出之后,人们认识到疾病发生的根源是基因发生有害缺陷或突变,基因治疗应运而生。但由于基因本身易被降解的缺陷,需要载体来负载基因进行治疗。病毒载体虽然具有极高的基因转染效率,但其免疫原性致命,且外源基因可能会永久整合到宿主细胞染色体中,存在潜在的诱癌风险,近年来,随着纳米医学技术的发展,非病毒载体由于便于功能化修饰在递送基因过程中取得理想的效果,成为目前研究的热点。本研究针对非病毒载体在递送
甲基苯丙胺(Methamphetamine,MA)成瘾是一个严重的公共健康问题,MA成瘾者会面临认知功能失调和情绪障碍,以及对毒品毫无抵制的渴求。运动干预被认为是治疗毒品成瘾的非药物干预的有效方法。然而,关于运动干预对甲基苯丙胺成瘾者脑功能影响的机制尚不明确。本文借助功能近红外光谱(Functional near-infrared spectroscopy,f NIRS)研究运动干预对30名甲基苯
血液净化是一种通过膜分离或者吸附作用清除患者血液中内源、外源性毒素的临床治疗手段,对于急性中毒、器官衰竭等危重症患者可有效缓解症状,具有良好的治疗效果。近年来重症医学领域研究表明,白细胞介素-6(IL-6)和肿瘤坏死因子-α(TNF-α)作为典型的促炎细胞因子,在“细胞因子风暴”的发生、发展过程中扮演了重要角色,而这种过激的炎症反应是导致癌症免疫治疗、新冠肺炎、细菌感染患者病情恶化的关键因素。因此
据报道,预计到2021年,美国将有189万例癌症新发病例和60万例癌症死亡病例。对于像癌症这样复杂的疾病,单一的治疗策略往往是不够的。多管齐下的联合疗法逐渐进入研究人员的视野。在本论文中,我们讨论了基于仿生金属有机框架(MOF)构建的光热治疗(PTT)、芬顿疗法和化疗的多功能纳米治疗平台所介导的联合疗法治疗癌症的效果。具体研究内容如下:通过构建一种富含三价铁离子的金属有机框架纳米颗粒,其中铁离子作
刺参腐皮综合征因其传染性强、致死率高已成为公认的最为严重的疾病。而实际生产中主要依赖抗生素和化学药物来控制,但长此以往细菌耐药性会愈加严重,同时药物残留、生态环境失衡以及对人体健康的影响等诸多问题引起了国内外学者的广泛关注,开发绿色、安全且高效的抗生素替代品已迫在眉睫。为探究大连地区某刺参养殖场刺参溃烂死亡的病因,本研究从患病刺参病灶处分离出一株优势菌株AP-1,经形态学观察、16S rRNA序列
肠道菌群被认为是人体的新“器官”,在宿主的新陈代谢和疾病的产生发展中发挥着重要作用。肠道菌群体外评价模型具有通量高、能够阐明不同因素影响等特点,具有光明的应用前景。然而当前的体外评价模型未对培养条件进行优化,也未表征其与粪便样品的差异,影响了其准确性。针对以上问题,本论文开展了以下的研究:首先构建了前驱糖尿病鼠肠道菌群的体外培养模型,以体外培养后的菌群与粪便菌群的相似度为评价依据,从YCFA、MP
坚持马克思主义意识形态领域指导地位是党的历史经验总结,更是新时代坚持和完善中国特色社会主义必须遵循的根本原则。坚持和巩固马克思主义在意识形态领域指导地位,必然要求夯实理想信念根基。新时代,面临新形势、新环境,在继承和发扬党在理想信念教育方面的成功经验的基础上,要继续强化马克思主义理论研究阐释,以理论自信坚定理想信念;要牢牢把握党对意识形态工作的领导权,以马克思主义意识形态坚定共产主义理想信念;要进
期刊