基于注意力机制深度学习的宏基因组数据分选方法

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 1次 | 上传用户:lyan4321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着宏基因组测序技术的发展,宏基因组技术为直接从环境中获取微生物基因序列提供了重要的解决方案,是微生物研究的重要途径。宏基因组数据分选是鉴定宏基因组序列中微生物物种组成的重要方法,是一类典型的机器学习聚类或分类问题。当前大部分机器学习方法采用的是手工设计的基因序列表示,且提出了一些有效的机器学习模型,特别是深度学习模型,取得了较好的效果。但在基因序列的表征上,大部分研究方法忽略了基因序列复杂的语义信息、非结构化特点、长度长且差异大的特点,只考虑了序列的碱基内容或者序列的丰度信息,导致特征的不完备,进而宏基因组数据分选准确率下降。在聚类过程中,大部分研究方法忽略了宏基因组数据类别不平衡属性,导致聚类的性能还有较大的提升空间。鉴于上述问题,本文提出了一个高效的基于BERT的重叠群表示模型-Contig BERT。模型利用改进的轻量级的BERT模型对重叠群序列进行表示学习,获取序列的嵌入向量。采用数据可视化手段对嵌入向量的分布进行了展示,并将这些序列嵌入向量应用于宏基因组数据聚类和分类任务。针对聚类任务,本文开发了一种基于Contig BERT的全基因组序列还原工具-Contig BERTRG,利用基于质心的迭代聚类算法进行预聚类;接着设计了合并优化策略,利用传统的全基因组序列还原工具,对预聚类结果进行合并与优化。本文在公开数据集上将模型同其他方法进行了比较,实验结果验证了Contig BERTRG模型的有效性。此外,本文还通过消融实验探究了不同特征表示对分选效果的影响,对模型表现效果较好的原因进行了分析。针对物种分类任务,本文开发了一种基于Contig BERT的物种分类工具-Contig BERTTC,设计了三种神经网络分类器,包括基于前馈神经网络的分类器,基于Transformer的分类器,基于卷积神经网络的分类器,并利用Focal loss策略改善了数据类别不平衡问题,在公开数据集上,取得了比其他工具更好的结果,验证了我们方法的有效性。总结本文的工作,主要包括两个方面:(1)采用基于自监督学习的语言模型来对非结构化的重叠群进行表示学习,构建了Contig BERT模型,解决了机器学习在非结构化宏基因组数据难以进行特征提取的问题。(2)提出了一种基于质心的迭代聚类算法和合并优化策略结合的方法。获取了比现有工具更好的效果。本文成功地将语言模型引入宏基因组分选任务,针对全基因组序列还原和物种分类任务构建了Contig BERTRG和Contig BERTTC工具,为宏基因组分选任务提供一套有效的、鲁棒的解决方案。
其他文献
在新型冠状病毒(SARS-Co V-2)的抗病毒药物和疫苗研发过程中,动物模型的建立是一个非常重要的环节。猴子、猩猩等非人灵长类动物虽然在亲缘关系与生理结构上与人类更加接近,但不适宜广泛推广和应用,主要是因为其价格昂贵,繁殖周期长、操作较为困难等问题。而小鼠作为实验室中常规使用的实验动物,依旧是动物模型的首选。由于介导新冠病毒入侵人体细胞的受体蛋白ACE2(血管紧张素转换酶2)在小鼠中的结构与人的
学位
报纸
<正>口算两位数加两位数是小学数学三年级上册第二单元的教学内容,在本节课之前,学生已经认识了万以内的数,学习了两位数加减整十数或一位数的口算,而且会用竖式计算两位数加减两位数,其实这些知识也为学生探究两位数加减两位数的口算方法做好了铺垫。通过这部分内容的学习,可以帮助学生体会运用“拆数法”进行两位数加减两位数口算的优越性,掌握真正的口算技能。现结合口算两位数加两位数的教学实践,谈一谈笔者的磨课经历
期刊
<正>“两位数减两位数的口算”是苏教版教材二年级下册第六单元的内容。在此之前,学生计算两位数减两位数时,都要通过列竖式进行计算。从本单元起,这部分内容则逐步要求学生口算。此类口算不仅对后续学习有着重要的影响,是提高学生运算能力的重要一环,而且在日常生活中也有着广泛的应用。由于学生已经积累了较为丰富的笔算减法的经验,他们面对两位数减两位数的式题时通常会按照笔算的思路展开自己的口算过程。那么,怎样才能
期刊
地方红色文化是独具地域特色的历史资源、是独特鲜活的大中小学思政课教学资源,是推动大中小思政课一体化的宝贵素材。文章以百色革命老区丰富的红色资源为对象,从大中小学思政课一体化建设的工作模式、课程创新、内容发掘、队伍建设、平台搭建等几个方面开展探究,积极为大中小学校思政课一体化建设探寻一条有效的实施途径。
期刊
流感是由流感病毒引起的急性呼吸道传染病,每年季节性流感的暴发和传播严重威胁着人类健康并造成重大经济损失,如果流感病毒发生较大变异,则会造成更加严重的健康危害。特别是人口密集的现代化城市地区,其生产活动以工业和服务业为主,常常伴随密集人口流动的现象,为流感病毒的传播提供了适宜的条件。一旦流感疫情在城市中大暴发,不仅会危害人民群众(尤其是老人、小孩等高危群体)的安全,而且也会造成停学等社会影响。由于流
学位
<正>习近平总书记在学校思想政治理论课教师座谈会上指出,思想政治理论课(以下简称思政课)是落实立德树人根本任务的关键课程,“要把统筹推进大中小学思政课一体化建设作为一项重要工程”,“推动思政课建设内涵式发展”。(1)大中小学思政课一体化建设迅速成为学术研究热点。本文以中国知网所收录的论文为分析对象,希望通过梳理、反思这一阶段的研究成果,为这一议题的后续研究提供有价值的参考。
期刊
<正>"两位数乘两位数"是人教版小学数学教材三年级下册第四单元的内容,学习这部分内容,是为今后多位数笔算教学奠定基础。教材为了让学生在多样化拆分乘数的数学活动中理解两位数乘两位数的算理,安排了两个例题的口算教学。例题蕴含着可以怎样将乘法算式中的其中一个数进行拆分,且经历多种拆分形式,进而领悟乘法的意义。例2(2)是课堂教学中的难点,教师应结合具体情境,
期刊
结核病(Tuberculosis,TB)是全世界人类的一个主要病因。目前对结核病的全球性的预防和治疗仍是一个巨大的挑战。结核分枝杆菌(Mycobacterium tuberculosis,Mtb)是结核病的病原体。尽管有许多关于Mtb在各种不利条件下在宿主细胞内持续存活能力的研究,但其背后机制却知之甚少。这些机制直接受到膜蛋白的影响,如ABC转运蛋白超家族。ABC转运蛋白参与了细胞排毒、营养循环以
学位
脑血管疾病是一种常见且发病率和致死率较高的疾病。颅内动脉血管分析是治疗脑血管疾病例如脑出血、脑栓塞、脑血栓形成的关键技术,在自动化诊断系统中发挥着重要的作用。在分析患者颅内动脉血管成像时,血管的宽度、密度和曲率等形态学信息是评估和诊断的重要指标。因此通过自动提取和分割技术来获取血管的形态学信息是一项不可或缺的工作。但脑部血管的自动分割存在一定的困难,如图像分辨率低、血管宽度大小不一、图像亮度不一致
学位