基于结构特征和深度学习的基因预测方法研究

被引量 : 0次 | 上传用户:ttttt2046
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因预测是基因组分析的重要内容之一,是理解基因调控与表达的关键环节。基因预测的准确度将直接影响后续的基因功能注释等任务的准确性。在很多情况下,鉴定基因功能的唯一办法是干扰目的基因来观测其对于表型的影响。然而,在过去的十年,基因预测的发展并没有引起足够的重视,一方面,大多数基因预测的方法都构建在上一代基因测序技术产生的数据集上,不仅数据量少,而且准确性难以保证;另一方面,有效的编码特征依然停留在少数的生物特征(如密码子、六聚体的使用频率等)。同时,由于编码特征往往具有非常复杂的非线性依赖关系,部分基因功能位点周围的保守性很差,导致现有的基因预测方法预测性能还有待进一步提升。随着下一代测序技术的快速发展,积累了大量的基因数据,大量的工作致力于从测序的数据中识别出基因突变,这些都使得寻求一种有效的基因预测方法变得十分的迫切。与此同时,深度学习的方法凭借其强大的端到端学习能力以及表示能力,已经成功应用到了包括图像视频自然语言等在内的多种数据中,并在相当一部分基因预测的应用中取得了不错的成绩。然而,现有的基于深度学习的基因预测方法很难充分地挖掘生物序列中的有用特征,一方面,生物序列上的基因存在很强的结构特征,如蛋白质编码区中的密码子是按照一定的顺序排列在一起的(密码子的连续性),翻译起始位点位于非编码区到编码区的边界,且处于第一个阅读框,而这类方法忽略了或者未能充分地利用基因的这两种结构特征;另一方面,不同于图像数据,生物序列作为一种符号数据,具有很高的语义信息,生物特征之间往往存在着异质性,而这类方法只使用单一的数据表示方法和单一的计算模型很难全面细致地挖掘到这些特征。基于以上分析,本文以基因预测中的两个子任务蛋白质编码区预测和翻译起始位点预测为例,研究了深度学习如何结合基因的结构特征来进一步提升两个子任务的预测性能,具体包含以下三个方面的内容:1.针对存在的转录组序列蛋白质编码区预测方法忽略了蛋白质编码区的结构特征,提出了一种基于结构特征和双向跳跃循环神经网络的蛋白质编码区预测方法,该方法首次利用了密码子的连续性这一基因结构特征建模了编码区中的编码标签依赖性,并在网络结构中使用了跳跃连接的方式解决长距离位置标签信息传递问题。双向跳跃循环神经网络通过捕获相邻的两个位置传递的标签信息有效地学习出密码子的连续性这一结构特征,在人类和小鼠的转录组序列进行的测试表明,提出的方法显著提升了现有的蛋白质编码区预测方法的预测性能。2.在第一部分内容的基础上,将双向跳跃循环神经网络推广到基因组序列,并考虑到生物序列中编码特征的异质性,提出了一种基于混合编码和卷积-双向跳跃循环神经网络的蛋白质编码区预测方法。该方法首次使用卷积神经网络捕获基因序列的全局顺序信息,首次将流行的gapped kmer(gkm)特征引入蛋白质编码区预测。通过整合以上三种异质特征,提出的方法在人类和小鼠的基因组和转录组序列上取得了相比于现有方法最好的蛋白质编码区预测性能。3.针对目前大多数基于深度学习的翻译起始位点预测方法忽略了翻译起始位点周围的结构特征,无法充分利用编码特征这一局限性,提出了一种基于结构特征和深度学习的翻译起始位点预测新方法。该方法利用了翻译起始位点位于非编码区到编码区的边界,且处于第一个阅读框这一结构特征,通过依赖网络明确地建模了编码区和翻译起始位点的标签依赖性,并将编码特征(通过第二部分内容得到)融入卷积神经网络进行结构特征的学习。其次,在转录组的翻译起始位点预测中还融入了核糖体扫描模型和终止密码子周围的结构特征。在人类和小鼠的基因组和转录组序列进行的测试表明,提出的方法显著提升了现有的翻译起始位点预测方法的预测性能。以上三部分的内容都证实了,将基因的结构特征与深度学习进行有机结合,对于提升基因预测方法的预测性能具有十分重要的意义。同时,也证实了混合编码对于编码特征提取的有效性。
其他文献
三维模型虚拟表示真实世界物体的形状外貌,用户能够通过多视角观察其外观获取全面准确的认知。而知识抽取主要以文本为主,更具表现力的非文本资源很难用自然语言描述,构建易用的三维模型知识库仍然十分困难。三维模型低层特征提取、高级语义标注支持描述语料的抽取,但以知识的形式组织三维模型视觉信息的描述语料、代表观察视图及显著区域曲面等抽象表达为一体的研究仍有所欠缺。观察三维模型的视角无限,如何选择少量且尽可能代
随着经济的高速发展,化工类企业迅速崛起,直接服务于工业发展、国防建设和人民生活等各个领域的危险品的种类和数量在不断增加,这给危险品运输行业带来了很大的发展空间。由于危险品的特性,危险品运输过程中一旦发生事故,容易造成较大的人员伤亡和财产损失。我国危险品运输市场主要以道路运输为主,驾驶员作为驾驶过程中的决策者和操作者,在驾驶过程中对客观环境中的潜在风险产生认知错误时,会导致驾驶员采取错误的驾驶行为,
在人们的认知中,以降雨或降雪形式出现的降水通常会对城市交通产生无法预测的影响,增加交通事故的发生率。现如今出租车作为城市公共交通系统极其重要的组成部分,时常用来分析或评估交通的运行状况。因此在本研究中,将采用出租车GPS轨迹数据,对不同降水条件下的出租车运行时空特性进行分析研究。本文首先对兰州市2021年的部分出租车轨迹数据进行数据预处理,并进行相应的出租车运行速度和载卸客点数据的提取。其次,对出
背景及目的:近年来全球细颗粒物(particles with aerodynamic diameters of less than or equal to 2.5μm,PM2.5)和可吸入颗粒物(particles with aerodynamic diameters of less than or equal to 10μm,PM10)的污染形势非常严峻,其被认为是多种疾病的危险因素,但其与糖尿
第一部分:心力衰竭生物标志物在老年慢性心力衰竭患者病情评估中应用价值1.目的了解老年慢性心力衰竭患者心力衰竭生物标志物血浆B型脑钠肽(BNP)、血清C-反应蛋白(CRP)、血清心肌肌钙蛋白I(cTnI)水平与老年慢性心力衰竭患者心室功能、左心室重构之间的关系,探讨心力衰竭生物标志物血浆脑钠肽(BNP)、血清C-反应蛋白(CRP)、血清心肌肌钙蛋白I(cTnI)在老年慢性心力衰竭患者病情严重程度评估
研究背景糖尿病心肌病(Diabetic cardiomyopathy,DCM)是糖尿病常见的一种心血管并发症。高糖高脂刺激心肌细胞增加活性氧生成和细胞凋亡,引起DCM发生。高糖高脂影响线粒体动力学,导致线粒体融合减少、线粒体分裂增加。而抑制过度的线粒体分裂能够减少高糖引起的活性氧生成和细胞凋亡。高糖还影响线粒体生物发生,导致ATP生成减少。分泌卷曲相关蛋白 2(Secretedfrizzled-r
机动车保险(本文简称车险)是财产保险的重要组成部分。车险是我国财产保险业务中的第一大险种,对开展风险管理、组织经济补偿、促进社会稳定发挥着积极作用。车险费率是车险经营管理中的一个核心要素。车险费率是否合理、充足、公平,在微观、中观以及宏观层面均存在深刻的影响。具体而言,微观上从广大车险消费者角度看,车险费率不仅影响车险消费者保费支出与保险保障之间的投入产出关系,而且参与了国民经济的分配与再分配过程
通过网络订购快餐的餐饮消费模式自2010年出现以来,发展至2015年该种订餐模式已成为餐饮业中非常流行的消费模式。这种模式以互联网为通信载体,通过各种应用软件,在顾客与餐饮店之间建立了订购快餐的信息渠道,依靠众多外卖人员负责餐饮食物和物品的线下交付。该种服务模式因融合了互联网通信与线下交付过程,被称作O2O模式下的外卖订餐模式。这种模式被广泛应用于物流配送与外卖市场中。外卖市场在这种模式催动下,经
公司治理行为研究的重要目标是通过探索个体认知和个人行为以打开公司治理运作的“黑箱”。利益相关者在公司治理领域中扮演着重要的角色,但是相关研究还不足,存在诸多问题亟待解决,比如,利益相关者如何看待以及应对公司治理中存在的问题?对待同一问题,不同利益相关者之间是否存在差异?利益相关者参与公司治理能否提升公司价值?董事高管责任险(以下简称,D&O责任险)作为一种风险管理工具引入上市公司以来,其作用效应一
随着城市人口的快速增长,道路交通拥堵问题日益严重。智慧交通系统则是未来智慧城市系统不可或缺的一部分。轨道交通以其绿色、便捷、运量大等优点成为智慧交通系统(Intelligent Transportation System,ITS)的重要组成部分。各大城市皆大力发展轨道交通系统,地铁已成为人们出行的重要方式。乘客爆炸式的增长,给复杂地铁系统的有效管理和日常运营带来了巨大的挑战。随着信息技术的发展,地