基于词嵌入和深度学习的复制起始位点和增强子预测研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xiaolongyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA复制起始位点(Origins of Replication,ORIs)识别是生物信息学领域的重要研究课题之一。DNA复制是最基础的遗传信息传递过程,影响着细胞分裂、细胞分化和基因表达等过程。因此,通过计算方法实现DNA复制起始位点识别对探求细胞复制机理、基因表达过程、基因突变过程和相关疾病的发病机理等具有重大意义。增强子(Enhancers)及其类型识别是生物信息学领域中新兴的热门研究课题之一。增强子是存在于DNA非编码区的DNA片段,在生物学过程中主要作用是刺激编码区DNA序列的转录速度,提升合成蛋白质的效率,根据刺激强度的不同可以分为强增强子和弱增强子。增强子的属性功能变化可能会导致许多疾病的发生,尤其是癌症、失调和炎症性肠胃病等。因此深入研究增强子及其功能机制对人类认知相关疾病病理与开发治疗手段具有重大意义。通过生物实验方法能够准确识别生物序列属性和功能,但是时间和资源成本高,且无法大规模开展。因此,需要开发出能够快速、准确的计算方法代替生物实验方法。基于深度学习,本学位论文针对真核生物DNA复制起始位点和生物增强子及其类型识别建立了相应模型,主要研究内容如下:(1)基于卷积神经网络(Convolutional Neural Network,CNN),构建了新的酿酒酵母复制起始位点预测模型。将数据集中DNA序列切割成三联核苷酸组成,通过计算三联核苷酸含量及其相应物理化学性质构建DNA序列特征向量,输入到卷积神经网络进行复制起始位点识别。通过实验,验证了随着网络层数增加,识别效果随之提升。由于较深的网络容易引发过拟合现象,因此采用单层卷积层的卷积神经网络作为最终模型。通过与现有方法进行比较,表明本模型的预测性能优于现有方法。(2)将自然语言与生物序列相结合,基于Word2vec和带有嵌入层的卷积神经网络,构建了真核生物复制起始位点预测模型。使用连续3-gram滑动窗口分词方法分割DNA序列得到生物学词,利用Word2vec训练出各个词的分布式表示,然后输入至带有嵌入层的卷积神经网络实现复制起始位点识别。为了提高DNA序列中各词核苷酸的利用率,使用间隔3-gram滑动窗口进行分词,并获得增强数据集,在增强数据集上执行识别任务。对每个物种选择出最优分词方法和网络训练模式的组合模型,并与现有方法进行比较,对比结果表明本模型具有强大的预测能力。构建各物种的独立测试集,通过实验发现本模型在各个物种独立测试集上均展示出良好性能,证明本模型具有强大的泛化能力。(3)提出了一种基于统计学序列分词和Seq-GAN(Sequence Generative Adversarial Nets)网络序列生成的生物增强子及其类型识别模型。该模型首先使用Seq-GAN网络进行DNA序列生成,扩展非增强子、强增强子和弱增强子的数据规模;然后利用统计学思想,将DNA序列合理地划分为生物词组成;接着,使用Word2vec进行生物词分布式表示训练;最后,使用带有嵌入层的卷积神经网络执行识别任务。实验结果表明,基于Seq-GAN网络生成的人工序列具有与自然序列很相似的核苷酸组成和物理化学性质,且本预测模型在增强子及其类型识别任务中表现出优于现有方法的识别能力。在独立测试集上,本预测模型展示出较强的泛化性能,且能够更全面地展示本预测模型在增强子及其类型识别任务中具有远优于现有方法的综合性能。
其他文献
中华白海豚(Sousa chinensis)是一种主要栖息于东印度洋和西太平洋近岸海域的小型鲸类,中华白海豚属于国家一级保护野生动物,被列入《世界自然保护联盟濒危物种红色名录》(The IUCN Red List)。全球现存的中华白海豚数量估计值不足6000头,且作为一种生活于河口、近岸的小型鲸类,中华白海豚的栖息地与人类活动区域相较其他鲸类更为重合,受人类活动影响较大,因此需要我们广泛关注。本论
聚硅氧烷作为一类性能优异、应用广泛的有机/无机杂化聚合物,是由硅氧重复单元和硅原子上多变的有机取代基共同组成的。其经典的合成方法是氯硅烷/烷氧基硅烷的缩合聚合与硅氧烷环体的开环聚合。此类合成过程官能团容忍性差,只适合于有限官能团(如氨基、Si-H、巯基和乙烯基)的引入。结构多样性的缺乏使得传统聚硅氧烷材料无法满足人们对高性能、多样化功能材料日益增长的需求。因此,研究者们基于迈克尔加成反应、巯烯点击
研究目的:骨关节炎作为目前老年人最严重的关节疾病,也是致残的主要原因之一,目前病因尚不明确。围绝经期女性骨关节炎发病率显著升高,而此时重要的临床特征之一即FSH水平的升高。为探究FSH与骨关节炎之间的关系,在既往研究中,我们发现了 FSH受体在人和小鼠软骨细胞上表达,但FSH对软骨细胞如何产生及产生了何种影响尚不清楚。本实验拟通过动物实验验证FSH在体内对软骨细胞的影响。体外实验通过转录组学测序并
研究目的:1、了解自体腘绳肌腱ACLR患者中高运动需求者的人口学特征;2、了解高运动需求者术后重返运动情况;3、分析影响重返运动的相关因素;4、比较重返运动及非重返运动组患者在躯体功能恢复和心理准备上的差异。研究方法:选取山东大学齐鲁医院近5年(2015年1月至2019年12月)自体腘绳肌腱ACLR病例纳入研究。采集患者病例信息并随访运动需求情况及术后重返运动情况。对于其中高运动需求者发放IKDC
数学变式问题一直是数学教学研究领域的一个重要问题,对促进学生概念和知识的理解以及培养学生的创造性发挥了重要作用。本研究根据课标要求,并依据顾泠沅教授的数学变式分类以及相关的知识编制了测试卷。以289名使用人教版的五年级学生为调查对象。对收集到的数据进行整理和分析,得到以下研究结果:1.变式问题解决整体表现:五年级学生解决数学变式问题整体水平较好。其中,概念性变式的总体表现优于过程性变式。男生和女生
目的探究经自然腔道(阴道)取标本的完全腹腔镜胃癌根治术治疗胃癌的安全性、可行性及近期疗效。方法第一部分整理我科2018年10月至2020年10月行经阴道取标本的完全腹腔镜胃癌根治全胃切除(GC-NOSES Ⅷ式)手术的患者,收集其临床资料加以分析;同时以“胃、自然腔道或阴道或口或肛门或直肠、腹腔镜、手术”及(transvaginal or transanal or transrectal)and(
研究背景心肌梗死(myocardial infarction,MI)严重威胁着人类的健康,而且发病率呈上升的趋势,患者年龄也逐渐年轻化。恶性室性心律失常(ventricular arrhythmias,VAs)及心源性猝死(sudden cardiac death,SCD)是 MI 患者致死、致残的重要原因。近年来一系列研究及我们既往研究证实MI后恶性Vas及SCD与心脏交感神经再生重构导致的心脏
目的:探究胃癌肿瘤患者发生术后A级胰瘘与各项术前个人因素、术后化验指标的相关性;对各类分层因素进行分析,以期找出术后A级胰瘘的危险因素,尽早行临床干预。方法:采取回顾性研究,对山东省立医院东院胃肠外科2020.06.01-2020.11.26的96例胃癌手术患者进行统计。手术类型包括胃癌全胃根治性切除术、远端胃根治性切除术;近端胃根治性切除术。手术方式涵盖了经腹开放手术、腹腔镜辅助手术及达芬奇机器
近年来,大众对身体的关注度急剧增加。“完美的身体”是现代消费文化的主流理想之一。不同性别对完美身材的追求不同。一般来说,女性想要更瘦一些以实现“理想身材”,而男性则想要更强壮、锻炼更多肌肉来达到“理想身材”。有人提出,这种对完美身体的追求会影响到个体行为。个体对“完美身材”的内化程度会产生负面影响,如饮食失调、过度的肌肉锻炼。这种对完美身体的追捧在大众文化中尤其明显。例如在广告中,大家常会看到那些
本文主要研究TV和稀疏表示模型在图像分层中的结合应用.我们通过一个两步的方法,分别计算并提取图像的背景层以及纹理层,从而实现图像的分层.在图像中,有意义的部分隐藏在网格等纹理背后是一个很普遍的现象,而从复杂的纹理或网格中提取出有效的信息成为了一个具有挑战性的问题.全变分和稀疏表示是图像处理问题中的两类经典的模型,在本文中,我们提出了 一个基于全变分和稀疏表示模型的图像分层算法.我们将图像分为了两层