深度学习在蛋白质二级结构预测中的应用研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:fooguo3007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成,生命科学的研究重点逐步的从基因组学转向蛋白质组学,人类进入后基因组时代。蛋白质组学的研究重点是蛋白质的结构与功能,而蛋白质的结构决定了蛋白质的功能,因此,对蛋白质结构的研究成为后基因组时代的重点。另一方面,近年来由于对各类蛋白质测序工作的顺利开展,越来越多的蛋白质一级结构(组成蛋白质的氨基酸序列)被测定,并存储在各大生物数据库中,这些序列数据以指数级别增长,而蛋白质空间结构的测定却受到各种因素的影响而进展缓慢,这就造成越来越多的蛋白质只知道其一级结构却不知道其空间结构。在这种情况下,利用计算机技术对蛋白质结构进行预测被提出,并得到广泛研究。研究过程中发现,很难从蛋白质的一级结构直接预测空间结构,蛋白质的二级结构概念被提出。蛋白质的二级结构作为一级结构和空间结构的过渡,被用来描述蛋白质的局部空间结构。这样就将蛋白质的结构预测分为两个方向:由一级结构预测二级结构和由二级结构预测空间结构,其中前者是研究重点。文本主要研究内容是由蛋白质的一级结构预测其二级结构。蛋白质二级结构的预测一般分两个步骤:编码阶段和预测模型构造阶段。编码阶段又可称为特征编码或特征提取,按照一定的编码方式将蛋白质序列编码成固定长度的特征向量;模型构造阶段主要是构造适当的预测模型,用经过编码的蛋白质序列的进行训练和预测。本文将从这两个方面进行改进,提出一种基于深度学习的蛋白质二级结构预测方法。在蛋白质特征编码阶段,本文提出了一种基于伪氨基酸组分(PseAA)的蛋白质特征提取方法,将蛋白质序列编码成一个30维的特征向量,该特征向量中既包含了蛋白质的氨基酸组分(AAC),又包含了描述序列局部信息的近似熵特征、描述序列物化性质的疏水模式特征以及描述蛋白质序列的基于图像的同源性特征。本文的预测模型采用的是深度学习的一个常用模型:深度置信网(DBN),由5层深度玻尔兹曼机(DBM)和一个分类层网络组成。5层DBM相邻两层组成一个受限玻尔兹曼机(RBM),从而形成4个RBM,分类层采用softmax分类器。预测模型的训练包括两个过程:自下而上的预训练过程和自上而下的微调过程,预训练是一个非监督学习过程,采用逐层贪婪算法,自下而上逐层训练每一个RBM;微调过程则是采用BP算法自顶向下微调网络参数。实验结果表明:本文所提出的预测模型对于蛋白质二级结构的预测具有很好的可行性和有效性,尤其是同源性较低的蛋白质序列,预测精度可媲美与当前最好的预测模型。
其他文献
多糖是生物体内的重要大分子之一,具有调节免疫、抗肿瘤、抗病毒、抗衰老等多种生理功能,在医药和食品领域显示了很好的应用前景,因而受到人们的广泛关注。但是目前多糖研究主要
科学的社会发展评价指标体系是一定历史条件下,尤其是当代飞速发展的社会条件下,衡量一个国家或地区社会综合发展水平的重要手段。它的科学构建和完善将有助于政府在社会发展
汉语量词在现代汉语中具有非常重要的地位,也是一个对外汉语教学的难点。对外国人而言汉语量词的用法比较复杂。本研究以埃及大学生为研究对象,采用问卷调查、访谈和作文分析
这里"百河交错、水网密集",地理位置优越,水陆交通便利,总面积92平方公里,常住人口26万,下辖10个居委会10个村委会,山美、水美、人更美;这里求实创新、敢为天下先,率先进行了企
对外汉语教育自1987年国家汉办成立以来发生了巨大的变化。在国家汉办的领导下,对外汉语教育的各个方面得到了快速发展,汉语国际推广的步伐加快。本文在大量材料的基础上对90年
东北方言词研究是东北方言研究的重要组成部分。本文以词汇学理论、语言的地域分化理论和汉语方言研究方法为基础,采用描写与解释相结合法、计量统计法、文献研究法、比较法
<正> 宋家庄在大同城西北五里,同蒲铁路的南侧,北靠雷公山,南临十里河北岸之广阔平原。1958年,我们在宋家庄附近进行过钻探,发现古墓较多。冯道真墓是同年10月上旬发现的,位
研究表明,话语标记语在语言交流中扮演着重要的角色。因此,它们已成为语言学领域学者们所追捧的研究对象。本文首先回顾了话语标记语研究中一些最常见的概念与构念,如话语标
公平体现在人类生活的各个方面。特别是在信息高速化,生产提速化的今天,公平的重要性体现的更加明显。但是,不公平的现象仍屡见不止。如今,数字鸿沟与信息分化在全世界中存在
《史记》的整理刊行由来已久。及至1959年,中华书局出版顾颉刚先生领衔点校之《史记》,1982年再版,风靡半世纪有余,为今世最普及之《史记》通行本。其以金陵书局本为底本,参