基于计算智能算法的蛋白质温热性识别研究

来源 :济南大学 | 被引量 : 1次 | 上传用户:heermeisi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因为蛋白质在高温或极端PH值的环境下非常容易失去活性,这就造成了在一些极端环境中进行蛋白质的大规模的生产应用困难的局面,为此,蛋白质在极端条件下的热稳定表象成为了生物物理和生物技术领域的热点研究论题,那么如何高效的区分酶的热稳定差异并提高其热稳定性一直是各方科研力量尤其是生物科学研究者和化学化工研究者所积极从事的重要研究课题之一。尤其是我们积极探明的蛋白质的热稳定性是否可以在一级氨基酸序列水平上进行高效快速的检测变得尤为迫切。因为蛋白质的氨基酸序列决定其应有的结构,而其结构决定了其表现出的性质,所以蛋白质一级序列中含有的信息已经足够用来预测蛋白质的热稳定性了,并且这种方法也应用到蛋白质研究的其他应用领域,具有较好的通用性。从分子生物学、结构生物学的角度出发,氨基酸组成(AA)、二肽组成以及类似于氢键,疏水性等蛋白质的物理化学性质都是影响蛋白质热稳定性的因素。本文试图从蛋白质一级序列出发,利用这些影响耐热的因素并结合计算智能算法对嗜热和常温蛋白进行识别。如果蛋白质的热稳定性能通过其一级序列进行识别,就可以设计一种基于计算机的筛选方法。借助计算机的高速运算能力,显著提高寻找热稳定性很好的蛋白质的几率,并预测未知来源的蛋白质序列的热稳定性。蛋白质温热性识别问题从本质上来说是机器学习领域经典的监督学习两分类问题,即判断未知蛋白是嗜热蛋白或常温蛋白两类中的哪一类,因此蛋白质温热性识别问题需要集中解决以下两个方面的问题:如何有效地从蛋白质原始的氨基酸序列中提取特征并进行必要的特征选择。这就是通常所说的蛋白质特征提取。之所以要进行特征提取,是因为从数据库中获取的蛋白质是由20个字母组成的长短不一的氨基酸序列,把序列直接作为预测模型的输入进行计算是不现实的,这就需要将氨基酸的字母序列转换成能够被计算机识别的数字序列,也就是进行特征提取,因此特征提取方法的合适与否在很大程度上影响着课题的预测精度。在本文中,首先尝试了多特征融合实验,因为氨基酸组成是影响酶耐热性的主要因素之一,故在氨基酸组成特征提取算法的基础上融入理化性质(chemcomposition)进而进行蛋白质特征提取,并使用神经网络进行分类识别,较之单一的特征提取方式取得了不错的结果。另一方面,本文将改进的伪氨基酸特征提取方法引入到蛋白质温热性识别研究中,因为蛋白质的热稳定性与其诸多的物理化学性质有关,而伪氨基酸组成这一特征提取方法仅仅融入了氨基酸的疏水性、亲水性和侧链原子量三种物理化学性质,故将Z标度引入到伪氨基酸组成中取代原有的氨基酸的疏水性、亲水性和侧链原子量。Z标度(z-scales)是Hellberg等对氨基酸的29个物理化学性质进行主成分分析,得到的3个显著主成分,并将相应主成分得分矢量作为新的氨基酸描述子。如何根据提取的特征建立有效的分类预测模型。在本文中选用粒子群算法优化的神经网络(PSO-NN)作为分类器,并尝试运用基于遗传算法的选择性集成策略(GASEN)进行集成研究,都取得了不错的结果。另外首次将柔性神经树(FNT)作为分类器并结合改进的伪氨基酸特征提取方法进行蛋白质温热性识别。
其他文献
多年以来企业和云提供商一直使用虚拟化的云平台运行应用程序,并且都是在虚拟机中运行。虚拟机技术提供整个硬件层的虚拟化,虽然实现了资源的隔离与控制,但使用成本较高。容
随着信息技术的飞速发展,人们日常的生活已离不开互联网。互联网给人们带来便捷的同时,由于多数网站不符合无障碍标准,使得残疾人无法像健全人那样方便的获取互联网信息。为
煤矿井下分站是煤矿监测监控系统的重要组成部分,是连接井下各数据采集模块与地面监控中心站之间数据传输的桥梁,承担了对井下各参数的采集以及实现分站和中心站之间所有数据
在教学管理部门的数据库中,存储了大量的学生各门课程的成绩数据,这些数据中隐藏着许多有价值的重要知识,如何挖掘出这些知识,对学生的学习和教学管理部门的教学管理,具有重
随着Internet的发展及信息的全球化,人们对不同语言的信息需求越来越多。对于大多数不精通外语的用户来说,想要获取需求的信息存在一定的难度。因此有研究者提出了对跨语言信息
随着生物分子序列数据的快速增长及人类基因组计划的实施,生物信息学逐渐发展起来。在生物信息学中,序列比对问题是生物信息学中最基本的也是最重要的问题之一,通过序列比对可以
随着近年来移动计算的快速发展,能耗问题越发地成为移动端图形应用的瓶颈。因此,限制绘制过程所需的能耗已成为新的需求。这篇文章中,我们提出了一个具有实时优化能耗功能的
脑组织图像分割在医学图像分析中具有重要的理论与应用价值。现有的很多图像分割方法都是基于传统统计学理论,是基于样本数趋于无穷大的渐近理论,而对于高维特征、小样本数的问
近年来,随着电子摄影产品的迅速普及,数字图像以惊人的速度涌现在网络上。如何从海量的图像中检索出所需图像成为一个亟待解决的问题。合理的图像标签顺序对图像检索和分析有
数据挖掘(Data Mining)是从存放在数据库、数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解模式的非平凡过程。而关联规则挖掘作为数据挖