论文部分内容阅读
因为蛋白质在高温或极端PH值的环境下非常容易失去活性,这就造成了在一些极端环境中进行蛋白质的大规模的生产应用困难的局面,为此,蛋白质在极端条件下的热稳定表象成为了生物物理和生物技术领域的热点研究论题,那么如何高效的区分酶的热稳定差异并提高其热稳定性一直是各方科研力量尤其是生物科学研究者和化学化工研究者所积极从事的重要研究课题之一。尤其是我们积极探明的蛋白质的热稳定性是否可以在一级氨基酸序列水平上进行高效快速的检测变得尤为迫切。因为蛋白质的氨基酸序列决定其应有的结构,而其结构决定了其表现出的性质,所以蛋白质一级序列中含有的信息已经足够用来预测蛋白质的热稳定性了,并且这种方法也应用到蛋白质研究的其他应用领域,具有较好的通用性。从分子生物学、结构生物学的角度出发,氨基酸组成(AA)、二肽组成以及类似于氢键,疏水性等蛋白质的物理化学性质都是影响蛋白质热稳定性的因素。本文试图从蛋白质一级序列出发,利用这些影响耐热的因素并结合计算智能算法对嗜热和常温蛋白进行识别。如果蛋白质的热稳定性能通过其一级序列进行识别,就可以设计一种基于计算机的筛选方法。借助计算机的高速运算能力,显著提高寻找热稳定性很好的蛋白质的几率,并预测未知来源的蛋白质序列的热稳定性。蛋白质温热性识别问题从本质上来说是机器学习领域经典的监督学习两分类问题,即判断未知蛋白是嗜热蛋白或常温蛋白两类中的哪一类,因此蛋白质温热性识别问题需要集中解决以下两个方面的问题:如何有效地从蛋白质原始的氨基酸序列中提取特征并进行必要的特征选择。这就是通常所说的蛋白质特征提取。之所以要进行特征提取,是因为从数据库中获取的蛋白质是由20个字母组成的长短不一的氨基酸序列,把序列直接作为预测模型的输入进行计算是不现实的,这就需要将氨基酸的字母序列转换成能够被计算机识别的数字序列,也就是进行特征提取,因此特征提取方法的合适与否在很大程度上影响着课题的预测精度。在本文中,首先尝试了多特征融合实验,因为氨基酸组成是影响酶耐热性的主要因素之一,故在氨基酸组成特征提取算法的基础上融入理化性质(chemcomposition)进而进行蛋白质特征提取,并使用神经网络进行分类识别,较之单一的特征提取方式取得了不错的结果。另一方面,本文将改进的伪氨基酸特征提取方法引入到蛋白质温热性识别研究中,因为蛋白质的热稳定性与其诸多的物理化学性质有关,而伪氨基酸组成这一特征提取方法仅仅融入了氨基酸的疏水性、亲水性和侧链原子量三种物理化学性质,故将Z标度引入到伪氨基酸组成中取代原有的氨基酸的疏水性、亲水性和侧链原子量。Z标度(z-scales)是Hellberg等对氨基酸的29个物理化学性质进行主成分分析,得到的3个显著主成分,并将相应主成分得分矢量作为新的氨基酸描述子。如何根据提取的特征建立有效的分类预测模型。在本文中选用粒子群算法优化的神经网络(PSO-NN)作为分类器,并尝试运用基于遗传算法的选择性集成策略(GASEN)进行集成研究,都取得了不错的结果。另外首次将柔性神经树(FNT)作为分类器并结合改进的伪氨基酸特征提取方法进行蛋白质温热性识别。