基于多种特征的低序列相似性蛋白质结构类预测

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:sketchupbim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划的顺利完成导致了核酸序列和蛋白质序列的急剧增加,与核酸序列相比,大部分的蛋白质功能未知。因此从这些蛋白质序列中挖掘出有用的功能信息十分重要。蛋白质序列决定其结构,进而决定蛋白质的功能,而传统的实验难以满足海量的蛋白序列分析,所以在生物信息学中发展了机器学习算法来研究蛋白质的空间结构。蛋白质结构类能反映蛋白质的二级结构和三级结构,也与蛋白质功能密切相关。因此本文以蛋白质结构类为研究对象,利用机器学习的方法来研究蛋白质空间结构,其主要内容如下:首先本文构建了一个可靠、严谨的基准数据集,其相似性~15%,包含399条蛋白质结构类序列;其次,本文分别选用了三肽组成、位置特异性矩阵、预测二级结构信息和平均化学位移来表征蛋白质序列,对于维度高的三肽组成特征,选用二项分布和增量特征筛选出最优三肽特征以避免过拟合现象,最终得到1254维的最优三肽组成特征;再者,使用支持向量机分别对四种特征构建预测模型;随后,融合四种特征形成11种新的特征,再用支持向量机构建蛋白质结构类的预测模型。Jackknife交叉结果表明,四种特征提取方法单独分类时,最优三肽组成所构建的预测模型总的精度最高,其中总体准确率为91%,平均准确率为90.5%。融合特征后有5种新的特征准确度高于95%,3种特征组合高于90%,其中最优三肽组成和平均化学位移的总体准确率最高,达到96.7%,平均准确率为96.4%。事实上,位置特异性矩阵特征构建的模型的性能比最优三肽组成、预测二级结构信息和平均化学位移差。比较目前提出的蛋白质结构类的预测方法,我们发现本文所构建的预测模型准确率更高。除此之外,针对支持向量机得到最佳性能的模型特征,本文还对比了不同的分类算法,其中包括J48、朴素贝叶斯、人工神经网络、元算法和随机森林,结果表明我们选用的支持向量机在各个性能指标上都优于其他的算法。因此本文所构建基于最优三肽组成特征和平均化学位移的方法所构建的预测模型可作为预测低相似性蛋白质结构类的可靠的工具。
其他文献
目的分析慢性乙肝患者实行免疫球蛋白检验的临床意义与影响。方法选取我院2017年1月-2018年1月收治的慢性乙肝患者50例作为观察组,选取同期的健康体检者50例作为对照组,两组
启动子是位于转录起始点附近的能促使基因发生转录的一段DNA序列,通常由核心启动子区域和调控区域组成。在RNA合成过程中,启动子可以和决定基因转录起始的蛋白质相互作用,进
四轴飞行器作为近年来科技发展的重要产物,已经受到了科研爱好者和商业公司的广泛关注。虽然国内外已有许多成熟的四轴飞行器产品,但是对于操作者而言,控制飞行器并不是一件
在建筑行业发展的过程中,建筑施工工程质量管理与控制工作对该行业发展的效果起着决定性的作用。建筑施工工程的质量管理与控制工作会受到来自多个方面因素的影响,本文主要对
近年来,全国各地纷纷将课外文言文阅读引入到中考试卷中来,尽管绝大多数的材料浅显、有趣、易懂,但由于不少考生在平时的学习中不注重积累,缺少有效的学习方法,考试时,失分仍然十分严重,甚至有少数考生已经到了谈课外文言文而色变的程度。其实,考生只要在厚实积累的基础上,再掌握一定的文言阅读技法,遇到这样的题目就会得心应手,轻松解决。    一、借助文中或文下注释理解文章大意    在理解文意的时候,千万不能
<正>近年来,生物识别技术持续快速发展,指纹识别、人脸识别、虹膜识别等技术日益成熟,生物识别技术在身份认证方面的应用愈加广泛。生物识别应用市场规模持续扩大,也成为当前
混凝土建筑物的结构失效和功能失效不仅影响人们的正常生活且造成巨大的经济损失,所以对复合改性修补水泥混凝土的研究极为重要;而在其修补中经常遇到修补的脱落和失效等问题
本文从发射机、激励器的电源连接,激励器与功放射频及控制连接,功放射频与同轴开关的硬馈连接,发射机、激励器的设置,发射机的安装环境与冷却系统几个方面详细介绍了哈里斯FA