基于智能算法的TA蛋白靶向预测方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:xuguanghong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的实施,以及更多生物基因组测序计划的完成,生物学数据呈爆炸性增长,传统的生化试验方法已经远远不能满足需求。智能算法在生物信息领域有其独特的优势。已有研究表明,智能算法能成功解决生物信息学的这些问题。但是在蛋白质靶向预测上仍然面临着诸多问题和挑战。比如真核生物中末端锚定蛋白质(tail-anchored proteins,TA蛋白)靶向预测尚未有智能算法应用的实现。TA蛋白靶向与CpG岛的低甲基化存在相关性,因此,CpG岛的低甲基化可以作为TA蛋白靶向的相关特征因素。针对上述问题,本文做了大量的调研工作,对CpG岛识别及TA蛋白靶向预测进行深入的研究。大量的研究表明,已有的经典算法识别和分类准确率相对偏低,无法满足CpG岛序列识别和TA蛋白靶向预测等研究所要求的准确率。针对上述问题,本文以CpG岛序列识别为作为研究的切入点,TA蛋白靶向预测作为后续研究。采用智能算法可以很好的解决以上问题,同时提高了识别和预测的准确率。在CpG岛序列识别和TA蛋白靶向预测的研究中取得了不错的成果。本文的主要工作及创新点概括如下:1.本文提出了一种用遗传算法和隐马尔可夫模型结合的CpG岛序列识别方法。该方法通过遗传算法优化隐马尔科夫模型参数,得出的模型可以更好的用于CpG岛序列识别。2.本文通过严格筛选,我们获得了428个真核生物TA蛋白的数据,用于TA蛋白靶向定位预测;采用7种TA蛋白序列特征提取方法;并且增加了疏水性和电荷量这两类特征训练模型,可以有效的提高模型的分类准确率。3.本文构建了一种朴素贝叶斯的特征提取方法来提取TA蛋白序列特征。采用mRMR算法对蛋白质数据进行特征选择;最后,采用支持向量机去训练模型。在训练过程中基于网格方式对参数~?和惩罚系数C进行优化,并对实验结果进行分析。4.本文分别训练并比较了5种机器学习模型在TA蛋白靶向预测的结果。即:随机森林(RF)、逻辑回归(LR)、朴素贝叶斯(NB)、K-最近邻(KNN)和梯度提升树(GBDT)。最后,本文利用遗传算法全局搜索的能力,对HMM参数进行优化。将其改进方案应用到CpG岛序列识别中,可以提高CpG岛序列识别的准确率。对于TA蛋靶向预测,构建了一种朴素贝叶斯特征提取方案,采用SVM可以实现对TA蛋白靶向预测。后续研究中,本文采用了七种特征提取方法来提取蛋白质序列特征,通过集成五种智能算法的分类结果,可以更好的预测TA蛋白在亚细胞器的靶向,预测精度达到84%。
其他文献
随着船舶设计建造水平的不断进步,船舶舒适性受到设计者们越来越多的重视,过大的噪声会严重影响船舶的使用性,因此设计者们提出各种针对船舶舱室的降噪措施,声学包便是解决船
采用钴基纳米复合粉末为熔覆材料,利用激光熔覆方法,在INVAR合金表面制备复合涂层。其中,熔覆材料包括:纳米WC、VC、Cr_3C_2粉末和Co基合金(Co、Si、B、Zr C和Y_2O_3)。目的是通过制备涂层强化INVAR合金,扩大合金适用范围且维持合金较低的热膨胀系数。所得的试样经过切割、打磨、抛光、超声清洗、腐蚀后,利用光学显微镜、扫描电子显微镜观察分析熔覆层和界面的微观组织,结合X射线衍
虽然南极陆坡区域仅占南极海洋的较小部分,但其对南极底层水的形成、南极生物地球化学物质的循环以及生态系统都具有重要的影响。研究南极陆坡流动特征及其动力学对于认识南
当前,在存量化时代的转型和城市双修背景的影响下,城市的发展状况与旧城区的诉求差异很大。老旧社区是旧城区的重要组成部分,我国的老旧社区大多为单位企业居住区,随着商品房的与日俱增和单位企业的重组发展,老旧社区居住品质难以满足居民的生活需求。此外,很多社区内部的改造形式也只是单一的复制粘贴,社区景观大同小异,毫无特色而言。究其根本原因在于设计改造过程中对场地原生的人文历史环境和地域自然环境的忽视,缺乏场
本论文根据海龙3号ROV的设计开发,对基于变量伺服原理的ROV液压推进系统数学建模和系统辨识算法进行了深入的研究,以海龙3号ROV液压伺服推进系统为试验平台,利用改进的辩识算
随着软件的不断更新迭代,软件正确性检测的必要性愈加凸显,而且软件正确性检测的处理时间直接决定软件的维护成本。虽然动态测试的断言编写和静态分析的符号执行均针对软件正
丛藓科(Pottiaceae Hampe.)是藓类植物中种数最多的一个科,全科约有83属1500种。湿地藓族(Hyophileae M.Fleisch.)隶属于丛藓科丛藓亚科(Pottioideae Broth.),该族约有18属296种,是温带干旱半干旱地区藓类植物区系的重要组成部分。本研究以蒙古高原中主体部分(以下简称蒙古高原),即中国内蒙古和蒙古国作为研究区,在文献考证及标本研究的基础上,对
液压挖掘机作为一种用途广泛的工程机械,已经在土石方工程及矿山开采等各类施工现场成为不可或缺的一员。改革开放以来,随着国家各类政策和战略的实施,各种工程建设也同步开
波片是一种十分重要的光学器件,被广泛应用于应用光学和无损检测等领域中,相位延迟量和快轴方位角作为波片的重要参数,对其进行精确测量不仅可以监测波片在加工过程中造成的应力不均匀,还可以为波片应用者提供参数指导。随着电子信息技术和光学应用技术的迅猛发展,特别是自动测量技术和数字显示技术的引入更使光学精密测量获得了突破性进展。传统波片相位延迟量和快轴方位角测量方法已不能满足光学精密测量的时代要求。为了能够
目的观察火留针疗法治疗第三腰椎横突综合征的临床疗效,为火留针治疗第三腰椎横突综合征提供有效依据。方法本研究纳入2019年5月至2020年1月就诊于天津中医药大学第二附属医院住院部及门诊部符合纳排标准的第三腰椎横突综合征患者44例,随机分为治疗组(火留针组)与对照组(输刺组)。对照组:取穴:L2、L4夹脊穴、L3横突压痛点,采用输刺针法。治疗组取穴同对照组,L3横突压痛点火留针,余穴操作同输刺组,两