基于SCOP拓扑结构的蛋白质远同源性检测与折叠识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhhc1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质折叠识别和远同源性检测是生物信息学领域中的两个基础问题。通过蛋白质的序列信息来准确的预测蛋白质的远同源物和折叠类别,对蛋白质的功能结构研究以及新型药物的精准设计有着重要作用。本研究中,蛋白质的序列检测问题被视为检索任务,旨在找到与未知查询蛋白高度相关的已知功能结构的蛋白质序列,进而推断未知蛋白质的功能结构。传统基于序列比对的蛋白质远同源检测方法对于序列相似度较低的蛋白质检测性能一般,虽然目前出现了一些机器学习方法来解决这个问题,但对特征的质量依赖较强。而构建蛋白质相似性网络可以进一步提高检测性能,但其十分依赖基排序方法的性能。针对以上问题,本研究通过融合特征到学习排序方法中来提高基排序结果的性能,并构建了基于SCOP拓扑结构的蛋白质相似性网络。最后,将两者融合起来提出了Prot Dec-LTR4.0方法。在SCOP基准数据集上的测试结果表明,该方法能够有效地提高蛋白质远同源性检测性能。虽然排序融合策略在解决蛋白质远同源性检测方面取得了成功。但是折叠识别问题因为序列相似度较低,导致基排序的正样本覆盖率性能一般,获得的特征存在大量缺失现象。针对这个问题,本研究提出了基于SCOP拓扑结构来构建查询-反馈蛋白质对特征向量和特征填充策略,通过学习排序方法生成全局特征并结合支持向量机,提出了Fold-LTR-SVM方法。在SCOP基准数据集上的实验结果表明,该模型提升了预测性能。由于折叠识别中的蛋白质序列相似度较低,导致目前的预测方法性能普遍较低。针对以上问题,本研究基于SCOP拓扑结构和三元闭包原理提出了一种新的蛋白质相似性网络构建方法,该方法通过计算整体序列相似度来替代传统的查询-反馈蛋白质对的相似度。利用学习排序方法将大量的比对打分特征融合起来,然后结合前面构建的蛋白质相似性网络,最终提出了LTR-TCP-FR折叠识别方法。实验结果表明该方法可以提高折叠识别预测性能。
其他文献
古人言"兵马未动,粮草先行"足以可见,后勤工作自古以来都占据着重要位置。在幼儿园工作中,后勤工作保障着整个幼儿园的平稳有序的正常运行。幼儿园的后勤工作主要就是保育保
会议
乙酰基化合物在有机合成中是一类重要的前体化合物和基本分子构件,因其具有独特的反应性,被广泛应用于天然产物与功能分子等复杂结构体的合成。截止目前,人们已发展了很多利
钯催化的1,n-二烯的Heck/Tsuji-Trost串联反应是典型的由简单易得的原料出发,高效构建复杂分子的有效途径。随着钯化学的发展及手性配体的种类不断丰富,钯催化的联烯和1,3-二
“一带一路”倡议的形成与发展具有深刻历史背景和明确的目标指向,主要以国家间贸易为核心,以能源合作为重点。天然气作为“一带一路”沿线各国贸易重要能源之一,其贸易格局
创业一直以来受到各个国家的关注与支持,但是创业的高失败率以及企业管理的艰难使诸多有创业想法的青年望而却步,因此了解创业成功人士的想法对于希望创业的人来说有借鉴意义。本论文选取新东方教育科技集团创始人俞敏洪先生在上海交通大学开展的关于创业的讲座作为口译材料,目的是在释意理论的指导下,完成对该演讲的交替传译并且以此为案例分析交替传译实践,包括译前准备,口译过程,口译难点和解决策略。释意理论是口译研究中
CZ饲料公司为一家外资企业。从2003年开始进入中国,从事饲料的生产销售。近年来,由于用工成本的提升以及规模化,集约化养殖的快速发展,饲料行业受到了巨大的冲击。随着小型饲
近年来,重型起重设备行业把竞争策略转向了售后服务的竞争。随着企业间产品质量和性能差距的不断缩小,单纯靠降低价格、扩大宣传等传统竞争策略已经难以吸引客户,并对企业自
数字电视的出现给人们带来了前所未有的体验,不仅能够显示高质量的音视频节目,同样也带来了多种多样的增值服务,电子节目指南便是其中比较重要的一个应用。电子节目指南可以
田宫虎彦(1911-1988)是日本文坛上声望很高的一名作家,其作品曾多次被选入日本国语教科书。他于1947年发表历史小说《雾中》,受到日本文学界的重视,1950年前后发表《菊坂》、
在汇率波动风险加大的背景下分析我国头足类水产品出口商在国际市场上依市定价的能力,具有重要现实意义。本文以中国头足类水产品为研究对象,多角度探讨汇率变动对中国头足类