基于知识的蛋白质结构预测评分函数的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:massmass
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从蛋白质的一维序列预测蛋白质三维结构是当前生物信息学领域中一个非常具有挑战性的课题。而评分函数的设计是蛋白质结构预测中的核心及关键之一。 评分函数又称为能量函数,一般分为两类:基于物理经验公式的评分函数和基于知识的评分函数。前者是分析粒子之间相互作用的基本原理后得到的经验公式,它能反映客观存在于蛋白质内部或者蛋白质分子和溶剂分子之间的物理作用,但比较复杂且计算成本高。而后者是利用蛋白质结构数据库(PDB)中的己知结构数据作为学习样本,计算得到的具有统计意义的区分参数,它能隐式地体现形成蛋白质天然结构的内在物理化学作用,计算成本相对较低。其预测蛋白质结构的性能依赖于作为学习样本的蛋白质结构的数量和质量。 欧洲分子生物实验室的UWE HOBOHM和CHRIS SANDER建立的pdb_select 25列表是从PDB中选择的相对无偏差且高质量的数据。本文采用其中的蛋白质作为学习样本,设计基于知识的蛋白质结构预测评分函数。本文的主要研究内容如下: (1)从两两氨基酸残基空间距离的分布出发,导出一个依赖距离分 布的评分函数。并通过多次实验确定计算距离分布时的离散区间数目为20。 (2)在蛋白质结构中,主链二面角(φ,φ)的分布就可用拉氏构象图来描画。本文构建了一个基于二面角的评分函数,通过计算确定把(φ,φ)空间离散为6°的网格是最好的选择。 (3)进一步组合上述从距离和角度两个方面建立的评分函数,所得的评分函数性能比前两者有大幅提高。通过正确识别蛋白质天然结构总数和Z-score这两个性能指标,确定了性能最好的一组组合能量,此组合能量函数能识别出150条天然结构的测试集中的109条。 (4)由于20种氨基酸在蛋白质中出现的频率不一样,因此存在着数据稀疏性。本文采用了一种稀疏数据校正策略,通过计算确定了另一组识别性能最优的组合能量,能识别114条天然结构,识别率为76%,Z score值也同时得到改善。
其他文献
近年来,随着人们生活水平的提高,高血压的发病率也呈上升趋势,全世界大约有20%的成年人受此威胁,因此,源于食品抗高血压肽的保健功能研究愈加引起广泛关注。 酪蛋白是牛乳中的主
本文通过对荣华二采区10
期刊
小学是人生启蒙的重要阶段,这个时期学生可塑性强,受到什么样的教育,就会成为什么样的人.道德与法治课能全面提升学生品德,帮助学生树立积极进取的人生观、价值观,促进学生健
在碱法生产氧化铝工艺中,溶出浆液由铝酸钠溶液和赤泥组成,必须将二者分离,以获得符合分解要求的纯净溶液。分离后的赤泥要经过洗涤,尽可能减少赤泥附液Na2O和Al2O3损失。目
语文的学习作为初中阶段的基础和关键科目,在教师和学生的心目中都处于非常重要的地位.课外阅读对于初中语文的学习来说是非常重要的部分,尤其是对于初中生语文写作的学习和
煅烧α-Al2O2又叫高温氧化铝,是氧化铝八种同型异构体中的最稳定态。具有优良的机械性能、高温性能和绝缘性能,因此被广泛应用作为电子陶瓷、结构陶瓷、高级耐火材料、磨料、磨
“高效课堂”是我国实施新课改之后所提出的一项针对课堂教学发展的教学理念,高中思想政治作为高中教育课程体系中的重要课程,也要适应新课程改革的教学要求,抛弃传统且落后
小学教育是教育事业整体学习阶段的基础,包括教授学生对汉字的认识读写能力等,也只有识字才能读文,才能写作,学生文字书写能力的决定了学生日后发展的走向,学生汉字书写能力
小学数学中实现有效学习是一项系统工程,其需要教师结合教学内容因材施教,激发学生的学习兴趣,营造良好的学习环境,以帮助学生学习更多属于自己的知识.帮助学生养成良好的学
在进行高考英语阅读能力的训练和提高中,科学使用导学案能发挥重要的作用.笔者将通过分析导学案对于提高英语阅读能力的积极作用,探索正确合理科学的使用导学案进行教学训练