蛋白质与核酸相互作用机制的生物信息学分析

来源 :东南大学 | 被引量 : 0次 | 上传用户：kkrriikk

【摘要】

：

蛋白质与核酸的相互作用在生物体细胞活动中起到至关重要的作用，如蛋白质-DNARNA相互作用在基因表达调控与修复、蛋白质翻译合成等过程中都发挥极其关键性的作用。对蛋白质和

【作者】

：

马昕

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2012年期

【关键词】

：

支持向量机随机森林位置特异性打分矩阵蛋白质核酸

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

蛋白质与核酸的相互作用在生物体细胞活动中起到至关重要的作用，如蛋白质-DNARNA相互作用在基因表达调控与修复、蛋白质翻译合成等过程中都发挥极其关键性的作用。对蛋白质和核酸相互作用的研究，国际上比较注重两个方面:(1)在相互作用过程中蛋白质的哪些残基能与DNARNA分子结合;(2)一个特定的蛋白质能否与DNARNA相互作用。本文就这两个方面开展了深入的研究.　　本文发展了RNA-结合残基的预测模型。蛋白质中RNA-结合残基的预测是利用机器学习方法来进行研究，而机器学习研究的关键是特征提取。在模型的特征提取方面，论文提出了一个新颖的特征—PSSMPP，这个特征是对位置特异性打分矩阵(PSSM)作出的改进和发展。PSSM是国际上同类预测模型中最常用，并且公认为对预测结果贡献最大的特征。该特征体现了蛋白质序列的进化保守性。本文提出的PSSMPP不仅包含PSSM涵盖的所有信息，还体现了与RNA结合的氨基酸残基理化性质的进化和保守特征。交叉验证和独立测试的结果表明PSSMPP在预测过程中发挥了重要的作用。随着RNA-结合残基预测工作的深入，我们发现以往同类预测方法是基于每个氨基酸为一个独立个体的前提进行特征提取的。实际上，序列位置上邻近的氨基酸通过协同作用影响蛋白质与RNA的相互结合。因此本文提出了另一个重要特征，即能真实反映蛋白质与RNA相互结合信息的特征—氨基酸关联性特征，这个特征体现了邻近氨基酸的协同作用。将关联性特征与PSSMPP特征和与二级结构特征相结合，选用鲁棒性更好的机器学习算法—随机森林增强算法识别RNA-结合残基。通过特征提取和分类算法两方面的优化，最终的RNA-结合残基的预测模型取得了较好的预测效果，具有0.5637Matthew相关系数、88.63％准确率、53.70％敏感性和96.97％特异性。基于这个预测模型构建了在线预测平台PRBR(http://www.cbi.seu.edu.cn/PRBR/)。通过与国际上同类工作相比较，PRBR具有更高的预测准确率。　　本文建立了DNA-结合残基预测的新模型。本文在DNA-结合残基的预测方面的前期工作，是以位置特异性打分矩阵(PSSM)和四个物理化学特性----侧链PKa值、疏水性、分子量和孤电子对作为分类的特征，利用支持向量机作为分类器构建预测模型的。考虑到PSSMPP特征对RNA-结合残基预测做出的突出贡献，我们建立了完善的氨基酸物理化学特性的筛选方法，通过这一方法能够筛选出DNA与蛋白质结合机制的有关的6个体现序列信息的物理化学特性。在前期RNA-结合残基预测工作的基础上，考虑将体现邻近氨基酸协同作用的特征—氨基酸相关联性特征运用于DNA-结合残基的识别。本文扩增了DNA结合蛋白数据集，对更新后信息量更大的数据集进行测试，发现氨基酸相关联性特征能够有效区分DNA-结合残基与非结合残基。因而最终利用随机森林算法，选用序列正交编码特征、改进后的PSSMPP和氨基酸相关联性特征作为氨基酸序列组合特征来优化预测模型。在构建预测模型时同样对正负样本数量不均衡的问题进行处理。结果显示:预测模型达到了总体预测准确率93.04％的最优效果，特异性达到98.16％，敏感性达到68.47％，Matthew相关系数为0.6586。基于这一最优预测模型构建了在线预测平台DNABR(http://www.cbi.seu.edu.cn/DNABR/)。通过比较测试发现，优化后的模型与前期基于序列信息预测DNA-结合残基的研究相比，预测效果更佳。　　本文发展了RNA结合蛋白的识别方法。而今，国际上利用机器学习算法对RNA结合蛋白预测的研究，都是单纯的提取蛋白质序列特征或结构特征来识别结合蛋白，而判定RNA结合蛋白的最有效证据—RNA-结合残基的存在却几乎无人考虑。因此在RNA-结合残基预测模型完善构建的基础上，本文提出利用预测出的结合残基出现情况和结合残基在序列上的分布信息判定某一特定蛋白质是否为RNA结合蛋白。由SWISS-PROT数据库中提取了全部的RNA结合蛋白和RNA非结合蛋白。经过数据处理后，对结合蛋白和非结合蛋白中预测出的RNA-结合残基的信息进行统计分析，这一信息由全新构造的结合残基存在性指标和二联结合残基协同性指标反映。以分析的结果为依据，对特定蛋白质首先进行可靠的过滤和筛选。对首轮判定无法确定的蛋白质，再利用全新构建的预测模型识别结合情况。联合这两种有效的判定识别方法，能使预测效果得到很大的改善，最终获得的预测准确率达到85.61％，敏感性为84.79％，特异性为86.03％，Matthew相关系数为0.6758。基于此我们开发了RNA结合蛋白的预测平台PRBP(http://www.cbi.seu.edu.cn/PRBP/)以方便研究者使用。

其他文献

Micro-CT重建图像质量增强的方法研究

计算机断层成像技术（Computed Tomography，CT）以其能够在不损伤扫描物体的前提下获得物体的内部结构信息的优点，在临床医学检查、工业器件损伤检测、材料成分分析、科学研究等方

学位

计算机断层成像图像重建质量增强伪影去除非局部均值滤波

二元冰输送过程的摩阻与传热特性研究

二元冰是一种有效的空调蓄冷和输送冷量的介质,有着广阔的应用前景。而二元冰的流动摩阻和传热性能的研究又是将二元冰介质应用于实际工程的最为重要的基础资料。近几年,国外对二元冰流体展开了多角度的研究分析,其中包括对二元冰流体流态、粘性、流动阻力、换热性能的研究,但是大部分的内容都集中在实验研究上。本文运用数值分析的手段,对二元冰在水平管道中的流动和传热性能进行了数学分析,同时对二元冰在空调末端装置风机盘

学位

二元冰输送流动、换热

破产管理人选任主体研究

作为对破产财产享有直接支配权的破产管理人在破产程序中有着极其重要的地位,决定着破产程序能否公正高效地进行,因此破产管理人的选任是破产程序的基础,我国现行破产法赋予

期刊

破产管理人选任主体双轨制

基于遗传算法神经网络的某制冷空调系统性能预测研究

传统制冷空调系统的设计手法有很多不足之处,开发成本高,开发耗时长以及开发效率低下等。在制冷空调系统设计研发中,利用计算机仿真方法,可以更简便快捷地达到目标要求,对产品的设计开发具有重要意义。本文利用计算机仿真技术,以稳定工况下的某空调制冷系统为研究对象,通过必要合理的假设和简化,分别建立了活塞式压缩机热力参数模型、板式冷凝器稳态分布参数模型、绝热毛细管稳态分布参数模型以及翅片管式蒸发器稳态分布参数

学位

制冷系统计算机仿真性能预测神经网络

基于关联规则的锅炉异常工况数据挖掘

目前,由于工业的生产大多是复杂过程,其流程长、设备多,并且变量间关联耦合严重,导致现有的一些方法在复杂大系统的故障诊断的实际应用中效果并不是非常理想,基于规则的专家

学位

数据挖掘关联规则锅炉故障诊断

蛋白质与核酸相互作用机制的生物信息学分析

其他学术论文