论文部分内容阅读
蛋白质与核酸的相互作用在生物体细胞活动中起到至关重要的作用,如蛋白质-DNARNA相互作用在基因表达调控与修复、蛋白质翻译合成等过程中都发挥极其关键性的作用。对蛋白质和核酸相互作用的研究,国际上比较注重两个方面:(1)在相互作用过程中蛋白质的哪些残基能与DNARNA分子结合;(2)一个特定的蛋白质能否与DNARNA相互作用。本文就这两个方面开展了深入的研究.
本文发展了RNA-结合残基的预测模型。蛋白质中RNA-结合残基的预测是利用机器学习方法来进行研究,而机器学习研究的关键是特征提取。在模型的特征提取方面,论文提出了一个新颖的特征—PSSMPP,这个特征是对位置特异性打分矩阵(PSSM)作出的改进和发展。PSSM是国际上同类预测模型中最常用,并且公认为对预测结果贡献最大的特征。该特征体现了蛋白质序列的进化保守性。本文提出的PSSMPP不仅包含PSSM涵盖的所有信息,还体现了与RNA结合的氨基酸残基理化性质的进化和保守特征。交叉验证和独立测试的结果表明PSSMPP在预测过程中发挥了重要的作用。随着RNA-结合残基预测工作的深入,我们发现以往同类预测方法是基于每个氨基酸为一个独立个体的前提进行特征提取的。实际上,序列位置上邻近的氨基酸通过协同作用影响蛋白质与RNA的相互结合。因此本文提出了另一个重要特征,即能真实反映蛋白质与RNA相互结合信息的特征—氨基酸关联性特征,这个特征体现了邻近氨基酸的协同作用。将关联性特征与PSSMPP特征和与二级结构特征相结合,选用鲁棒性更好的机器学习算法—随机森林增强算法识别RNA-结合残基。通过特征提取和分类算法两方面的优化,最终的RNA-结合残基的预测模型取得了较好的预测效果,具有0.5637Matthew相关系数、88.63%准确率、53.70%敏感性和96.97%特异性。基于这个预测模型构建了在线预测平台PRBR(http://www.cbi.seu.edu.cn/PRBR/)。通过与国际上同类工作相比较,PRBR具有更高的预测准确率。
本文建立了DNA-结合残基预测的新模型。本文在DNA-结合残基的预测方面的前期工作,是以位置特异性打分矩阵(PSSM)和四个物理化学特性----侧链PKa值、疏水性、分子量和孤电子对作为分类的特征,利用支持向量机作为分类器构建预测模型的。考虑到PSSMPP特征对RNA-结合残基预测做出的突出贡献,我们建立了完善的氨基酸物理化学特性的筛选方法,通过这一方法能够筛选出DNA与蛋白质结合机制的有关的6个体现序列信息的物理化学特性。在前期RNA-结合残基预测工作的基础上,考虑将体现邻近氨基酸协同作用的特征—氨基酸相关联性特征运用于DNA-结合残基的识别。本文扩增了DNA结合蛋白数据集,对更新后信息量更大的数据集进行测试,发现氨基酸相关联性特征能够有效区分DNA-结合残基与非结合残基。因而最终利用随机森林算法,选用序列正交编码特征、改进后的PSSMPP和氨基酸相关联性特征作为氨基酸序列组合特征来优化预测模型。在构建预测模型时同样对正负样本数量不均衡的问题进行处理。结果显示:预测模型达到了总体预测准确率93.04%的最优效果,特异性达到98.16%,敏感性达到68.47%,Matthew相关系数为0.6586。基于这一最优预测模型构建了在线预测平台DNABR(http://www.cbi.seu.edu.cn/DNABR/)。通过比较测试发现,优化后的模型与前期基于序列信息预测DNA-结合残基的研究相比,预测效果更佳。
本文发展了RNA结合蛋白的识别方法。而今,国际上利用机器学习算法对RNA结合蛋白预测的研究,都是单纯的提取蛋白质序列特征或结构特征来识别结合蛋白,而判定RNA结合蛋白的最有效证据—RNA-结合残基的存在却几乎无人考虑。因此在RNA-结合残基预测模型完善构建的基础上,本文提出利用预测出的结合残基出现情况和结合残基在序列上的分布信息判定某一特定蛋白质是否为RNA结合蛋白。由SWISS-PROT数据库中提取了全部的RNA结合蛋白和RNA非结合蛋白。经过数据处理后,对结合蛋白和非结合蛋白中预测出的RNA-结合残基的信息进行统计分析,这一信息由全新构造的结合残基存在性指标和二联结合残基协同性指标反映。以分析的结果为依据,对特定蛋白质首先进行可靠的过滤和筛选。对首轮判定无法确定的蛋白质,再利用全新构建的预测模型识别结合情况。联合这两种有效的判定识别方法,能使预测效果得到很大的改善,最终获得的预测准确率达到85.61%,敏感性为84.79%,特异性为86.03%,Matthew相关系数为0.6758。基于此我们开发了RNA结合蛋白的预测平台PRBP(http://www.cbi.seu.edu.cn/PRBP/)以方便研究者使用。