论文部分内容阅读
蛋白质组氨酸磷酸化是一种在生物体内重要的蛋白质翻译后修饰。它在细胞信号传导过程中发挥着重要作用,且对离子通道有相应的调控作用。近几年研究表明蛋白质组氨酸磷酸化与某些疾病密切相关,如组氨酸磷酸酶LHPP能够抑制癌细胞增殖。因此深入理解蛋白质组氨酸磷酸化修饰过程,可以为疾病的治疗提供帮助。对组氨酸磷酸化修饰位点的识别,能促进对蛋白质组氨酸磷酸化修饰过程的全面理解。组氨酸磷酸化的不稳定以及其存在两个同分异构体,这些特殊性使得其研究方案不同于其他类型的蛋白质磷酸化。随着蛋白质组氨酸磷酸化类似物和蛋白质组学技术的不断进步,蛋白质组氨酸磷酸化修饰位点的相关研究开始出现。但目前鉴定组氨酸磷酸化修饰位点是通过实验验证的方法,这需要大量时间且成本较高。本文将基于蛋白质序列特征对蛋白质组氨酸磷酸化修饰位点进行预测,构建了用于预测蛋白质组氨酸磷酸化修饰位点的工具p His Pred。且同时构建了全面的蛋白质组氨酸磷酸化修饰位点数据库His Phos Site,具体研究内容如下:1、本文构建了蛋白质组氨酸磷酸化修饰位点数据库His Phos Site。本文基于收集的蛋白质组氨酸磷酸化修饰位点数据集,编写脚本对数据进行进一步的处理,添加二级结构、GO分析、蛋白质序列及Domain等相关信息。本文基于XAMPP集成平台构建全面且人性化的蛋白质组氨酸磷酸化修饰位点数据库His Phos Site(http://reprod.njmu.edu.cn/His Phos Site),该数据库前端利用Java Script、CSS3、ES6等原生技术,配合流行的前端框架(如:Bootstr ap、j Query)来完成页面设计。后端则使用PHP来完成页面间的交互。His Phos Site是目前全面收集蛋白质组氨酸磷酸化修饰位点的数据库,能够为用户提供数据的简单搜索、motif匹配、BLAST搜索、高级检索重要信息浏览、资源的下载、信息反馈等功能,界面简洁,操作简单,能够为进一步研究蛋白质组氨酸磷酸化修饰提供数据基础。2、本文构建了蛋白质组氨酸磷酸化修饰位点预测工具p His Pred。本文以收集整理的实验验证的蛋白质组氨酸磷酸化修饰位点为基础,提取了蛋白质组氨酸磷酸化序列,将其分为两类:一类是真核生物数据;另一类是原核生物数据。在本地基于蛋白质序列计算得到氨基酸组成、分组氨基酸组成、Binary、C/T/D、三联体描述符、K近邻得分、BLOSUM62矩阵和Z-scale这8大类特征。先使用卡方检验进行初步的特征筛选。之后,将使用递归特征清除对卡方检验得到的特征子集再次进行特征筛选。使用上述的两个训练集的特征子集去构建随机森林、逻辑回归和支持向量机分类模型,考虑到数据集中正负样本的不平衡性,在训练过程中通过调整正负样本权重等方法来减少其对分类性能的影响。最终结果表明原核生物分类器模型中随机森林效果最好,随机森林的十倍交叉验证的平均AUC值为0.7818,特异性0.8429,敏感性0.8421,准确率0.7880,马氏相关系数值为0.2621。而对真核生物分类器模型来说,逻辑回归模型的效果最好,其十倍交叉验证平均AUC值为0.7605,特异性0.7006,敏感性0.7059,准确率0.7237,马氏相关系数值为0.16653。真核生物分类器模型性能不如原核生物分类器模型,这是因为目前真核生物经过实验验证的组氨酸磷酸化修饰位点数据较少的缘故。相信随着实验验证的磷酸化修饰位点的增加,模型的效果能够得到相应的提高。将上述两个分类模型结合,构建了用于预测蛋白质组氨酸磷酸化修饰位点的工具p His Pred。它能够为深入研究蛋白质组氨酸磷酸化修饰及蛋白质组氨酸磷酸化修饰和疾病之间的关系提供帮助。His Phos Site数据库的成功部署上线能够为该领域内的专家提供相应的数据研究基础。而蛋白质组氨酸磷酸化修饰位点的预测工具p His Pred的成功研发,能够为科学家们缩小需要实验验证蛋白质组氨酸磷酸化修饰位点的范围,减少了费用成本、工作量及时间,为进一步研究蛋白质组氨酸磷酸化提供帮助。