论文部分内容阅读
细胞外基质(extracellular matrix,ECM)蛋白质是细胞微环境的重要组成部分,它不仅可以通过与其他蛋白质的相互作用为细胞提供机械结构支持,还可以通过信号传导对细胞功能进行调节。ECM蛋白质的结构和功能失调会导致成骨不全、软骨发育异常、马凡综合征、纤维化和癌症等严重的疾病,为了更好地研究这些疾病的发病机制并发掘潜在的诊断及治疗靶点,有必要对ECM蛋白质的组成和功能进行更加深入的研究。蛋白质组学方法不仅可以通量鉴定分泌到胞外的ECM蛋白质,还可以对ECM蛋白质的共价交联和修饰进行分析,因此是研究ECM蛋白质的有力工具。与此同时,构建ECM蛋白质预测工具和参考数据库是进行ECM蛋白质组研究的必要条件。目前ECM蛋白质预测工具和参考数据库的研发相互独立,并且它们各自存在一些不足。ECM蛋白质预测工具最大的缺点是与实验生物学特征缺乏联系,特别是在金标准数据集构建和分类特征提取方面;此外,现有预测工具均不可用也是较大的问题。ECM蛋白质参考数据库存在的问题为:ECM参考数据库与实验数据集重叠率较低;另外,现有ECM参考数据库是通过半经验和人工注释的方式构建的,所以在数据库更新和跨物种扩展等方面均存在一些问题。针对以上问题,本文结合现有ECM蛋白质预测工具和参考数据库各自的优势,研发了一个灵活和可扩展的人类ECM蛋白质预测工具——ECMPride。通过将ECMPride应用于全体人类蛋白质,我们建立了人类ECM蛋白质参考数据库ECMPride DB,并开发了应用网站ECMPride DB-web。本文主要分为4个部分,具体内容如下:(1)现有ECM蛋白质预测工具的研发基本都遵循一个通用的方法流程,包括:金标准数据集构建、特征提取、特征选择、模型构建和评估几个主要步骤。根据这一流程,我们首先调研分析了已有ECM蛋白质预测工具构建的有益经验和待解决问题。此外,我们总结了ECM蛋白质预测工具构建的原理,并针对每个待解决问题提出了对应的解决方案。最后,我们分析了这些工具的可复现性,并使用R语言对主流预测工具之一Ecm Pred进行了复现。(2)基于对已有ECM蛋白质预测工具的调研结果,我们构建了一个灵活和可扩展的人类ECM蛋白质预测工具——ECMPride。ECMPride的优点包括:金标准数据集更可信、提取的特征与生物实验相关、预测模型更加稳健等。ECMPride可以免费下载使用,是目前唯一可用的ECM蛋白质预测工具,它具有很好的敏感度和均衡准确率,比Ecm Pred实现了更好的预测性能。(3)将研发的ECMPride应用于全体人类蛋白质,构建了人类ECM蛋白质参考数据库——ECMPride DB,并对其进行注释。和现有ECM蛋白质参考数据库Matrisome进行比较,ECMPride DB不仅涵盖了Matrisome中绝大部分已知ECM,还提供了大量潜在新ECM候选蛋白。进一步将ECMPride DB上线做成参考数据库网站——ECMPride DB-web,ECMPride DB-web支持单独搜索、批量搜索和单独下载、批量下载,将为ECM蛋白质组的研究做出贡献。(4)应用ECMPride DB参考数据库对ECM蛋白质组实验数据进行验证分析。首先通过Max Quant对实验数据进行搜库鉴定,得到了鉴定蛋白质列表。之后应用ECMPride DB与鉴定蛋白质列表进行匹配,以发现新的ECM组分。最后通过DAVID进行功能注释、通过STRING进行相互作用分析、通过免疫组织化学和免疫荧光进行生物学验证,对新ECM进行了验证分析。综上,本文系统开展了人类ECM蛋白质预测算法、工具和参考数据库的研发和应用研究。自主研发的ECMPride软件是一种用于预测ECM蛋白质的灵活和可扩展的工具,它在预测ECM蛋白质方面表现优异,具有较好的均衡准确率和敏感度,并且弥补了现阶段无可用的人类ECM蛋白质预测工具的空白。基于ECMPride构建的ECMPride DB参考数据库及其应用网站ECMPride DB-web提供了具有较高可信度的人类ECM蛋白质列表及丰富的生物学注释。这个参考数据库涵盖了Matrisome数据库中的大多数已知ECM,并且当时用这个参考数据库注释实验蛋白质组数据集时,可以识别出更多潜在的ECM蛋白质。总而言之,ECMPride、ECMPride DB和ECMPride DB-web可以作为有价值的工具和资源而对未来的ECM相关研究产生帮助。