论文部分内容阅读
蛋白质组学作为一个研究热点,经历了从蛋白质定性到定量的发展,蛋白质组学的研究内容也逐步深入。研究表明,人类很多疾病的产生会导致体内蛋白质的丰度发生变化,因而蛋白质的定量研究有着很重要的应用价值。近年来,随着质谱仪器的精度越来越高,蛋白质组学也进入高速发展的时期。具有高通量、高可靠性的质谱分析技术成为蛋白质组学的主要研究领域,所以如何提高质谱数据的分析效率也成为一项重要的研究内容。现在使用最广泛的蛋白质定量方法是无标定量法,其主要包括谱图计数法和信号强度法,这两种方法都需要二级谱图的信息来对肽段定性,再通过已定性的肽段来定量蛋白质。在定量蛋白质的过程中,谱图计数法没有使用一级谱图信息。信号强度法只使用了己定性肽段在一级谱中对应的信息,因而无标定量算法中大量一级谱的肽段强度信息没有被使用。本文是基于信号强度法来研究如何能更有效的利用一级谱图中的信息定量蛋白质。为了解决这个问题,本研究建立了一个基于退火算法的蛋白质定量流程,研究提高质谱数据中的一级谱图的利用效率。具体的创新性工作如下:1)本文首先实现一个肽段定量算法,并将该算法作为后续蛋白质定量研究的框架。该算法包括了对一级谱图的数据处理,提出了采用肽离子分辨率来鉴别不同肽段离子峰,采用同位素峰簇匹配指标来分辨不同肽段。该算法还介绍了如何从一级谱图信息中提取XIC(提取离子流色谱图),并将被提取XIC后的一级谱图信息用于下一步肽段定量算法的分析。2)为了提取上述剩余一级谱图中的信息,本文提出用所有可能的肽段离子在一级谱图中试探性的提取XIC。如果某肽段能提取出有效的XIC,则称该未定性XIC和该肽段形成映射。为了列举所有可能的肽段,本文提出将蛋白质库进行酶切生成肽段序列库。用肽段序列库中的肽段进行谱图搜索提取XIC,并生成肽段和未定性XIC的多对一映射表。3)本文提出了一个肽段匹配定性模型。通过对该模型的求解,得到上述多对一关系映射表的最佳一一对应解。本文还将该模型融入到肽段定量算法中,从而实现肽段定量算法的改进。4)肽段匹配定性模型是一个最优化问题,这里使用退火算法来求解。本文通过实验证明模拟退火算法适用于小规模质谱数据处理,遗传退火算法适合处理大规模质谱数据。肽段匹配定性模型通过实验被证明能有效的增加肽段的定性数目。综上所述,本文紧跟蛋白质组学的设备和技术发展,着重于质谱数据的分析和挖掘。本文主要研究蛋白质定量算法,针对肽段定量和蛋白质定量开发了相应的工具和软件,最终实验结果也表明该算法能达到较好的效果。