论文部分内容阅读
串联质谱(Tandem Mass Spectrometry)已成为蛋白质序列鉴定的重要方法,生物实验和质谱技术结合能在短时间内产生大量的质谱数据,远超过了人工分析的能力,因此需要借助计算机对质谱数据进行分析。目前基于串联质谱数据的蛋白质鉴别方法主要有数据库搜索(database search)方法、De Novo方法和肽段序列标签(peptide sequence tag)方法。其目标是从实验质谱推断未知肽段的氨基酸序列,其中理论图谱预测是关键一步。但仅仅有对肽段断裂机制的定性认识对理论质谱预测是不够的,还必须定量分析影响断裂的因素,如断裂肽键位置和断裂肽键种类等,从而提高理论图谱预测的精确度,进而提高蛋白质鉴定的准确度。
蛋白质磷酸化是生物体内一种最重要的翻译后修饰,控制着大量的生命活动。因此,对磷酸化的研究具有一定的现实意义,而研究磷酸化肽段的断裂规律有助于磷酸化肽段的鉴定和磷酸化位点的确认。
鉴于理论质谱预测的复杂性,质谱数据库(mass spectrum library)鉴定方法逐步应用于蛋白质鉴定领域,该方法避开了蛋白质鉴定中理论图谱预测这一难点,而是采用直接的谱-谱比较,但存在搜索速度慢、匹配不够精确以及存储图谱所需的内存空间较大等一些列问题,影响蛋白质鉴定的效率。
针对上述问题,本研究进行了如下尝试:
1.提出了肽段断裂的新模型:
在理论质谱预测中,为克服估计b/y离子比例的困难,本研究提出了一个肽段断裂的新模型-断裂模型,即不去具体估计b/y等离子的强度,而是直接估计各个肽键断裂的可能性。该模型同时考虑肽键位置和肽键种类的影响。采用迭代算法对多组质谱数据集合进行了测试。实验结果表明:迭代算法学习出的参数和已有定性观察有很好的吻合;预测的理论图谱更为精确。
2.探索磷酸化肽段的断裂规律:
将断裂模型应用于标注好的磷酸化肽段质谱数据集,通过迭代算法鉴定磷酸化肽段,同时学习磷酸化肽段的断裂规律。实验结果表明:应用断裂模型的迭代算法能较好地鉴定磷酸化肽段,并揭示出磷酸化肽段与非磷酸化肽段在断裂规律上的不同。
3.建立了一套基于谱库搜索的蛋白质鉴定新方法:
我们对收集到的大量质谱图进行分类和标注,然后对可能为同一肽段的图谱进行合并,生成合理的合成谱,然后建立有效的索引,即所谓的图谱“指纹”技术,最后通过精确打分从谱库中找到与输入图谱最相似的匹配。实验结果表明:该方法具有搜索速度快、存储空间小和计算复杂度低等特点;在单个CPU下每秒可搜索107张图谱。