论文部分内容阅读
生物质谱技术的飞速发展为蛋白质组学的研究提供了重要的技术支持,特别是液相色谱-串联质谱联用技术凭借其高灵敏度、高通量和高精度的优点,已经成为大规模蛋白质鉴定的主要技术。然而,随着质谱仪检测速度和检测精度的提高,质谱产出的数据也成倍增加,如何正确解析这些质谱数据成为蛋白组学研究的一大挑战。为满足蛋白质组学研究中海量数据解析的需求,自动化分析流程是不可缺少的,目前主要的质谱数据的解析方式是通过蛋白质序列数据库搜索进行蛋白质鉴定,然而常用数据库搜索方式对串联质谱数据谱图的解析能力有限,即使对于高精度的质谱数据而言,谱图的解析率亦不超过30%。影响质谱数据解析的因素是多方面的,包括样本本身的复杂程度、样本制备过程引入的不确定因素以及质谱数据采集和分析过程的不同等。为了降低质谱数据分析过程中各种因素的影响,通常以标准品作为参考,规范和评价质谱数据的产生与分析流程。其中由于合成肽段具备序列信息明确,样本构成简单,不易受外界污染物影响等特点,能够作为质谱性能评价和数据分析方法评价的参考物质,因此,本文以化学合成肽段作为标准品,分别从质谱仪的扫描精度、质谱仪的参数设置、样本的复杂程度以及数据处理等方面深入分析了影响质谱数据解析的因素。该标准品共包含30个质谱响应较好的特征肽段,分别来源于腾冲嗜热厌氧菌(Thermoanaerobacter tengcongensis,TTE)表达丰度不同的15个蛋白质,且与酵母蛋白质序列同源性较小,可用于构建以酵母为基体的复杂体系样本。通过对合成肽段的色谱与质谱表征,表明30个合成肽段样本色谱纯度均达99%以上,且肽段含量较高,序列合成正确,适合于构建标准品。通过标准肽段的高精度质谱数据分析,结果表明串联质谱扫描中一级质谱仪的分辨率提高虽然能够提供准确的一级母离子的质量数,但受仪器本身固有特征与参数设置的影响,仅仅依赖质谱选择的母离子并不一定能够使所有二级谱图得到鉴定。其中,离子动态排除和较宽的离子解离窗口设置是产生这一现象的重要原因,两者共同作用容易导致较宽质荷比范围内的所有离子共碎裂产生混合谱图。随着检测样本复杂程度的增加,混合谱图的比列也显著增高,而混合谱图的低解析率成为影响质谱数据解析率的重要因素之一为了提高谱图的正确鉴定率,本研究以混合谱图作为主要研究对象,深入分析其谱图的特征,并利用这些特征对混合谱图进行鉴定。经过对大量质谱谱图的分析,发现造成混合谱图解析率低的原因主要包括两部分,一是不能正确识别形成混合谱图的所有母离子单同位素峰,二是混合谱图中未鉴定碎片离子的影响。针对第一种原因,本研究提出了一种基于同位素峰强度比值的单同位素峰识别算法(Peak intensity ratio-based monoisotopic peak determination algorithm, PIRMD),该算法首先利用相邻同位素峰的强度比值对母离子单同位素峰的边缘特征进行分析,并利用该特征识别未发生同位素峰混叠的母离子的单同位素峰,其次对于产生混叠的母离子的单同位素峰,通过构建实验同位素峰分布与理论分布之间的误差函数加以识别。对标准品样本与复杂蛋白质样本的质谱数据分析表明,PIRMD能够较为有效地提高质谱数据的解析率,其中复杂样本鉴定结果表明解析质谱图的25%来自混合谱图。针对第二种原因,本研究从反转谱图的思想出发,充分利用高精度质谱数据中一级扫描的高准确度与二级扫描碎片离子的互补特征,提出了一种基于碎片离子对的混合谱图分离算法(Chimera identification algorithm based on fragment ion pairs, CHIFP)。通过对理论参考数据集的鉴定结果分析,CHIFP算法能够在正确识别混合谱图母离子的前提下,可将母离子强度较低的混合谱图解析率提高约20%。标准肽段数据集与腾冲嗜热厌氧菌蛋白质样本数据集的鉴定结果表明,与PIRMD相比,CHIFP并没有显著提高总谱图的鉴定率(仅提高1~2%),但TTE蛋白质样本的肽段鉴定结果与蛋白质鉴定结果证明,CHIFP可有效增加对混合谱图的解析能力,受此影响的肽段鉴定数目增加了4%,而蛋白质鉴定数则增加了约10%,且经该算法过滤后混合谱图的鉴定率与非混合谱图的鉴定率基本持平。由此可见,CHIFP是一种非常有效的混合谱图解析算法,有助于对海量质谱数据的深度解析。