海量质谱数据深度解析新方法及其应用

被引量 : 3次 | 上传用户:guolingguoling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物质谱技术的飞速发展为蛋白质组学的研究提供了重要的技术支持,特别是液相色谱-串联质谱联用技术凭借其高灵敏度、高通量和高精度的优点,已经成为大规模蛋白质鉴定的主要技术。然而,随着质谱仪检测速度和检测精度的提高,质谱产出的数据也成倍增加,如何正确解析这些质谱数据成为蛋白组学研究的一大挑战。为满足蛋白质组学研究中海量数据解析的需求,自动化分析流程是不可缺少的,目前主要的质谱数据的解析方式是通过蛋白质序列数据库搜索进行蛋白质鉴定,然而常用数据库搜索方式对串联质谱数据谱图的解析能力有限,即使对于高精度的质谱数据而言,谱图的解析率亦不超过30%。影响质谱数据解析的因素是多方面的,包括样本本身的复杂程度、样本制备过程引入的不确定因素以及质谱数据采集和分析过程的不同等。为了降低质谱数据分析过程中各种因素的影响,通常以标准品作为参考,规范和评价质谱数据的产生与分析流程。其中由于合成肽段具备序列信息明确,样本构成简单,不易受外界污染物影响等特点,能够作为质谱性能评价和数据分析方法评价的参考物质,因此,本文以化学合成肽段作为标准品,分别从质谱仪的扫描精度、质谱仪的参数设置、样本的复杂程度以及数据处理等方面深入分析了影响质谱数据解析的因素。该标准品共包含30个质谱响应较好的特征肽段,分别来源于腾冲嗜热厌氧菌(Thermoanaerobacter tengcongensis,TTE)表达丰度不同的15个蛋白质,且与酵母蛋白质序列同源性较小,可用于构建以酵母为基体的复杂体系样本。通过对合成肽段的色谱与质谱表征,表明30个合成肽段样本色谱纯度均达99%以上,且肽段含量较高,序列合成正确,适合于构建标准品。通过标准肽段的高精度质谱数据分析,结果表明串联质谱扫描中一级质谱仪的分辨率提高虽然能够提供准确的一级母离子的质量数,但受仪器本身固有特征与参数设置的影响,仅仅依赖质谱选择的母离子并不一定能够使所有二级谱图得到鉴定。其中,离子动态排除和较宽的离子解离窗口设置是产生这一现象的重要原因,两者共同作用容易导致较宽质荷比范围内的所有离子共碎裂产生混合谱图。随着检测样本复杂程度的增加,混合谱图的比列也显著增高,而混合谱图的低解析率成为影响质谱数据解析率的重要因素之一为了提高谱图的正确鉴定率,本研究以混合谱图作为主要研究对象,深入分析其谱图的特征,并利用这些特征对混合谱图进行鉴定。经过对大量质谱谱图的分析,发现造成混合谱图解析率低的原因主要包括两部分,一是不能正确识别形成混合谱图的所有母离子单同位素峰,二是混合谱图中未鉴定碎片离子的影响。针对第一种原因,本研究提出了一种基于同位素峰强度比值的单同位素峰识别算法(Peak intensity ratio-based monoisotopic peak determination algorithm, PIRMD),该算法首先利用相邻同位素峰的强度比值对母离子单同位素峰的边缘特征进行分析,并利用该特征识别未发生同位素峰混叠的母离子的单同位素峰,其次对于产生混叠的母离子的单同位素峰,通过构建实验同位素峰分布与理论分布之间的误差函数加以识别。对标准品样本与复杂蛋白质样本的质谱数据分析表明,PIRMD能够较为有效地提高质谱数据的解析率,其中复杂样本鉴定结果表明解析质谱图的25%来自混合谱图。针对第二种原因,本研究从反转谱图的思想出发,充分利用高精度质谱数据中一级扫描的高准确度与二级扫描碎片离子的互补特征,提出了一种基于碎片离子对的混合谱图分离算法(Chimera identification algorithm based on fragment ion pairs, CHIFP)。通过对理论参考数据集的鉴定结果分析,CHIFP算法能够在正确识别混合谱图母离子的前提下,可将母离子强度较低的混合谱图解析率提高约20%。标准肽段数据集与腾冲嗜热厌氧菌蛋白质样本数据集的鉴定结果表明,与PIRMD相比,CHIFP并没有显著提高总谱图的鉴定率(仅提高1~2%),但TTE蛋白质样本的肽段鉴定结果与蛋白质鉴定结果证明,CHIFP可有效增加对混合谱图的解析能力,受此影响的肽段鉴定数目增加了4%,而蛋白质鉴定数则增加了约10%,且经该算法过滤后混合谱图的鉴定率与非混合谱图的鉴定率基本持平。由此可见,CHIFP是一种非常有效的混合谱图解析算法,有助于对海量质谱数据的深度解析。
其他文献
目的对比3种不同免疫检验方法检测抗HIV结果的可靠性。方法选取2013年12月至2014年12月经国家疾病预防控制中心用免疫印迹法确诊的73例HIV患者作为此次研究对象,其中HIV抗体
时间词语在句子中的表达功能表现为定位功能、计量功能和本体功能。“时间”和“时候”单用时的不同、它们命名时间词语时的不同都可以从功能的角度给予科学的解释。“时间”
通过野外调查和室内资料分析,对庐江铜陵段铁路的水文地质、工程地质条件进行阐述,对沿线修建铁路的地质灾害进行了综合评估.评估结果表明,危险性小的区段总长为35.7 km,占32
我国的企业在运行之中一直在寻找一种对员工行之有效的约束与激励机制。从20世纪的50年代中期到80年代末期,我国的国有企业为了寻求制度上的创新,率先扩大企业自主经营权,为
<正> 正仓院乐器之全貌 (一)现存乐器十八种 《东大寺献物帐》的记载 这里要介绍的是,正仓院全部乐器共十八种(佛教法器的铃、铎除外),以及包括正仓院文书在内的文献中所见诸
<正> 第一节波罗门僧正菩提与乐舞 东大寺内的乐声 天平胜宝四年(752)四月十日,奈良都被一片松树嫩叶的绿色而覆盖,在东大寺大佛殿中,南天竺僧波罗门僧正,以导师身份登临上座
本文在我国电力体制改革不断深化的大背景下,着眼于处于战略转型阶段的电力设计院,运用波特五力分析模型论证了电力设计院转型至工程公司的必要性与可能性,同时从组织机构建
随着信息技术的革新、境外证券公司介入、佣金改革、商业银行业务多元化等带来的新挑战,我国的证券经纪业务内外部经营环境正在发生重大变化。现阶段我国券商应充分利用自己
太阳能作为一种随处可得,无害无穷的新能源,理应为人类最先考虑的方便的新能源。近年来,世界各国政府都加大了在光伏发电技术研究和推广应用上的扶持,光伏产业也已成为当前发
本文用SWOT分析法对中小企业的优势、劣势和微时代带来的机会、威胁进行了简要介绍并提出了相关的营销策略。