论文部分内容阅读
本文的主要贡献为两方面:1)建立了糖基化肽段高通量鉴定的技术平台。2)提出了整合转录组和蛋白质组数据筛选肝癌转移标志物的新方法。论文分为两大部分,第一部分(第2-5章)是糖基化肽段的鉴定:针对糖肽谱图的解析,设计了糖肽谱图解析平台GRIP,可以实现对实际复杂样本中糖肽分子的表征为本论文的重点。第二部分(第6章)是整合转录组和蛋白质组数据挖掘肝癌转移相关的分子标志物。蛋白翻译后修饰已成为目前蛋白质组学研究领域的热点方向,而糖基化修饰是最重要的蛋白翻译后修饰之一。糖蛋白广泛分布于各种组织的细胞膜表面和体液中,目前已知哺乳动物中超过50%的蛋白是糖蛋白,此外蛋白上的聚糖以及糖链结构的变化参与了肿瘤、代谢性疾病、心脑血管疾病、先天性遗传病等重大疾病的发生发展。由于其重要性,糖蛋白鉴定的技术问题成为焦点,主要涉及揭示生物样本中糖蛋白的丰度、种类、糖基化位点,以及糖链天线结构的组成、序列、拓扑结构和三维结构,这几个方面在难度上依次增高。目前还没有一款成熟的蛋白质组学软件可以直接移植到糖蛋白质组学研究上,而现有的糖蛋白质组学软件均处于雏形阶段,均存在通量低和假阳性高的问题。因此,亟待发展一套基于质谱的糖肽谱图解析方法,以实现复杂样本中糖肽分子高通量和高可信度的鉴定。糖肽分子在不同类型的质谱中会呈现不同的碎裂模式,进而产生差别较大的糖肽谱图。对不同碎裂模式的充分挖掘有助于糖肽谱图的正确识别。在高能碰撞诱导解离(HCD)中,糖肽分子的糖链和肽段都会发生碎裂;而低能碰撞诱导解离(CID)中,糖肽分子的碎裂只发生在糖链上,从而使糖肽谱图更加简化。这个现象在LTQ-ORBITRAP和QIT质谱中都能得到映证。低能CID得到的糖肽谱图常会出现一组与糖链相关的中性丢失峰,而糖肽鉴定的关键在与对这组中性丢失峰的捕获与解析。我们可以利用图论方法捕获糖链的中性丢失峰,并可基于此设计出针对复杂样本来源N-糖肽的鉴定方法。我们将此方法先后在标准糖蛋白和实际复杂样本中进行大规模测试,得到极高准确度的验证。应用于人类血清样本的大规模鉴定,最终得到745个N-糖基化肽段。我们在前期实验中已经建立了肝癌转移的小鼠模型,同时通过基因芯片和生物质谱获得了转移模型在转录组和蛋白质组水平的表达情况。传统的分子标志物筛选方法,通常先分别探究转录组或蛋白质组的差异基因,然后寻找共同的差异基因。这种策略往往会丢失差异基因在全局水平上的位置,不能充分利用转录组和蛋白质组联合筛选的优势。本研究提出了更为科学的方法:将转录组和蛋白质组数据投影到二维平面上,用置信椭圆或置信区间方法筛选差异方向一致的基因。第2章系统鉴定了人肝蛋白质组中的糖基化位点。我们首次利用肼腙化学反应法和亲水相互作用法两种非凝集素的广谱性富集技术,结合高精度质谱LTQ-ORBITRAP获取CID和ETD两种模式下的谱图,通过MaxQuant检索,控制肽段和位点的FDR在1%水平,共得到1,700个N-糖基化位点。通过比较,我们的数据集对国际上已鉴定的糖基化位点数据集形成了大规模的补充。其中,修饰位点序列模式总体符合N-X-[S|T]模式,同时还发现存在一批新的序列模式;在二级结构域方面,发现β-折叠上的N-糖位点频率明显高于α-螺旋。第3章是关于糖肽谱图解析软件GRIP的核心算法、设计、编写和测试。在对QIT和LTQ-ORBITRAP两种质谱来源的标准糖蛋白ASF和HRP测试中发现:所有的糖基化肽段都能被GRIP正确识别,充分验证了GRIP对简单样本来源的糖肽的识别能力。标准蛋白数据也证实了GRIP优于现有的所有糖肽谱图解析软件。第4章是GRIP方法在实际复杂样本中的应用。我们设计的特色的实验技术,首先通过预实验得到实际样本的去糖基化肽段库,再结合文献和Glycoworkbench软件构建出人类血清的N-糖组成库(365种),组合成理论N-糖肽数据库。GRIP通过实际样本的CID谱图与理论N-糖肽数据库的比对来实现对糖肽的鉴定。同时我们利用真实谱图产生的随机谱图作为GRIP卡阈值的标准。在标准糖蛋白ASF的测试中证实了此方案的可行性,在大规模实验验证中,用同一母离子下的HCD糖肽谱图来验证GRIP的解析结果,显示了此方案的高准确度。所有结果说明GRIP完全有能力对实际复杂样本的糖肽进行鉴定。在人类血清样本大规模的测试中,GRIP最终鉴定到745个糖肽分子。其中最高丰度的糖蛋白是免疫球蛋白,而大部分糖肽分子都带有唾液酸或岩藻糖,均与以往研究相符。第5章拓展了GRIP方法,运用糖肽碎片库技术来对实际样本中的糖肽拓扑结构进行解析。GRIP方法只能获取糖链的组成,因此我们开发了N-糖链拓扑结构的鉴定体系作为补充。糖肽碎片库构建的首要问题是如何构建糖链碎片库。Glycoworkbench软件无法模拟出所有的N-糖碎片,我们采用自建的N-糖碎片构建方法。在血清中已知N-糖的最大通用结构,通过矩阵方法产生所有10,004个N-糖链的子结构。每个糖链结构通过循环调用矩阵方法完成碎片库的构建。最后我们设计了5种谱图匹配的打分公式,在模拟和实际谱图的测试结果表明运用糖肽碎片库不仅可以得到糖肽的拓扑结构,而且对同分异构体具有一定的识别能力。第6章是肝癌转移分子标志物的筛选。本章提出联合转录组和蛋白质组数据,将转录组和蛋白质组数据投影到二维平面上,用置信椭圆或置信区间方法筛选差异方向一致的基因。在转移模型测试中发现置信区间方法比置信椭圆方法更为严谨。通过本文的研究,我们建立了实际样本中N-糖肽高通量鉴定的解决方案,为将来疾病蛋白质组学研究中糖肽分子标志物的筛选奠定了基础。此外,本文第5章内容为下一步N-糖肽拓扑结构鉴定方法研究拉开了序幕。在本文第6章肝癌转移标志物的研究中,我们会继续深入探讨与肝癌转移相关分子标志物的筛选方法。