论文部分内容阅读
结构域是蛋白质结构、功能和进化的基本单位,结构域特征决定着蛋白质的功能。因此,在蛋白质组水平进行系统性的结构域特征分析,对于全面认识生命系统蛋白质结构和功能特征以及与结构域相关的蛋白质进化规律具有十分重要的意义。自从人类和多种模式生物基因组测序完成以来,大量研究基于基因组编码的“全蛋白质组”(predicted Human Genome Encoding Proteome,以下简称“全蛋白质组”或“pHGEP”)对结构域特征进行了系统性分析,并取得了丰硕的成果,发现了一系列普遍存在的和物种特异性的结构域特征,以及与结构域“倍增”、“组合”相关的蛋白质进化规律性模式。然而,由于基因组在生物体内是相对恒定的,而基因表达具有时空特异性,这使得仅在“全蛋白质组”水平进行结构域特征分析不能回答涉及基因表达的相关问题:①特定组织/器官蛋白质组结构域分布有何特征?②结构域特征与蛋白质丰度有何关系?而这两方面问题的回答具有非常重要的意义:①利于全面认识特定组织/器官的蛋白质功能特征及其结构基础,并有望发现组织/器官基因表达普遍存在的与结构域分布相关的规律性现象;②利于全面认识“蛋白质丰度分布”基本规律。③有望发现具有重要研究价值的特定蛋白质或结构域。因此,本研究充分利用基因/蛋白质表达谱数据,分别在蛋白质表达的“定性”和“定量”两个角度研究了蛋白质结构域特征与表达特征的相互关系,并对在此过程中发现的重要研究对象—KRAB型锌指蛋白(KRAB-containing Zinc Finger Proteins,即“KRAB-ZFPs”)在红系分化中的调控功能进行了探索。肝脏是机体内复杂性仅次于脑的最大的内脏器官,但目前尚缺乏对其结构域分布特征的系统性认识。本研究对人类肝脏蛋白质组结构域分布特征进行了深入分析,并重点关注了人类肝脏生物学复杂性形成的分子结构基础。我们通过汇集已知的人类肝脏基因表达谱数据,构建了预期的人类肝脏蛋白质组(predicted Human Liver Proteome,以下简称“pHLP”),分别在整体和群体水平与pHGEP进行了比较。整体水平的分析发现:从结构域角度考虑,高混杂度、高连接度结构域及进化史上出现较早的结构域在pHLP中显著富集;从蛋白质角度考虑,多结构域蛋白在pHLP中显著富集,而单结构域蛋白显著缺失。这些结果表明人类肝脏生物学复杂性的形成更依赖于复杂的结构域组织形式,而非新的结构域类型的出现。群体水平的进一步分析发掘出一系列在pHLP中特异性富集或缺失的结构域,它们代表了肝脏特征性的生理功能的分子结构基础。对这些结构域特征的进一步分析发现:pHLP中显著富集的结构域更趋向于具有高混杂度、高连接度和古老年龄,反之亦然,这进一步证实了上述有关肝脏生物学复杂性成因的结论。以上分析表明,肝脏中各种类型结构域并不是按照它们在“全蛋白质组”中同样的比例分布于肝脏蛋白质组的,而是存在一定的偏性。那么,这种分布的偏性在人体各组织/器官中是否普遍存在呢?我们利用已公开发表的73种人体“器官/组织/细胞”(Organ,Tissue or Cell,以下简称为“OTC”)的转录组数据构建相应的预期蛋白质组,并与pHGEP进行比较分析。结果发现pHLP结构域分布特征在人体各种“OTC”中具有普适性。即各种类型的结构域在“全蛋白质组”中的分布比例与各种“OTC”蛋白质组中分布比例是不同的,而且其偏性具有一定的规律性:在结构域层次上,高混杂度、高连接度结构域及较古老的结构域显著富集;在蛋白质层次上,多结构域蛋白显著富集,单结构域蛋白显著缺失。此现象的发现,丰富了人们对“基因表达偏性”规律的认识。上述分析基于定性角度研究蛋白质结构域特征与蛋白质表达特征之间的关系,接下来我们对蛋白质结构域特征与蛋白质定量特征之一—“丰度”之间的关系进行了深入研究。我们关注了三个最简单但其意义非常重要的蛋白质结构域特征参数:蛋白质内结构域数目(DN)、结构域覆盖率(DC)及介导蛋白质间相互作用的结构域覆盖率(PPI_DC),利用人和小鼠肝脏蛋白质组定量数据及其它4种代表性模式生物(果蝇、线虫、酶母及大肠杆菌)定量蛋白质组数据分析了它们与蛋白质丰度的相关性。结果发现:DN与蛋白质丰度存在负相关性,且随着物种进化,二者负相关性呈明显增强的趋势;DC及PPI_DC与蛋白质丰度间存在明显正相关性。已有研究表明,DN在一定程度上可代表蛋白质结构和功能的复杂度(complexity);DC是衡量蛋白质结构和功能紧密性(compactness)的重要指标;而蛋白质PPI_DC与其所在相互作用网络的复杂性呈正相关。结合我们的分析结果,可以作出如下推论:①高等真核生物(从线虫、果蝇到小鼠和人类)中,结构和功能越复杂的蛋白质,其丰度越低;②在所分析的6种模式生物(大肠杆菌、酶母、线虫、果蝇、小鼠及人类)中,结构和功能越紧密的蛋白质,越趋向于高丰度表达;③在所分析的6种模式生物中,蛋白质所在网络复杂性越强(即与之发生相互作用的蛋白质数目越多),其本身越趋向于高丰度表达。我们的研究首次认识到蛋白质结构域特征与其丰度间存在显著相关性,这对于深入认识生命系统中蛋白质丰度分布规律具有重要意义。结构域特征的系统性分析,一方面可揭示重要的规律性现象,另一方面也可提供具体的有重要意义的研究对象。本研究在分析成人肝脏蛋白质组结构域分布特征时,发现KRAB-ZFPs在成人肝中显著缺失,而本室以往进行造血期人胎肝蛋白质组数据分析时,发现KRAB-ZFPs是显著富集的。此外,小鼠肝脏不同发育阶段转录组数据表明,57.6%的KRAB-ZFPs基因在小鼠胎肝造血高峰期具有相对高水平的表达。这些数据提示KRAB-ZFPs在胎肝造血期较为活跃。胎肝期造血以红系分化为主。KRAB-ZFPs作为哺乳动物特有的重要转录因子家族,其功能涉及发育、凋亡、癌变等多方面,但尚未有参与红系分化调控的报道。为明确KRAB-ZFPs是否参与红系分化调控,并挖掘可能参与红系分化调控的KRAB-ZFPs,我们选择小鼠红白血病(MEL)细胞红系分化模型进行深入探索。KAP-1是KRAB-ZFPs的通用共抑制因子;KRAB-ZFPs一般通过KAP-1作为桥梁分子募集辅助调控因子形成复合体来发挥调控功能。我们首先对MEL细胞中KAP-1进行敲低,并检测对MEL细胞红系分化的影响。结果发现,KAP-1被敲低后,MEL细胞经HMBA诱导发生成熟性红系分化过程中,胚胎型β-globin基因Ey表达明显上调。这提示,在MEL细胞中某个/某些通过KAP-1形成的复合体参与Ey基因表达负调控。为了探寻真正负调控Ey基因的转录因子,我们对MEL细胞中与KAP-1存在相互作用的分子利用IP-LC-MS/MS技术进行分离鉴定,得到16个KRAB-ZFPs及其它一些转录因子和辅助调控因子。通过进一步筛选,我们从中发现Zfp445可能参与胚胎型β-globin基因负调控。通过对MEL细胞中Zfp445进行RNAi和红系分化表型变化检测,证实Zfp445是在成熟性红系分化过程中负调控Ey基因的转录因子。Zfp445负调控Ey基因的具体机制尚待深入研究。本研究从蛋白质表达的“定性”和“定量”两个角度在蛋白质组水平系统分析了蛋白质的结构域特征与其表达特征的关系,发现了“组织/器官蛋白质组结构域特征偏性分布”及“结构域特征与蛋白质丰度显著相关性”等规律性现象;结合本室造血期胎肝转录组及蛋白质组数据分析,我们探索了KRAB-ZFPs在红系分化中的调控功能,发现Zfp445可以负调控Ey基因的转录。