人类胚胎干细胞富集的蛋白-蛋白和功能相互作用网络

来源 :南方医科大学 | 被引量 : 0次 | 上传用户:FLEXCN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着后基因组时代的到来,高通量研究技术取得了巨大发展,如基因芯片技术,蛋白芯片技术等,因此生命科学研究形式也开始发生转变,如由过去一味强调单基因、蛋白的研究开始转向研究整个相互作用组。目前,生物医学知识常常可以采用网络形式来代表,如调节网络、代谢网络、基因相互作用网络、蛋白相互作用网络、小分子相互作用网络等。构建和分析这些网络揭示了许多以前未知的知识。在人类胚胎干细胞研究中,网络知识也得到广泛的应用,但大多研究强调转录调控网络研究,在此种网络研究中,主要探讨转录因子的重要性,这些研究发现了一些在人类胚胎干细胞特性调节中许多重要的转录因子,最近,基于蛋白-蛋白相互作用的网络生物信息学研究取得了较大成功。 芯片技术提供了一个用于同时研究一个细胞或组织全基因组表达的较好平台。在胚胎干细胞基因表达研究中,许多实验室采用芯片技术,但由于各种原因,如芯片平台差异、细胞株差异、实验操作技术差异等,人类胚胎干细胞基因表达谱存在较大的异质性。最近采用统合分析方法分析基因表达谱芯片增加了结果的可靠性。Assou等采用此方法得到了一组“人类胚胎干细胞一致基因集”。在此基因集中的一些基因同时也在人体其他少数组织细胞中表达,说明一些蛋白单个形式表达可能不是特异性存在于胚胎干细胞,但是整个联合蛋白集的表达形式是胚胎干细胞特异的,这暗示它们之间的相互作用可能是特异性的。 复杂网路无标度特性的提出,突破了随机网络模型的束缚,使大家认识到各种复杂系统的网络结构,都遵从某些基本法则。随后几年,全世界范围内兴起了研究复杂网络的热潮。复杂网络理论以社会网络、技术网络、生物网络等真实网络为研究对象,通过图论等方法,研究网络结构特征、结构与功能的关系等一系列问题,从而来获得对于现实系统更多认识。复杂网络理论作为一门新兴学科,为在系统水平上研究生物网络提供了新的理论依据和平台。2000年Jeong等人在Nature上第一次发表利用复杂网络理论研究代谢网络拓扑特性的论文,自此以后,利用复杂网络理论研究各种生物网络迅速发展。复杂网络理论揭示,细胞内分子相互作用网络的结构特性,与其它复杂系统网络(如万维网、社会网)在很大程度上是一致的,说明可能存在相似的法则控制着多数现实中的生物复杂网络系统。 根据以上研究,我们提出两个问题:(1)是否存在胚胎干细胞富集的蛋白相互作用网络?如果有,此网络的拓扑结构特征怎样?(2)是否存在胚胎干细胞富集的功能相互作用方式,调节胚胎干细胞特性?我们采用基于复杂网络理论的生物信息学方法来解释以上问题。 研究内容主要分为三个部分: 第一部分:构建人类胚胎干细胞富集的蛋白相互作用网络,并探讨网络拓扑特征。收集已有研究报道采用统合分析得到的一组“人类胚胎干细胞一致基因集”,通过在线Uniprot ID软件进行名称转换,得到1020个UniprotKb/SwissProt蛋白号,即胚胎干细胞相关蛋白。同时下载人类蛋白相互作用数据库I2d,经自编perl程序对数据库进行整理,删除数据库中冗余的蛋白相互作用对,得到13560个SwissProt蛋白及其组成的92545个非冗余蛋白相互作用对。收集了课题组梁爽教授研究报道97个正常人类组织中选择性表达的基因Affymetrix探针号,通过Affymetrix公司提供的最新注解文件对探针号进行重新注解,最终获得3904个组织选择性编码蛋白基因。对比干细胞一致性基因集和组织选择性基因,发现有274交叉基因。利于自编perl程序寻找由胚胎干细胞相关蛋白组成的蛋白相互作用对,通过广度优先算法搜索I2d蛋白相互作用数据库,得到由403个胚胎干细胞相关蛋白组成的连续蛋白相互作用网络。并进行1000次随机抽样网络,统计分析表明明显小于此干细胞网络,我们将之命名为干细胞富集蛋白相互作用网络,通过Cytoscape软件对此网络进行可视化分析。根据复杂无标度网络Barabasi-Albert模型,分析构建的干细胞富集蛋白相互作用网络中各节点度及其相关度分布,最终得到网络度相关幂律指数γ值为1.3081,证明此网络和真实网络类似,具有无标度特性。 第二部分:根据复杂网络理论,重点对网络中心蛋白进行分析。由于干细胞富集蛋白相互作用网络具有无标度特性,我们采用自编perl程序,利用Dijkstra算法对不同删除方法删除网络一定节点后,计算网络平均最短路径长度变化,探讨网络是否具有鲁棒性和脆弱性特征,结果发现当删除网络0、4、8、12、16、20个随机节点后,网络的平均最短路径长度分别为:3.679、3.676±0.006、3.674±0.016、3.672±0.016、3.686±0.052、3.688±0.040。经统计证明删除不同数量节点后与未删除节点的平均最短路径长度未发生明显改变。当删除网络0、4、8、12、16、20个中心节点后,网络平均最短路径长度分别为3.679、3.770±0.055、3.849±0.065、4.028±0.020、4.208±0.118、4.448±0.092。经统计证明删除不同中心节点与未删除节点比较,平均最短路径长度发生了明显改变,而且随着删除中心节点数目增加,平均最短路径长度随之增加。以上证明我们构建的网络具有较强的鲁棒性和脆弱性,说明网络中心蛋白(节点)对网络的拓扑结构稳定具有重要作用。采用5%最高连接数标准定义中心蛋白,我们共发现21个中心蛋白,分别为:MYC、EIF4A1、DDX18、H2AFX、KIAA0020、RPL4、PCNA、POLR1B、HSPA8、DKC1、CDC2、EIF4E、BXDC1、BOP1、RPLP0、EIF3A、RUVBL1、HDAC2、GFPT2、HISTIH4C、CBS。通过文献搜索,我们发现中心蛋白中MYC、H2AFX、RUVBL1已有报导与干细胞自我更新,增殖等特性密切相关。另外通过MGI数据库资料发现POLRIB、CDC2、HDAC2、MYC与胚胎发育密切相关,突变将导致胚胎致死,结合上述网络研究结果,我们推测:中心蛋白对胚胎干细胞特征维持具有重要意义。通过Gather和TFM-Explore两个软件预测中心蛋白编码基因-1200到+200启动子序列的转录因子结合位点,我们发现一个新的转录因子NF-Y能调控9个中心蛋白编码基因。结合已报道的SOX2,OCT-4,NANOG,c-Myc重要转录因子调控靶基因集和I2d蛋白相互作用数据库,我们构建了胚胎干细胞重要转录因子与中心蛋白关系网络图,我们提出一个新的假说:SOX2,OCT-4,NANOG等重要转录因子通过自身调控和相互间调控的回路,从而维持了在胚胎干细胞中合适表达水平,它们进一步通过调控许多重要的中心蛋白编码基因,从而维持了胚胎干细胞相互作用网络拓扑结构稳定,发挥对胚胎干细胞的调节作用。 第三部分:构建人类胚胎干细胞富集的功能相互作用网络。为了鉴定人类胚胎干细胞中富集的功能相互作用方式,我们利用QuickGO软件对人类I2d数据库中13560蛋白进行了基因本体分子功能GOSlim注解,结果表明在13560个蛋白中,目前具有一个及以上的GOSlim分子功能注解蛋白为9881个。进一步采用我们编写的perl程序分别将人类胚胎干细胞富集蛋白相互作用对和I2d蛋白相互作用对注解成相对应的分子功能GOSlim-GOSlim相互作用对,结果:在I2d数据库中的92545对蛋白相互作用对中,共有分子功能GOSlim注解的蛋白相互作用对为74921对;在胚胎干细胞富集蛋白相互作用对中,共有分子功能GOSlim注解的蛋白相互作用对1682对。通过EASE方法分析42个GOSlim组合的903对GOSlim-GOSlim作用对在胚胎干细胞中富集得分,我们发现有66对GOSlim-GOSlim组合在胚胎干细胞中富集。进一步采用Cytoscape软件作图,我们发现除了GO:0030234之外,其它GOSlim术语均形成一个连续的相互作用网络,在此GOSlim功能相互作用网络中,前4个最高连接的GOSlim术语分别为:GO:0003677,DNA binding; GO:0016787,hydrolase activity;GO:0003723,RNA binding; GO:0003824,catalytic activity。而且,我们研究发现大多数功能相互作用对,涉及转录和翻译过程,这和干细胞自我更新和多潜能维持、无限增殖特性密切相关。 总之,我们的研究已经鉴定了由403个胚胎干细胞高表达基因组成的一个富集蛋白相互作用网络,并进一步发现了一个富集的功能相互作用网络。这些相互作用网络对维持胚胎干细胞功能特征可能具有非常重要的作用,在胚胎干细胞富集蛋白相互作用网络中的中心蛋白,如MYC,H2AFX,RUVBL1,DDX18,CDC2,HDAC2,HISTIH4C等,可能在胚胎干细胞命运决定中具有非常重要作用,值得我们以后进一步深入探讨。但是由于目前蛋白相互作用网络不完全,以及高通量蛋白质组学技术尚不太完善,一些目前已知的重要基因/蛋白如KLF4等尚未包括在我们的蛋白相互作用网络中。尽管如此,我们采用基于复杂网络理论的生物信息学方法对胚胎干细胞富集基因进行了深入探讨,并得到了一些重要的启发,随着蛋白相互作用数据库和蛋白质组学技术的不断完善和改进,我们可能采用相似的方法重新进行网络分析,我们认为,采用不同的方法和技术将会进一步加深对人类胚胎干细胞的认识和了解,加速它的临床应用。
其他文献
多年冻土对高寒地区水文循环各个要素及水文循环机制影响显著。位于青藏高原腹地的长江源多年冻土区环境十分恶劣,目前国内外对该区域水文过程的研究较为薄弱。环境同位素广泛存在于自然界水体中,在降水、地表水、地下水、土壤水和植物体内相互转化的水循环过程中,同位素的分馏导致不同水体具有不同的同位素特征。本论文选择位于青藏高原多年冻土区的北麓河流域风火山支流区,以典型多年冻土区高寒草甸草地嵌套小流域水文循环中的
  基于桨叶动力学振型数据建立了直升机桨叶结构损伤检测的动力学方法,提出一个基于振型数据差值的损伤判定指标。实现了直升机桨叶损伤位置的有效识别和定位,并通过算例验证
高拱坝的封拱灌浆问题是坝工界一个重要的课题。随着小湾、锦屏、溪洛渡等300m级的高混凝土拱坝陆续开工,在高拱坝建设中普遍存在着提前蓄水发电的问题,围绕提前蓄水发电而出
  要求某型直升机光电转塔平台,在满足强度、刚度的条件下,避开直升机激振频率,避免与机体发生共振,本文通过有限元分析,对光电转塔平台的结构形式进行了优化设计。
冬季静水冰盖的形成易造成鱼类冻死和水库水工建筑物冰推破坏,基于冰情防灾减灾目的,本文于2014年-2015年、2015年-2016年两年冬季对内蒙古托县南湖水塘结冰期、稳封期、消融
弯曲型河流是自然界最为常见的河流形态之一,当水流流经弯道时,液体质点在重力和离心惯性力的共同作用下,横断面上形成二次流,与主流的纵向速度叠加,构成螺旋流;凹岸水位较高
本文给出某型机机翼有限元模拟方法,并针对实际结构研究如何在机翼有限元模型里模拟机翼前后缘,以便得到主结构相对更准确的应力应变.这里以某机型双梁式机翼为例,对机翼前后
由玉米大斑病菌(Setosphaeria turcica)引起的玉米大斑病是威胁玉米生产安全的重要病害之一,常造成严重经济损失。研究表明,许多植物病原真菌的生长、发育及致病性都受到细胞信号
  张力蒙皮是一种新型的吸能结构形式,能有效提高直升机结构水面坠撞吸能能力,可用在复合材料机身结构的底部结构上.张力蒙皮结构包括一个折叠区或一个复合材料褶皱部分,该区
随着国家西部大开发战略的确定,我国在建和拟建的的水利水电工程以水头高,流量大,泄洪功率大等为特点。因此,大坝的泄洪消能问题变的格外突出,如何保证具有巨大能量的洪水安全下泄