小鼠bHLH转录因子家族预测及其大脑调控网络的构建

来源 :上海交通大学 | 被引量 : 1次 | 上传用户:tecra1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因的表达调控是功能基因组研究的一个核心组成部分。转录因子与DNA顺式元件相结合,进而激活下游靶基因是转录反应发生和基因表达的关键步骤之一。很多的疾病被发现与转录因子的变异有关,这也可能是由转录因子变异引起的调控网络的变化所导致的。目前在人、鼠等的模式生物中仍有约50%的转录因子尚未被确定。作为研究转录调控过程的内容之一,识别转录因子的重要性是显而易见的。在基因组水平上确定转录因子或转录因子家族的范围也是构建和了解基因转录调控网络的重要前提工作。碱性/螺旋-环-螺旋(basic/Helix-Loop-Helix,bHLH)转录因子家族是真核生物体内非常重要的转录因子超家族。该转录因子超家族广泛存在于从酵母到人类的所有真核生物中,并在细胞增殖、决定和分化过程中发挥着重要作用。bHLH功能域大约60个氨基酸,包含了约15个氨基酸的碱性区和被一个可变长度的Loop区连接两个α-螺旋区。与DNA结合的碱性区的碱性氨基酸含量较高,HLH功能域通常先形成同源或异源二聚体或多聚体,然后由碱性区与靶基因DNA上的特定六碱基序列结合。在全基因组水平上对bHLH家族转录因子的预测工作已经在线虫、果蝇、酵母、人类、拟南芥和水稻中完成。小鼠基因组测序的完成为我们全面识别小鼠bHLH转录因子创造了令人兴奋的机会。公共数据库中大规模的基因表达芯片数据也为我们构建转录因子控制的调控网络提供了良好的信息基础。本论文的研究工作主要包括如下内容:1.小鼠bHLH转录因子家族预测的DP优化:在已有预测模式的基础之上,通过对BLAST的查询序列的扩展性选择和预测打分过程的动态规划实现,提出了优化后的预测小鼠bHLH蛋白的BLAST-DP法。应用BLAST-DP法首次预测了测序完成后的小鼠基因组中bHLH转录因子家族,分析确定的124个小鼠bHLH转录因子。28个蛋白是前人研究中尚未发现的新成员,特别是有10个非典型预测蛋白(uncharacterized putative protein)很可能就是新发现的转录因子。预测模式中保守位点的比较结果说明:与拟南芥相比,大部分位点上,小鼠的保守度大于拟南芥。124个小鼠bHLH蛋白通过公认的命名法和进化分析被划分到六个不同的子类(A~F)。超过三分之二的小鼠bHLH转录因子蛋白都属于A类或B类。打分情况显示预测模型对鉴定A类、B类和E类蛋白是相当准确的,但对另外两类的准确度稍微欠佳。我们从蛋白功能分析中发现70%的小鼠bHLH蛋白在basic区包含Glu-9/Arg-12残基对,也就拥有识别CANNTG的基序。位于23位的形成二聚结构所必需的亮氨酸(Leu)在小鼠bHLH蛋白中保守度高达97%。GO(Gene Ontology)的统计分析显示:bHLH蛋白主要参与细胞分化和细胞发育过程。本论文首次对bHLH蛋白的各类进行了功能富集性统计分析。结果表明归属于各类的蛋白倾向于拥有特定的生物功能。最大的A类bHLH蛋白在细胞命运确定(cell fate commitment)和神经系统发育中扮演重要角色。B类蛋白调控细胞周期,具有DNA结合活性。信号传导、转移酶活性、转录辅激活蛋白活性、刺激反应在C类蛋白中显著富集。只有心脏发育在D类bHLH蛋白中显著富集。E类蛋白在血管形成过程中发挥重要作用。F类蛋白有阳离子结合,尤其是锌离子结合活性。很显然,不同的蛋白类有特定的功能倾向。我们从中可以看出,bHLH蛋白序列的相似导致了它们功能的相似。这样,小组内那些新发现或性能尚不明确的蛋白成员的生物功能就可以从小组的功能富集性进行推断。2. bHLH转录因子隐马尔可夫模型的建立:为了建立适合所有真核生物的bHLH的预测模型,我们首次使用剖面隐马尔可夫模型(Profile Midden Markov Models, PHMM)的机器学习算法构建了bHLH蛋白的预测模型bHLH-HMM。构建新模型的原因是BLAST-DP物种特异性太强。虽然我们的BLAST-DP法是对原有BLAST方法做了优化和改进,但由于BLAST自身打分矩阵的特征,所有基于BLAST的预测bHLH蛋白的方法都存在物种应用范围太窄的问题。这样在对新物种的分析就受到了限制。此外,针对小鼠基因组或蛋白质组建立的方法流程并不一定适合其它物种。而且查询序列或序列集的选择受个人经验的影响较大,预测的结果可能随研究者的不同而不同。为了克服上述种种不足,我们将试验确定的真核bHLH转录因子作为隐马尔可夫模型的训练集,经过模型建立和模型校准两步建立了预测真核生物的bHLH蛋白的隐马尔可夫模型。模型的性能评估结果显示隐马尔可夫模型在预测敏感度和准确度方面明显优于所有基于BLAST的方法。为了用新建立的bHLH-HMM发现更多的小鼠bHLH转录因子,我们bHLH蛋白隐马预测模型对小鼠蛋白质组再次进行了分析,结果有113个蛋白达到了判定阈值,其中一个bHLH蛋白被新发现。经比较,与BLAST-DP法的结果有95%相同。为了获得同源基因信息,我们对人类和大鼠的蛋白质组也进行了分析,并采用best-best的方法与小鼠的bHLH因子进行了同源关系的确定。同时,分别得到107人类bHLH转录因子和109个大鼠bHLH转录因子。值得注意的是对大鼠bHLH转录因子家族目前尚未见其它的研究报道。通过上述两种预测方法,我们在小鼠的蛋白质组中找到了共计125个bHLH转录因子。此外,由于小鼠、大鼠和人类是哺乳动物的典型代表。本论文首次通过对小鼠、大鼠和人类的bHLH蛋白的进化分析,将哺乳动物的bHLH转录因子分为30个家族(bootstrap值>35%)。每个家族依据所包含的亚家族或其中最为熟知的成员而被命名。30个家族的规模大小不同,最小的如CLOCK,仅有3个成员蛋白;最大的HEY族包含了38个蛋白。较大的家族又可细分为更多的亚家族。平均每个家族包含约11个蛋白。在进化树上,有一个功能未知的家族(UNKNOWN)被发现并有很高的支持度。bHLH蛋白家族在三个物种中都比较保守,并没有发现仅在一个物种出现的bHLH蛋白家族,这可能是因为小鼠、人和大鼠的进化关系比较近的缘故。3.小鼠脑中bHLH转录因子的调控网络预测:确定转录因子的一个主要目的就是构建它们所控制的转录调控网络。很多研究报道bHLH蛋白是参与调控中枢神经系统(central nervous system,CNS)的发育过程非常重要的转录因子家族。为了研究bHLH转录因子在小鼠脑中的调控机制,基于我们的转录因子预测结果和已有的报道,我们第一次通过基因芯片表达谱和模块网络算法进行了小鼠脑中bHLH转录因子调控网络的推断。经过层层筛选和分析,最终推断所得的转录调控网络包含了15个重要的bHLH转录因子和153个靶基因。整个网络根据其表达谱被分为28个调控模块。每个模块的靶基因数目从1到18不等。每个模块根据最富集的第4层GO分类来给定一个特定的名称。众多的调控模式显示了所构建的网络的复杂性和多样性。此外,26对协作因子也在调控网络中被发现。转录因子间的协作体现了因子间可能存在的物理互作或遗传调控。令人感兴趣的是,像Neurod6和Hey2这样的积极因子调控着多个模块。它们共同调控了表达方式不相同的蛋白激活酶催化模块、细胞形态生成模块和胚胎上皮生成模块。两个转录因子的转录因子角色和靶基因的角色在不同的模块里面发生了交换,而且在表达上出现了“交互抑制”的现象。我们发现在Hey2和Neurod6本身的蛋白序列也为它们结合相同的目的基因和彼此相互结合提供了可能性。在对预测出的转录调控网络的有效性评价过程中,网络内超过75%的转录因子-靶基因对被启动区的转录因子结合位点的匹配所验证。在PubMed中的文献挖掘又为5个模块的调控关系提供了可信的支持。更重要的是,在最大的模块中,关键元素间的调控关系被转录因子敲除突变试验所证明。这个转录因子在其它两个模块的调控作用同样得到了试验验证。这样看来,我们的调控网络对了解bHLH转录因子在小鼠脑的生长发育和功能发挥过程中的角色具有非常重要的参考价值,同时也能为进一步的试验研究给出了指导性数据。综上所述,本论文针对bHLH转录因子家族,利用小鼠基因组、蛋白质组数据和基因表达芯片数据,充分使用生物信息学的方法和手段进行bHLH转录因子家族的预测和转录调控网络构建。我们的研究结果提出更可靠便捷的专门预测小鼠bHLH蛋白的BLAST-DP法,同时应用剖面隐马尔可夫算法建立适合所有真核生物的bHLH蛋白的预测模型bHLH-HMM。随后,用这两种方法在蛋白质组中预测小鼠bHLH转录因子,进行了分类、进化、功能和同源基因确定等方面的分析。最后利用我们的预测结果和脑组织基因表达芯片构建bHLH转录因子在小鼠脑中的转录调控网络,并进行了模块化、网络特性以及有效性评价、试验验证等研究。我们的研究结果不仅将极大推进小鼠转录调控机理的研究进展,也为人类相关疾病的分子生物学研究提供重要参考。此外,论文中研究的方法和流程可以推广应用到真核生物其它转录因子家族甚至整个转录调控网络的。
其他文献
在铂催化下,将含氢硅油(PHMS)和烯丙基聚醚(APE)进行硅氢化加成反应,合成了聚醚改性硅油(PESO),并用傅里叶变换红外光谱(FTIR)对其进行了结构表征。以聚醚改性硅油、自制硅膏
过度的金融创新与日益复杂金融交易,导致了2008年金融危机的爆发。然而,危机之后的一系列金融监管改革,却并未对金融创新的制度缺陷作出有效应对。本文基于对担保融资、资产
齿轮传动形式作为常见的机械设备动力和运动传递形式,广泛应用于金属切削机床、电力系统、农业机械、运输机械、冶金机械等工业设备中起到关键作用。齿轮机构具有传动比稳定
一位考古学者说:“里耶考古的发现,既是历史的终点,又是历史的起点。说是终点,是因为它见证了秦朝终结纷争局面的过程:说是起点,是因为它记录了中央政府对南方统治的开始。历史在这
房地产行业自出现以来,逐渐在我国的市场经济中担当着财政收入的中坚力量,代表着投资市场的刚性需求。虽然其在我国发展的时间并不长,可是在出现后却发展迅速,在市场调节与宏
多导体传输线是作为连接电气、电子设备的重要元件,在系统中占据不可忽视的地位,然而电磁能量无意的耦合所带来的串扰问题也一直是传输线电磁噪声的主要来源。其中,远端串扰
随着高通量生物学技术的发展与普及,系统生物学得以建立,并且迅速发展。本文简要介绍了系统生物学的概念,基本方法,研究内容。复杂网络理论的建立使得许多生物问题都找到了数
在现代企业中,融资活动日益成为其经营活动的一项重要内容。企业的融资结构就长期资金而言就是资本结构。本文通过对近代资本结构理论的介绍,说明企业最优资本结构的确定及其
一、引言自从我国1979年恢复国内保险业务以来,保险需求迅速扩大。尤其是保险市场得到实质性开放后,保险业发展迅速。和同期的GDP增长速度相比,我国的保费收入从1980年4.6亿人民
芜青(Brassica rapa L.),又名蔓青,系十字花科(Cruciferae)芸苔属(Brassica L.)植物,为二年生草本植物,原产于地中海沿岸及阿富汗、巴基斯坦等地,现我国多分布于长江流域和西