论文部分内容阅读
随着人类基因组计划的宣布,人类对生命的研究进入了基因组时代,多个微生物、动物和植物的基因组计划顺利展开,在植物基因组计划中,拟南芥的全基因组的测序已经于2000年提前顺利完成。水稻方面我国北京基因研究所和美国Syngenta公司在2002年11月Science上同时公布了用shutgun方法对籼稻品种9311和粳稻品种日本腈的测序结果,前者的数据还没有完全公开,后者的序列则不会对公众公开。国际水稻基因组计划的clone by clone法测序进展顺利,已经于2002年11月24日宣布提前完成主要的测序工作,而且绝大部分数据已经公开和提交给公共数据库(可在TIGR和NCBI进行下载)。这些数据为我们对植物重要基因的发掘、植物功能基因组学和比较基因组学的研究提供了完整的资料。对水稻而言,对这些序列的注释及相关基因的功能的研究将成为新的研究热点,对数据的整理、发掘、比较和分析为基因组水平上研究水稻重要基因功能将提供必要的数据和理论支持。通过对已经完成全序列分析的籼稻(北京基因组信息中心,简称BGI)和接近完成的全序列分析的粳稻(国际水稻基因组测序计划,简称IRGSP)蛋白数质数据库进行了两步HMM(Hidden Markov Model)模式匹配搜寻,获得了籼稻和粳稻基因组水平上受体激酶各个基因家族的成员643和701个,并对IRGSP中受体激酶进行的进一步的分析,确定了六个受体激酶的亚家族的成员,对这些基因的信号肽及跨膜区进行了分析,推测其中一些不具备信号肽和跨膜区的蛋白可能在细胞内发挥受体激酶的作用。在IRGSP和BGI之间的同源比较分析表明受体激酶基因在两者之间存在的非常强的保守性,但是不同的基因可能在基因组水平上存在不同数目不等的扩增。对Swissprot数据库的同源分析表明这些基因是植物特有的受体激酶,在其它生物中不存在类似的受体激酶。对酵母已知蛋白质数据库的搜索没有发现相似的基因。表明受体激酶很可能是植物中高度特异的信号转导过程中重要的蛋白质。通过对IRGSP的EST数据库的搜索,获得的这些基因表达的初步结果,表明目前已经可以确认大约有30-40%的受体激酶确实在植物中表达。对IRGSP的受体激酶各亚家族成员进行了多序列联配和系统树分析,在LRR(leucine-rich repeats,富含亮氨酸重复区)类受体激酶的351个基因中,可以区分出279个族,这些族中,210个族有一个基因,66个族存在2个基因,3个族中存在3个基因,这说明在LRR-RLK基因中存在着较大的冗余度。采用HMM(Hidden Markov Model),对粳稻基因组籼稻的蛋白质数据库进行了搜索,分别获得了325和344个富含亮氨酸的重复序列和核苷酸结合位点(Leucine RichRepeat-Nucleotide Binding Site,简称LRR-NBS)类的抗病基因的蛋白序列,并得到这些蛋白相应的cDNA序列。对IRGSP蛋白功能结构域的分析表明,多个蛋白具有的结构域与植物防卫反应相关,提示了这些蛋白在抗病中可能的功能,还发现多个蛋白中存在着与转座/反转座酶或蛋白所具有的结构域。对两套数据同源性分析表明,IRGSP中48个基因在BGI中可以确定存在orthologues基因,且几乎所有的IRGSP基因在BGI中都存在高度同源的对应基因。对这些蛋白的表达情况进行了EST库搜索,确定IRGSP和BGI中分别有95和79个蛋白表达。对IRGSP和BGI的所有LRR-NBS类蛋白的NBS结构域氨基酸序列进行了多序列比对和系统树分析,在IRGSP中可以确定为263个族,这些族大多只有一个基因,且除了个别的族外,这些基因表现出不同的亲源关系。对Pfam的检索共发现61个转录因子家族并获得了这些家族的HMM,对粳稻、籼稻和拟南芥蛋白数据库搜索发现除ARID/BRIGHT、Bts和TEA家族外,其它家族在植物中都存在着对应的转录因子。研究发现不存在水稻和拟南芥中特异的转录因子家族。在所有的转录因子中,可以找到约30%的转录因子有高度相同EST序列。