论文部分内容阅读
人类基因组全序列测序工作的完成具有划时代的意义,标志着基因组研究的新纪元已经到来。通过比较基因组学的研究,一系列不为人知的基因组秘密呈现在人们眼前。本论文的研究工作将盘基网柄菌的13498个基因分别与8种模式生物全基因组蛋白序列进行比较,力求揭示盘基网柄菌与不同生物基因组之间蛋白序列的同源性,为盘基网柄菌基因组的比较分析和菌物基因组的进化研究提供新的分析方法和论据。
盘基网柄菌(Dictyostelium discoideum)是真核生物中最简洁的基因组之一,现已成为一个广泛用于研究分子生物学和细胞生物学中关键问题的真核模式生物。2005年2月,Nature发表了盘基网柄菌的全基因组序列,结果显示其单倍体基因组大小为3.4×107bp,共6条染色体,(A+T)含量高达77.57%,编码了约12500个蛋白质,测序结果同时还证明了盘基网柄菌与真菌以及后生动物之间具有更近的同源性。
本研究采用生物信息学方法进行盘基网柄菌的比较基因组学研究。研究的全基因组数据均来源于公共数据库,采用了可在本地PC机上运行的BLAST软件作为研究的数据库搜索程序,并建立了包括流感嗜血杆菌、大肠杆菌、酿酒酵母、秀丽隐杆线虫、黑腹果蝇、拟南芥、小鼠、人等8种模式生物全基因组序列的本地数据库。对于BLAST的输出结果,都是普通的纯文本文件,人工阅读和挑选所需信息,工作量极大,所以我们选择了具有强大的文本数据处理能力的编程语言Perl,写了Perl脚本程序来处理BLAST的输出结果。
研究首先对盘基网柄菌与8种模式生物的基因组序列特征进行了比较,结果如下:
1.本文中从细菌基因组到盘基网柄菌基因组再到人类基因组,其基因组大小逐渐增大,显示出生物体的复杂性与基因组的C值呈线性关系。
2.本文中与基因组C值矛盾一样,基因数量与生物体复杂性呈非线性关系。
3.从基因组的(G+C)含量角度讲,盘基网柄菌基因组中的(G+C)含量是最低的,为22.43%,比人类的还要低17.87%,与进化顺序相悖,这可能与生物中编码序列的比例有关;同时也可能与模式生物的密码子第三位碱基选择有关。
4.盘基网柄菌的基因间距较小的基因组(相对于小鼠和人类基因组基因间距)重组率不是很高,具有较高的基因遗传稳定性。
5.推测盘基网柄菌为适应进化所需要的蛋白多样性是通过较小基因的重复产生的。
6.内含子大小直接决定基因的长度。
然后通过将盘基网柄菌的13498个已知基因分别与8个模式生物的蛋白质组比较分析,结果显示盘基网柄菌与流感嗜血杆菌蛋白组的同源性为11.8%,与大肠杆菌K-12菌株的蛋白组的同源性为17.2%,与酿酒酵母蛋白组的同源性为36.4%,与拟南芥的蛋白组的同源性为29.6%,与秀丽隐杆线虫蛋白组的同源性为41.7%,与黑腹果蝇蛋白组的同源性为38.3%,与小鼠的蛋白组的同源性为39.5%,与人类蛋白组的同源性为37.7%。