人类基因组A1u序列的研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:shashasimon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Alu重复序列是灵长类动物基因组中SINE家族的一员,约有100万份拷贝。由于这种DNA序列中含有限制性内切酶AluI识别的序列AGCT,所以称为Alu重复序列。典型的人类基因组Alu序列长282 bp,由两个同源但有差别的亚基构成。在所有己知的基因内含子中,几乎都发现了Alu序列。由于Alu序列存在的普遍性及其可能具有的生物学功能,成为人们研究的热点。   研究表明,Alu序列可能与调控网络有关,调控散置在基因组中的基因协同表达。我们知道DNA中编码序列是以三联体的形式编码蛋白质,那么Alu序列如果参与基因的调控,以什么样的方式编码序列呢?为此,我们应用非均匀指数,分析了外显化Alu序列的阅读性框架,并以人类基因组中的外显子,内含子的序列作为对照,发现Alu序列可能存在8重性阅读框架,具有8联体的编码性质,这一结论支持了人们曾经提出的Alu序列参与基因调控的结论。另外,通过与其它短散在性重复元件的对比分析,显示存在8重性阅读框架可能是Alu序列所特有的。进一步,我们统计了Alu序列每个周期位置上各碱基出现的概率,没有发现特别的规律,这与编码区统计性分析获得的经验,即DNA中密码子使用不是均匀分布的结论是比较吻合的。同时,我们还发现Alu序列中碱基的构成也是不对称的,G+C的含量大于A+T的含量。   接下来基于Alu序列中碱基分布的不对称性,及Alu序列本身保守的结构特性,应用多样性增量的方法(ID方法)对Alu序列进行了识别分析:分别以人类基因组中内含子(intron)和外显子(exon)两类序列作为负集,外显化的Alu序列作为正集进行预测,建立序列单碱基含量(ID1),紧邻与非紧邻二联体(ID2),三联体(ID3),四联体(ID4),八联体(ID5)共五个标准多样性源,采用3-fold交叉的检验方法,得到的敏感性(Sn)多数在99%以上,特异性(Sp)多数在96%以上,总精度(TA)多数也在90%以上。其中以k=4mer识别的结果最好,特异性、敏感性总精度都超过了98%,相关系数也超过了0.92,很好的体现了Alu序列碱基组分的保守性和关联性。   最后,论文应用同样的参量和多样性增量的方法以及同样的检验方法,从人类基因组的第一条染色体上预测真正的Alu序列,得到的敏感性均超过了97.41%,特异性均超过了77.18%,总精度超过了78.07%,相关系数也超过了0.35,这个结果表明我们的方法可以作为识别Alu序列的工具。
其他文献
针对我国矿热炉金属水冷骨架式矮烟罩破裂漏水的问题,提出一种新的解决方法——设计一种新型的组合式无水冷骨架的矮烟罩装置。本文从矿热炉烟罩发展的历程出发,说明了烟罩的
二苯基甲烷是精细化工的重要原料之一,应用领域广泛,具有广阔的市场前景。近年来,由于二苯基甲烷产品需求量激增,二苯基甲烷的市场需求扩大。因此,寻找和开发一种绿色、高效且对环
聚丙烯酸酯由于其优异的成膜性和力学性能,良好的耐候性,对各种表面都有很好的附着力,被广泛作为织物涂层剂使用。用甲基丙烯酸甲酯(MMA)、丙烯酸乙酯(EA)、丙烯酸丁酯(BA)和交联单