论文部分内容阅读
Alu重复序列是灵长类动物基因组中SINE家族的一员,约有100万份拷贝。由于这种DNA序列中含有限制性内切酶AluI识别的序列AGCT,所以称为Alu重复序列。典型的人类基因组Alu序列长282 bp,由两个同源但有差别的亚基构成。在所有己知的基因内含子中,几乎都发现了Alu序列。由于Alu序列存在的普遍性及其可能具有的生物学功能,成为人们研究的热点。
研究表明,Alu序列可能与调控网络有关,调控散置在基因组中的基因协同表达。我们知道DNA中编码序列是以三联体的形式编码蛋白质,那么Alu序列如果参与基因的调控,以什么样的方式编码序列呢?为此,我们应用非均匀指数,分析了外显化Alu序列的阅读性框架,并以人类基因组中的外显子,内含子的序列作为对照,发现Alu序列可能存在8重性阅读框架,具有8联体的编码性质,这一结论支持了人们曾经提出的Alu序列参与基因调控的结论。另外,通过与其它短散在性重复元件的对比分析,显示存在8重性阅读框架可能是Alu序列所特有的。进一步,我们统计了Alu序列每个周期位置上各碱基出现的概率,没有发现特别的规律,这与编码区统计性分析获得的经验,即DNA中密码子使用不是均匀分布的结论是比较吻合的。同时,我们还发现Alu序列中碱基的构成也是不对称的,G+C的含量大于A+T的含量。
接下来基于Alu序列中碱基分布的不对称性,及Alu序列本身保守的结构特性,应用多样性增量的方法(ID方法)对Alu序列进行了识别分析:分别以人类基因组中内含子(intron)和外显子(exon)两类序列作为负集,外显化的Alu序列作为正集进行预测,建立序列单碱基含量(ID1),紧邻与非紧邻二联体(ID2),三联体(ID3),四联体(ID4),八联体(ID5)共五个标准多样性源,采用3-fold交叉的检验方法,得到的敏感性(Sn)多数在99%以上,特异性(Sp)多数在96%以上,总精度(TA)多数也在90%以上。其中以k=4mer识别的结果最好,特异性、敏感性总精度都超过了98%,相关系数也超过了0.92,很好的体现了Alu序列碱基组分的保守性和关联性。
最后,论文应用同样的参量和多样性增量的方法以及同样的检验方法,从人类基因组的第一条染色体上预测真正的Alu序列,得到的敏感性均超过了97.41%,特异性均超过了77.18%,总精度超过了78.07%,相关系数也超过了0.35,这个结果表明我们的方法可以作为识别Alu序列的工具。