论文部分内容阅读
随着生命科学的发展,RNA新的功能被逐步的发现,对于RNA的研究已经成为当今生命科学领域的一大热点,RNA组学(RNomics)的提出更是将对RNA的研究推向了一个更高的境界。而作为研究基因组学(Genomics)和蛋白质组学(Proteomics)必不可少的生物信息学(Bioinformatics),对于RNA组学的研究也是一样重要。对于RNA结构比对的研究是生物信息学研究的一个重要课题,它对于研究RNA分子的功能、寻找RNA分子中结构保守区域以及研究生物的进化都具有非要重要的意义。 本文将Kolmogorov复杂度应用于RNA结构比对的研究中,提出了基于通用相似性度量的RNA结构比对算法。该算法利用压缩后字节长度来逼近RNA序列的Kolmogorov复杂度并以此计算RNA序列之间的通用压缩距离(UCD),该距离是对通用相似性度量(USM)的一种近似。 本文构建了一个基于通用相似性度量的RNA结构比对算法框架,包括模型的构建、压缩方法的选择以及聚类方法的选择;提出了两种新颖的RNA结构表示模型:RNA关联图模型(RNA contact map)和RNA碱基配对概率点阵图模型(RNA dot plot of base pairing probability);并通过设计的三种RNA实验数据集对算法进行验证,证明了算法可行并非常有效,尤其是基于RNA关联图模型的算法组合取得了很好的聚类效果。