论文部分内容阅读
哺乳动物基因组是普遍转录的,但蛋白编码基因只占这些转录本的一小部分,绝大部分是非编码RNA。非编码RNA在调控基因表达方面有重要的功能。lincRNA作为一类重要的非编码RNA,可以在染色质水平、转录水平和转录后水平等多个层次以诱饵RNA、增强子RNA、核支架、snoRNA的宿主基因、microRNA的前体和竞争内源性RNA等形式来调控基因表达。lincRNA参与了多个生物过程,比如基因印迹、X染色体失活、细胞周期、配子形成、多能细胞的分化发育等。近几年来,lincRNA被发现参与了心脏病、地中海贫血、阿尔茨海默病等多种疾病过程,尤其是与肺癌、胃癌、乳腺癌等多种癌症的发生发展过程关系密切。因此,鉴定lincRNA,构建全面完整的lincRNA数据集,可以为lincRNA的功能和进化研究奠定基础,对癌症的诊断和治疗有重要的意义。本研究分别针对小鼠的SOLiD数据和Solexa数据开发了鉴定lincRNA的流程,并对这些lincRNA的转录活性特征、表达谱和功能等进行了深入研究。采用去核糖体的方法在SOLiD平台上对小鼠的大脑、睾丸和胚胎干细胞进行测序。这些样品的SOLiD数据分别有245,032,381、280,932,595和88,306,412条序列比对到基因组上。根据序列比对结果,按照我们鉴定外显子的流程分别鉴定出395,546、465,149和194,996个外显子。利用refGene来评估这些外显子的准确性,结果显示,有94.12%的refGene外显子被鉴定出来,并且匹配长度达到88.71%。去除在已知数据库中注释的外显子后获得新外显子,结合RNAPII和H3K36me3数据,在大脑、睾丸和胚胎干细胞中分别鉴定出17,931、18,512和6,966个转录本。利用Fantom3中注释的RNA来评估转录本的准确性,结果表明,一对一匹配率为95.62%,匹配长度为70.99%。对这些转录本的转录活性特征进行分析发现,CAGE、 RNAPⅡ、H3K4me3在转录本上游明显富集,H3K36me3在转录本的body区富集,以上结果说明这些新转录本有一定的转录活性,是独立的转录单元。通过利用PhyloCSF预测这些新转录本的编码可能性,然后去除小非编码RNA,最终在大脑、睾丸和胚胎干细胞中分别鉴定出3,329、5,371和1,960个lincRNA。利用我们开发的鉴定lincRNA的流程,从15个小鼠链特异的Solexa转录组数据中共鉴定出11,022个lincRNA(8182个lincRNA基因)。对这些lincRNA进行基因组特征分析发现,与蛋白编码基因相比,lincRNA基因长度短,外显子个数少,外显子长度短;但是在外显子个数相同的情况下,lincRNA基因的基因和内含子长度都比蛋白编码基因长。进一步分析发现,造成lincRNA基因内含子长的原因主要在于lincRNA内含子区含有大量repeat,特别是LTR和LINE比例很高,导致在外显子个数相同的情况下lincRNA基因比蛋白编码基因长。对lincRNA所进行的转录活性分析(包括CAGE、RNAPⅡ、H3K4me3、H3K27me3和H3K36me3等)结果与SOLiD数据鉴定的转录本转录活性结果一致。从表达水平来看,lincRNA基因表达量低,组织特异性强。利用GSEA预测lincRNA的功能,结果表明lincRNA与很多有明确功能分类的蛋白编码基因相关,如信号转导、免疫反应、减数分裂、能量代谢和凝血反应等。每个组织的lincRNA大多与各自的生理功能相关。例如,睾丸中的lincRNA主要与生殖发育相关,包括减数分裂、主要性别特征发育、有性生殖和配子形成等;在大脑中,lincRNA与大脑发育、突触发生、轴突形成和信号转导等有关。为了验证鉴定的lincRNA的真实性,随机选择16个组成型表达的lincRNA和42个组织特异性lincRNA进行RT-PCR实验,大部分lincRNA可以检测到阳性表达。本论文的工作为鉴定和描述lincRNA提供了方法,更重要的是扩展了小鼠的lincRNA数据集,为今后lincRNA的功能研究奠定了基础,为相关的功能实验提供了丰富的候选资源。