论文部分内容阅读
大规模的基因组和转录组学分析表明,超过90%的人类基因组序列是可以转录的,然而只有2%的基因组序列能够编码成蛋白质,其余的都是非编码RNA。全基因组测序技术的快速发展,产生了大量的新转录本,其中大部分是长链非编码RNA(lncRNA)。研究表明,lncRNA在剂量补偿效应、表观遗传调控、细胞周期调控和细胞分化调控等众多生命活动中发挥重要作用,很多人类复杂疾病的发生发展与lncRNA的功能异常密切相关,如癌症、神经退行性疾病、心血管疾病、糖尿病等。传统的lncRNA高通量测序,需要从大量细胞中获取足够多的RNA,因此测序结果是这些细胞“整体”的表征。然而,由于细胞异质性,相同表型的细胞的遗传信息可能存在显著性差异,很多低丰度的lncRNA会在整体表征中丢失。为了弥补传统高通量测序的局限性,单细胞测序技术应运而生,使得从单个细胞水平研究lncRNA的表达成为可能。本论文深入探究了lncRNA的功能及其在单细胞聚类分析中的作用,主要分为以下三个方面的内容。首先,为了深入理解lncRNA的功能及其可能的调控机制,本论文搜集了所有已发表的lncRNA论文和高通量测序数据集,构建了LncRNA2Target数据库,提供了人和小鼠全面的低通量实验验证和高通量测序数据分析获得的lncRNA-靶基因关系。接着,为了研究lncRNA的细胞异质性,探索基于lncRNA表达的细胞聚类方法,本文选择已知细胞类型的单细胞转录组测序数据作为测试,发现基于lncRNA表达的单细胞聚类方法相比于基于mRNA表达的聚类方法表现的更为优秀,暗示了lncRNA存在显著的细胞异质性,这种异质性可以用于细胞类型的区分。最后,基于lncRNA区分不同细胞类型的优势,本论文进一步将lncRNA的聚类方法用在乳腺癌单细胞研究中,通过lncRNA的异质性,将乳腺癌细胞聚类成了7个细胞亚型,进一步分析不同细胞亚型间差异表达的lncRNA,结合LncRNA2Target数据库收录的lncRNA-靶基因信息,揭示了lncRNA在不同类型乳腺癌中的潜在调控的分子机制。本论文以长链非编码RNA为研究对象,探索了lncRNA调控基因表达的机制,构建了完善的lncRNA-靶基因数据库LncRNA2Target;结合单细胞测序数据,进一步探索了lncRNA的细胞异质性及其在细胞聚类中的作用,发现lncRNA对不同类型的细胞具有较好的区分效果;结合乳腺癌单细胞数据分析,进一步探索了lncRNA在不同类型乳腺癌细胞中的异质性和潜在的调控机制。本论文的研究具有重要的理论意义和应用价值。