论文部分内容阅读
随着高通量测序技术的不断进步,人们对于基因表达差异和表型之间的关系有着越来越深刻的理解。传统基于样本整体的转录组信息仅能展现细胞群基因表达的平均水平,掩盖了细胞间基因表达的差异,因此研究样本中单个细胞的转录组数据可以获得更加全面的信息。现有常用的单细胞转录组测序技术根据其建库方法主要可分为两类,逐个细胞建库的测序技术和基于标签混合建库的测序技术,两种方法各有优点,但也存在着一定的局限,前者操作繁琐,成本较高,耗时较长;后者基因检测灵敏度较低,丢失了细胞的来源信息。如何平衡建库费用和基因检测灵敏度之间的关系,用较少的成本,在保留细胞来源的前提下,获得较高灵敏度的检测结果,是单细胞转录组测序面临的挑战,具有十分重要的理论意义和应用价值。
本论文在课题组前期工作的基础上,完善优化了单细胞转录组混合测序方案。该方案基于压缩感知理论,利用单细胞转录组数据的稀疏性特征将采样和压缩同时进行,即根据预先设计的测量矩阵对单细胞转录组进行亚采样和混合,通过混合池的测序数据结合测量矩阵重构初始单细胞转录组数据。在此方案下,细胞的来源信息得以保留,同时由于混合池数少于初始单细胞数,所需构建测序文库数量降低,建库成本减少、时间缩短。计算机模拟实验和实际样本测序结果均表明,此方案具有较高的基因检测灵敏度,重构后获得的单细胞表达结果与逐个细胞建库测序的结果具有较高的一致性。本论文的主要研究内容如下:
1.单细胞转录组混合测序方案的构建与优化
本论文介绍了将压缩感知理论应用到单细胞转录组测序的具体方案,包括实验操作和数据分析流程,其中对前期方案的完善和改进主要体现在:(1)提出了在处理实际情景中的混合池测序数据时,需要根据每个混合池中加入的单细胞样本数量对基因表达矩阵进行测序深度的校正;(2)针对不同稀疏程度的样本采用了不同的正则化模型进行表达数据重构,提升了重构效果。
2.基于计算机模拟的细胞表达数据重构
本论文采用了两组不同稀疏程度的转录组测序数据集验证了基追踪模型和岭回归模型重构的适应面和有效性,并用t-SNE降维和k-means聚类对重构后的数据进行分析。实验结果表明两种重构方法在采样数足够的情况下在理论上可以保持较高的检测灵敏度。其中,基追踪模型对于稀疏程度较高的数据集有较好的重构效果,但其结果受采样次数和误差扰动的影响相对岭回归模型来说较大;岭回归模型对于稀疏程度较低的数据有较好的重构效果,其求解速度相对较快,对误差扰动的鲁棒性较好。
3.单细胞转录组混合测序方案的实验验证
本论文培养了七种不同的人类免疫细胞作为实验样本,利用基于Smart-Seq2原理的试剂盒对单细胞转录组进行逆转录、扩增及纯化,得到相应的cDNA样本。根据计算机生成的压缩感知测量矩阵选取单细胞cDNA样本进行亚采样并混合,得到40个cDNA混合池并对其测序。利用混合池测序数据和测量矩阵重构得到单细胞转录组数据,将其与原始54个细胞的转录组数据进行比较,发现本方案基因检测的灵敏度可达到传统Smart-seq2单细胞转录组测序灵敏度的86.46%。由于样本中细胞间相似性程度较高,细胞的表达谱稀疏程度较低,实验结果表明岭回归模型的重构效果显著优于基追踪模型,其重构结果与传统单细胞转录组测序结果具有较高的一致性,细胞间相关系数平均值达到0.891,中位数为0.907。使用本论文构建的扰动模型对实验中的扰动进行评估,本次实验中的扰动为0.31~0.35,这一研究结果对今后预估转录组测序数据的扰动水平有重要的指示意义。
本论文在课题组前期工作的基础上,完善优化了单细胞转录组混合测序方案。该方案基于压缩感知理论,利用单细胞转录组数据的稀疏性特征将采样和压缩同时进行,即根据预先设计的测量矩阵对单细胞转录组进行亚采样和混合,通过混合池的测序数据结合测量矩阵重构初始单细胞转录组数据。在此方案下,细胞的来源信息得以保留,同时由于混合池数少于初始单细胞数,所需构建测序文库数量降低,建库成本减少、时间缩短。计算机模拟实验和实际样本测序结果均表明,此方案具有较高的基因检测灵敏度,重构后获得的单细胞表达结果与逐个细胞建库测序的结果具有较高的一致性。本论文的主要研究内容如下:
1.单细胞转录组混合测序方案的构建与优化
本论文介绍了将压缩感知理论应用到单细胞转录组测序的具体方案,包括实验操作和数据分析流程,其中对前期方案的完善和改进主要体现在:(1)提出了在处理实际情景中的混合池测序数据时,需要根据每个混合池中加入的单细胞样本数量对基因表达矩阵进行测序深度的校正;(2)针对不同稀疏程度的样本采用了不同的正则化模型进行表达数据重构,提升了重构效果。
2.基于计算机模拟的细胞表达数据重构
本论文采用了两组不同稀疏程度的转录组测序数据集验证了基追踪模型和岭回归模型重构的适应面和有效性,并用t-SNE降维和k-means聚类对重构后的数据进行分析。实验结果表明两种重构方法在采样数足够的情况下在理论上可以保持较高的检测灵敏度。其中,基追踪模型对于稀疏程度较高的数据集有较好的重构效果,但其结果受采样次数和误差扰动的影响相对岭回归模型来说较大;岭回归模型对于稀疏程度较低的数据有较好的重构效果,其求解速度相对较快,对误差扰动的鲁棒性较好。
3.单细胞转录组混合测序方案的实验验证
本论文培养了七种不同的人类免疫细胞作为实验样本,利用基于Smart-Seq2原理的试剂盒对单细胞转录组进行逆转录、扩增及纯化,得到相应的cDNA样本。根据计算机生成的压缩感知测量矩阵选取单细胞cDNA样本进行亚采样并混合,得到40个cDNA混合池并对其测序。利用混合池测序数据和测量矩阵重构得到单细胞转录组数据,将其与原始54个细胞的转录组数据进行比较,发现本方案基因检测的灵敏度可达到传统Smart-seq2单细胞转录组测序灵敏度的86.46%。由于样本中细胞间相似性程度较高,细胞的表达谱稀疏程度较低,实验结果表明岭回归模型的重构效果显著优于基追踪模型,其重构结果与传统单细胞转录组测序结果具有较高的一致性,细胞间相关系数平均值达到0.891,中位数为0.907。使用本论文构建的扰动模型对实验中的扰动进行评估,本次实验中的扰动为0.31~0.35,这一研究结果对今后预估转录组测序数据的扰动水平有重要的指示意义。