论文部分内容阅读
肿瘤是一类由于基因表达紊乱导致的疾病,它可以发生在身体不同的组织和器官中,表现为细胞不受控制的恶性増殖,最终向正常组织和器官扩散。肿瘤异质性是恶性肿瘤的重要特征,同一种肿瘤不同患者个体之间或者同一患者体内不同部位肿瘤细胞从基因型到表型上存在差异,这种差异将同一种肿瘤区分出很多的不同亚型,也使得其在演化轨迹上具有高度复杂性。
随着人类社会的飞速发展和生态环境的快速变化,人们的身心承受着越来越大的压力,这使得肿瘤疾病日益频发,严重威胁人类的健康和生存。但是肿瘤的异质性却是肿瘤研究领域一道难以逾越的关口,给肿瘤的治疗带来了很大的阻力。近年来,单细胞测序技术(如scRNA-seq)的发展为肿瘤异质性的研究带来空前的帮助,精准医疗的概念及相关医疗技术方兴未艾,对肿瘤亚型及肿瘤演化轨迹的研究具有深远的意义。针对大量的肿瘤单细胞测序数据,研究者提出了肿瘤亚型发现算法和肿瘤细胞轨迹推断算法,这些算法提高了对肿瘤数据分析的能力。然而,针对scRNA-seq数据,如何提出对噪声和初始参数不敏感的、健壮的、且泛化能力强的方法来分析scRNA-seq数据进行肿瘤亚型发现和肿瘤细胞轨迹推断,仍然是一个挑战。为有效的解决这一问题,本文提出了基于一致性聚类的肿瘤亚型发现算法和基于聚类的肿瘤轨迹推断算法。
针对肿瘤亚型发现,本文提出了一致聚类算法conCluster,用于从肿瘤scRNA-seq数据中识别肿瘤亚型。conCluster采用集成策略将多个基本聚类结果融合成一个一致聚类结果。通过在多个真实的肿瘤scRNA-seq数据集上将conCluster与现有主要肿瘤亚型发现算法对比,实验结果表明了conCluster可以更准确地识别肿瘤亚型。进一步,对发现的黑色素瘤亚型进行了基因调控网络分析,分析结果表明,这些亚型具有不同的基因共表达网络和基因富集功能。针对肿瘤轨迹推断,本文提出了基于一致聚类的推断肿瘤细胞发展轨迹的方法TiC2D和iTIDR。TiC2D采用一致聚类方法对肿瘤细胞进行分类,通过计算簇密度确定轨迹的起始点。为了验证TiC2D的有效性,在四个时间序列scRNA-seq数据集上采用TiC2D算法进行肿瘤细胞发展轨迹推断,并与现有主要肿瘤细胞轨迹推断算法进行比较。实验结果表明,相比其他算法,TiC2D可以更为准确的从scRNA-seq数据集中推断出细胞发展轨迹,并可以从这些轨迹中识别出细胞演化过程中的关键基因。iTIDR是为了进一步提高推断细胞发展轨迹的准确性和健壮性,基于多粒度聚类的一种集成轨迹推断算法。该算法首先在不同粒度下分别对肿瘤细胞进行聚类并进行细胞发展轨迹推断,然后采用集成策略将不同粒度下的轨迹进行拟合。实验表明,iTIDR的性能高于包括TiC2D在内的现有主要肿瘤细胞轨迹推断算法。
随着人类社会的飞速发展和生态环境的快速变化,人们的身心承受着越来越大的压力,这使得肿瘤疾病日益频发,严重威胁人类的健康和生存。但是肿瘤的异质性却是肿瘤研究领域一道难以逾越的关口,给肿瘤的治疗带来了很大的阻力。近年来,单细胞测序技术(如scRNA-seq)的发展为肿瘤异质性的研究带来空前的帮助,精准医疗的概念及相关医疗技术方兴未艾,对肿瘤亚型及肿瘤演化轨迹的研究具有深远的意义。针对大量的肿瘤单细胞测序数据,研究者提出了肿瘤亚型发现算法和肿瘤细胞轨迹推断算法,这些算法提高了对肿瘤数据分析的能力。然而,针对scRNA-seq数据,如何提出对噪声和初始参数不敏感的、健壮的、且泛化能力强的方法来分析scRNA-seq数据进行肿瘤亚型发现和肿瘤细胞轨迹推断,仍然是一个挑战。为有效的解决这一问题,本文提出了基于一致性聚类的肿瘤亚型发现算法和基于聚类的肿瘤轨迹推断算法。
针对肿瘤亚型发现,本文提出了一致聚类算法conCluster,用于从肿瘤scRNA-seq数据中识别肿瘤亚型。conCluster采用集成策略将多个基本聚类结果融合成一个一致聚类结果。通过在多个真实的肿瘤scRNA-seq数据集上将conCluster与现有主要肿瘤亚型发现算法对比,实验结果表明了conCluster可以更准确地识别肿瘤亚型。进一步,对发现的黑色素瘤亚型进行了基因调控网络分析,分析结果表明,这些亚型具有不同的基因共表达网络和基因富集功能。针对肿瘤轨迹推断,本文提出了基于一致聚类的推断肿瘤细胞发展轨迹的方法TiC2D和iTIDR。TiC2D采用一致聚类方法对肿瘤细胞进行分类,通过计算簇密度确定轨迹的起始点。为了验证TiC2D的有效性,在四个时间序列scRNA-seq数据集上采用TiC2D算法进行肿瘤细胞发展轨迹推断,并与现有主要肿瘤细胞轨迹推断算法进行比较。实验结果表明,相比其他算法,TiC2D可以更为准确的从scRNA-seq数据集中推断出细胞发展轨迹,并可以从这些轨迹中识别出细胞演化过程中的关键基因。iTIDR是为了进一步提高推断细胞发展轨迹的准确性和健壮性,基于多粒度聚类的一种集成轨迹推断算法。该算法首先在不同粒度下分别对肿瘤细胞进行聚类并进行细胞发展轨迹推断,然后采用集成策略将不同粒度下的轨迹进行拟合。实验表明,iTIDR的性能高于包括TiC2D在内的现有主要肿瘤细胞轨迹推断算法。