论文部分内容阅读
近年来,随着高通量测序技术的发展,积累了海量的同一批样本的多组学数据,包括基因组学、表观遗传学、转录组学等。对于这些组学数据的深入整合分析能够从多个分子层面对疾病(尤其是肿瘤)进行结构化地观测和描述,从而实现患者全面的分子分型,促进精准医学的发展,在生物标志物发现方面也有广阔的应用前景。然而现有的多组学整合方法受限于组学数据之间高度不平衡的数据维度和尺度差异,以及生物信息数据在测量过程中产生的高噪音,难以准确评估各个数据源的关联关系和重要程度。因此,本文主要提出了一种创新的多组学数据整合方法,基于高阶路径的相似度网络融合模型(HOPES)。HOPES方法为每个不同组学数据都构造一个相似度网络,并且根据递增的连通路径模式逐步将所有的局部相似度网络融合成一个全局相似度网络。递增的连通路径模式主要是逐渐增强各个组学来源之间的一致性约束,层次递进的增量目标能够同时将单一数据源的特异性和多个数据源之间的共性列入考虑。HOPES得到的全局相似度矩阵为样本之间的关联关系提供了多维度的视角,矫正了单一数据源中的信息缺失和错误,能够精准地进行聚类。同时,针对全局相似度矩阵的下游分析,本文采用了基于谱聚类的一致性聚类算法,以及基于l1正则化回归的特征选择方法将全局的相似度矩阵回溯到原始的组学特征。HOPES的效果在模拟数据集和TCGA的5个真实癌症项目数据上都得到了充分地验证。模拟数据集中,HOPES在与多个主流方法的对比中实现了最高的聚类精度和稳定性,表明其在多组学数据中挖掘全局聚类结构的能力较强,同时具有良好的鲁棒性。真实数据集中HOPES不仅成功将患者划分成了生存情况具有显著差异的不同分型,并且基于HOPES计算的全局相似度,本文定位了一系列基因、甲基化位点、miRNA位点。这些备选的生物特征不仅具有极高的预后价值,而且在GO富集分析和KEGG通路分析中显著富集于癌症相关的生物过程,验证了其生物学上的意义。综上所述,本文所提出的HOPES方法能够结合多个组学来源的信息,精准稳定地实现全局结构的学习,且在癌症相关的临床任务上有着优异的表现,不仅有望实现癌症精准的分子分型,同时为潜在生物标志物的定位提供了全新的思路。