论文部分内容阅读
随着高通量测序技术的迅猛发展和测序成本的持续降低,海量的生物医学大数据呈现爆炸式增长,这给我们带来了机遇和挑战——如何挖掘这些海量数据背后的生物学意义。这篇博士论文主要目标是发展基于多种不同维度组学数据的整合策略来分析生物医学大数据,揭示肿瘤发生,发展和转移的机制,以期发现肿瘤中新的诊断和预后标记以及治疗靶点。论文共分为四章。第一章,引导和概述第二章,我们发展了可用于RRBS基准化分析的模拟器,RRBSsim。通过利用肺癌实际RRBS数据和模拟产生的数据,我们全面综合地评估了 7个RRBS的比对算法。我们的结果表明bwa-meth和BS Seeker2(bowtie2)的分析功效、准确性以及效率较高。同时,我们也发现了不同RRBS工具结果不一致的CpGs具有测序深度低,中等程度甲基化的特征或者其主要位于CpG岛岸和基因体内。因此,当前的RRBS工具并不能有效的分析这些CpGs,需要我们谨慎解读这些CpGs背后的生物学知识。我们的研究结果不仅可以帮助生物学家通过RRBS分析获得可靠的生物有关的预测结果,还可以为之后开发更加强大高效的RRBS工具提供强有力的指导和建议。第三章,我们首次利用RRBS分析了 了肺癌中单碱基水平的甲基化图谱特征。在我们的研究中,共鉴定9,234个DMRs,其中非小细胞肺癌中高甲基化DMRs 4,410个,低甲基化DMRs4,824个。利用我们发展的甲基化驱动基因筛选方法,我们发现了 8个新的甲基化驱动候选基因(PCDH17、IRX1、ITGA5、HSPB6、TBX5、ADCY8、GALNT13和TCTEX1D1)。TCGA数据和独立样本数据也证实了这8个基因在非小细胞肺癌中异常高甲基化。在肺癌细胞株中,其中5个基因(PCDH17、TCTEX1D1、GALNT13、ITGA5 和 HSPB6)的高甲基化可以被去甲基化药物5-氮杂-2’-脱氧胞苷(5-Aza-CdR)所逆转,表明这些基因的表达抑制是由于其基因启动子区域高甲基化。此外,我们也进一步证实了 PCDH17基因调控细胞增殖,与肿瘤形成发生发展有关。我们的研究结果获得了新的非小细胞肺癌差异甲基化区域以及甲基化驱动基因,为非小细胞肺癌中甲基化诊断标记物的筛选以及去甲基化治疗药物的开发提供了资源和基础。第四章,基于TCGA的泛癌肿瘤测序大数据,我们发展了生物信息学方法来鉴定和量化肿瘤组织中的内源性tRNA来源的小RNA片段(即tRFs)。通过收集TCGA中15种肿瘤小RNA测序数据,共8,118份测序样本,我们系统地鉴定了肿瘤组织中的内源性tRFs,揭示了 tRFs的基本生物学特性(包括表达模式、序列保守性、质核定位、剪切特异性、组织和细胞特异性等)。交叉肿瘤横向分析结果显示不同肿瘤类型的tRF表达亚型存在共性特征:例如,相比其它超级分子亚型,在3’-tRFs supercluster2中(由来自14个不同肿瘤类型分子亚型构成),一类22nt3’-tRF标签表达显著上调以及Ras/MAPK,RTK和TSC/mTOR等肿瘤信号激活。tRF分子亚型具有临床预后诊断意义,通过整合已有的临床决策变量可以显著提高病人的预后预测。此外,我们利用泛癌分析平台鉴定了 11个超级肿瘤驱动tRFs,并着重验证了肺癌中tRNA来源的小RNA片段5’-IleAAT-20在临床诊断和预后中的意义。这些结果为深刻理解tRFs在肿瘤的分子机制提供了宝贵素材并为癌症诊治提供新的诊断、预后和作用靶点。