论文部分内容阅读
随着高通量测序技术的快速发展,生物组学大数据呈爆发式增长,极大地促进了人们在分子层面对癌症的理解。面对海量的生物组学数据,数据的处理和分析面临着新的挑战。生物组学大数据存在复杂、多层次和信息互补的特点,分析这些数据的一个关键目标是确定可预测表型性状的有效模型,发现重要的生物标志物并阐明其生物功能。生物组学大数据具有多元高维和多源异质的特性,同时数据通常存在着较高的噪声,很多特征是和疾病表型不相关的,并且特征之间存在着冗余性,导致很多传统的数据分析方法难以直接应用于生物组学大数据的分析。降维是克服高维组学数据分析中维度灾难问题的有效方法,可以显著地减少对计算和存储资源的需求。降维是有益的,因为它可以减少模型过度拟合的风险。在后基因组时代,机器学习方法被广泛地应用于生物信息学中的预测建模和数据挖掘。特征选择是一种降维方法,它直接为模型构建选择一组相关特征子集。特征选择方法对高维数据的处理具有有效性和高效性,在生物信息学领域被广泛地应用于识别生物标志物。特征选择方法的主要优点之一是它保留了原始特征集合的物理含义,并提供了更好的模型可读性和可解释性。传统的机器学习方法的数据输入格式是数值类型,如何从生物序列数据中提取有价值的数值特征来构建机器学习模型也是组学大数据分析亟需解决的问题之一。利用机器学习方法识别罕见致病变异有助于阐明复杂疾病性状的分子机理。尽管高通量测序技术能够准确、全面地测量不同分子层次的生物分子特性,但是它们本身都受到每种生物分子在生物系统中所具有的功能作用的限制。现有的大多数特征选择算法都是针对单一数据集设计的,由于不同的组学数据来源于不同的测量方法,使得不同的组学数据拥有不同的数据分布情况,直接合并多组学数据将会进一步增加数据的维度并且降低数据的信噪比。因此,有效的多组学数据整合分析方法可以更好地利用海量的生物组学大数据来实现由数据驱动的生物医学研究,促进人们对疾病发生发展机理的理解,并可以为疾病的早期发现、预防和辅助治疗提供新策略。具体而言,本文的主要研究内容如下:1.针对乳腺癌组织学分化度分类问题,提出了一种由四步特征选择过程构成的生物标志物识别算法BioDog,用于识别对乳腺癌组织学分化度具有良好识别能力的甲基化特征子集。BioDog通过采用相关性偏差减少策略来去除冗余特征。通过TCGA乳腺癌患者的组织学类型和组织学分化度特性研究了组织学类型和组织学分化度之间的交叉情况,通过基因突变分析调查了不同组织学分化度下的体细胞突变差异情况。性能对比实验表明,BioDog算法优于现有的17种生物标志物识别算法。2.针对乳腺癌分子分型分类问题,提出了一种高效的基于逻辑回归方法的多组学数据整合分析算法ELMO,通过四步特征选择过程来整合分析RNA-Seq转录组数据和DNA甲基化数据,用于识别乳腺癌患者的分子分型,实验结果表明,基于多组学整合分析的模型分类效果优于单组学模型,单组学数据集分别进行数据预处理后再整合分析会提升模型性能。性能对比实验表明,ELMO算法优于现有的19种生物标志物识别算法。ELMO选择的42个生物标志物与乳腺癌的不同分子分型具有生物功能关联,并且具有良好的预后预测性能。3.针对罕见变异关联性分析,为了提升现有ZFA算法(Zoom-Focus Algorithm)的计算效率,提出了支持共享内存并行计算的ZFA算法ZfaParallel。此外,还开发了后向特征选择方法用于进一步识别与表型相关的罕见变异,改进了ZFA算法的聚焦搜索方法用以搜索相邻区间。实验结果表明,并行化ZFA算法具有更高的计算效率。4.针对脱氧核糖核酸酶I超敏感位点(DNase I hypersensitive site,DHS)预测问题,对用于识别人类基因组DHS的十种最新计算方法从特征提取方法、特征选择方法、分类方法、预测性能评估方法和实用工具方面做了综合的调研。其次,提出了一种新颖的人类基因组DHS预测模型SeqRefine,使用K-mer特征提取方法来从DNA序列中提取特征,然后通过三步特征选择过程来去除不相关和冗余特征。基于基准数据集的实验结果表明,SeqRefine的预测性能明显优于已发表的人类基因组DHS预测模型。此外,还开发了一种用于DHS预测的用户友好型本地软件。本文致力于应用机器学习方法对生物组学大数据进行预测建模和数据挖掘,从计算方法学的角度探索了生物标志物识别、多组学数据的整合分析方法和构建表型性状预测模型。这些研究可以为生物组学高维数据去除不相关和冗余特征,选取相关特征来构建有效的表型性状预测模型,因此具有重要的应用价值。