基于多组学整合分析的癌症生物标志物识别算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:bengkuia521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的快速发展,生物组学大数据呈爆发式增长,极大地促进了人们在分子层面对癌症的理解。面对海量的生物组学数据,数据的处理和分析面临着新的挑战。生物组学大数据存在复杂、多层次和信息互补的特点,分析这些数据的一个关键目标是确定可预测表型性状的有效模型,发现重要的生物标志物并阐明其生物功能。生物组学大数据具有多元高维和多源异质的特性,同时数据通常存在着较高的噪声,很多特征是和疾病表型不相关的,并且特征之间存在着冗余性,导致很多传统的数据分析方法难以直接应用于生物组学大数据的分析。降维是克服高维组学数据分析中维度灾难问题的有效方法,可以显著地减少对计算和存储资源的需求。降维是有益的,因为它可以减少模型过度拟合的风险。在后基因组时代,机器学习方法被广泛地应用于生物信息学中的预测建模和数据挖掘。特征选择是一种降维方法,它直接为模型构建选择一组相关特征子集。特征选择方法对高维数据的处理具有有效性和高效性,在生物信息学领域被广泛地应用于识别生物标志物。特征选择方法的主要优点之一是它保留了原始特征集合的物理含义,并提供了更好的模型可读性和可解释性。传统的机器学习方法的数据输入格式是数值类型,如何从生物序列数据中提取有价值的数值特征来构建机器学习模型也是组学大数据分析亟需解决的问题之一。利用机器学习方法识别罕见致病变异有助于阐明复杂疾病性状的分子机理。尽管高通量测序技术能够准确、全面地测量不同分子层次的生物分子特性,但是它们本身都受到每种生物分子在生物系统中所具有的功能作用的限制。现有的大多数特征选择算法都是针对单一数据集设计的,由于不同的组学数据来源于不同的测量方法,使得不同的组学数据拥有不同的数据分布情况,直接合并多组学数据将会进一步增加数据的维度并且降低数据的信噪比。因此,有效的多组学数据整合分析方法可以更好地利用海量的生物组学大数据来实现由数据驱动的生物医学研究,促进人们对疾病发生发展机理的理解,并可以为疾病的早期发现、预防和辅助治疗提供新策略。具体而言,本文的主要研究内容如下:1.针对乳腺癌组织学分化度分类问题,提出了一种由四步特征选择过程构成的生物标志物识别算法BioDog,用于识别对乳腺癌组织学分化度具有良好识别能力的甲基化特征子集。BioDog通过采用相关性偏差减少策略来去除冗余特征。通过TCGA乳腺癌患者的组织学类型和组织学分化度特性研究了组织学类型和组织学分化度之间的交叉情况,通过基因突变分析调查了不同组织学分化度下的体细胞突变差异情况。性能对比实验表明,BioDog算法优于现有的17种生物标志物识别算法。2.针对乳腺癌分子分型分类问题,提出了一种高效的基于逻辑回归方法的多组学数据整合分析算法ELMO,通过四步特征选择过程来整合分析RNA-Seq转录组数据和DNA甲基化数据,用于识别乳腺癌患者的分子分型,实验结果表明,基于多组学整合分析的模型分类效果优于单组学模型,单组学数据集分别进行数据预处理后再整合分析会提升模型性能。性能对比实验表明,ELMO算法优于现有的19种生物标志物识别算法。ELMO选择的42个生物标志物与乳腺癌的不同分子分型具有生物功能关联,并且具有良好的预后预测性能。3.针对罕见变异关联性分析,为了提升现有ZFA算法(Zoom-Focus Algorithm)的计算效率,提出了支持共享内存并行计算的ZFA算法ZfaParallel。此外,还开发了后向特征选择方法用于进一步识别与表型相关的罕见变异,改进了ZFA算法的聚焦搜索方法用以搜索相邻区间。实验结果表明,并行化ZFA算法具有更高的计算效率。4.针对脱氧核糖核酸酶I超敏感位点(DNase I hypersensitive site,DHS)预测问题,对用于识别人类基因组DHS的十种最新计算方法从特征提取方法、特征选择方法、分类方法、预测性能评估方法和实用工具方面做了综合的调研。其次,提出了一种新颖的人类基因组DHS预测模型SeqRefine,使用K-mer特征提取方法来从DNA序列中提取特征,然后通过三步特征选择过程来去除不相关和冗余特征。基于基准数据集的实验结果表明,SeqRefine的预测性能明显优于已发表的人类基因组DHS预测模型。此外,还开发了一种用于DHS预测的用户友好型本地软件。本文致力于应用机器学习方法对生物组学大数据进行预测建模和数据挖掘,从计算方法学的角度探索了生物标志物识别、多组学数据的整合分析方法和构建表型性状预测模型。这些研究可以为生物组学高维数据去除不相关和冗余特征,选取相关特征来构建有效的表型性状预测模型,因此具有重要的应用价值。
其他文献
本文试从福柯的生存美学入手,阐释法国著名思想家福柯建立自我关怀伦理其中所蕴含的基本含义,并希望能从中获得对于当代社会的一点启示。
3D打印是一种增材制造(AM)技术,可从患者自身的医学图像(如计算机断层扫描(CT)和磁共振成像(MRI))重建生成三维模型。3D打印使生产具有高灵活性、高复杂性的以病患为导向的个
无线通信传输是数字信息体系的重要分支,它具有传输速率快、传输安全性高等优势。抗干扰技术是一种高效率的信息传输防护方法,它可有效应对信息传输失效、传输速率低等问题。
在大规模被试评价中,任务完成的准确率一直是评价的主要指标。然而,在各种任务情景中,反映执行者素质的指标除了结果的正确性之外,决策过程的时效性同样是极其重要的。因此,
<正>陈之佛,原名绍本,学名之伟,又名杰.号雪翁, 浙江余姚(今慈溪)人。6岁入私塾,8岁入新学开始接触科学知识和新思想。1916年毕业于浙江省工业专门学校并留校任教。1918年考取
基于SBM-Undesirable模型,对2003—2014年辽宁省14个城市的绿色经济效率(GEE)进行测度,揭示时空分布特征,并运用空间杜宾模型探究GEE及其影响因素的空间溢出效应。研究发现:(
目的:为了解某三甲医院万古霉素与伏立康唑临床实际使用情况,探讨临床药师通过治疗药物监测(Therapeutic drug monitoring,TDM)参与药物治疗管理(Medication Therapy Managem
测定并比较了各种蛋白制品的功能性质 ,在同等添加量的情况下 ,功能性大豆蛋白粉的效果与浓缩蛋白接近 ,可代替浓缩蛋白或分离蛋白用于肉制品中
传统的故障诊断方法存在信息数据容易丢失、故障排查可靠性差以及效率低等问题,已难以满足现代电网复杂的电力用户用电采集系统需求。为此,提出了电力用户用电采集系统故障诊