基于多组学数据的癌症分型研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:a285074984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
同一种癌症类型的患者表现性状不同,隶属不同的亚型,为每一个患者制定个性化的治疗方案是非常必要的,因此癌症的分型研究对于提高癌症的治愈率具有重要意义。随着新一代基因组技术的快速发展,癌症基因组学数据大量积累,为人们全方位多层次的发掘癌变机制创造有利条件,但是样本少,维度高的数据特征始终是分子技术层面研究癌症的重大挑战。本文基于数据挖掘的分析方法从分子层面定义了两种癌症的亚型,构建了癌症亚型的预测模型并确定若干种癌症相关的分子标记物,旨在增加癌症治疗的靶向性,为开发新的治疗方案提供帮助。本文选取肝癌和乳腺癌这两种极具代表性的癌症类型作为研究对象。数据均来源于TCGA数据库的癌症多组学数据集,包括基因单碱基突变,DNA甲基化,拷贝数变异,mRNA基因表达以及miRNA基因表达数据。基于绝大部分癌症是由基因突变驱动异常细胞生长引起的这一生物学事实,本文提出一种新的针对多组学数据的癌症分型研究思路,对基因单碱基突变数据和其余四种多组学数据采用了不同分析方法,即从最深层次的基因突变因素开始,分层找出导致不同癌变发生的关键因素,最后通过自定义算法融合两次分型的结果确定癌症最终的亚型数目。本文首先将基因单碱基突变数据构造成三碱基突变矩阵,在此矩阵上进行基于非负矩阵分解算法的突变频谱分析,该分析鉴定了若干个独立的突变特征,发现其中有对应于已发布的致病突变特征,从而定义了两种癌症的若干突变标记物。然后在矩阵分解得到的特征矩阵上应用k-means聚类算法,找出特定突变过程富集的所有样本,为每个样本第一次添加亚型标签,最后通过基于互信息的相关性分析找出与分型相关的三碱基突变组合特征,并做出生物学相关解释。随后对其余的多组学数据进行预处理,包括补齐缺失值,标准化以及特征选取等过程,再借助基于多组学数据联合建模的iClusterPlus工具进行集成聚类,根据最小贝叶斯信息准则确定聚类模型,为样本再一次添加亚型标签,上述过程从多组学数据对癌症发展不同程度的影响考虑,通过不用的聚类方法对相同样本集进行了两次亚型标签的定义,这两次聚类分析中被分到一个中心簇的样本被认为代表了一个亚型类型,所以最后通过自定义算法对两次分型结果融合分析,确定两种癌症最终的分型结果。基因的调控作用导致基因表达量的差异,所以最后本文基于带有最终亚型标签样本的mRNA基因表达数据,构建了癌症亚型的预测模型。首先通过双样本t检验为每种亚型样本集选取标志基因,然后使用机器学习中的分类算法进行预测模型的构建,包括多分类的SVM、随机森林以及本文对原有的二分类BCCP算法进行多分类的扩展等三种算法。对比预测结果的准确性,多分类的BCCP算法性能优于其他两种算法,准确率达到83%以上。最后为了解释每种亚型标志基因的生物功能,进行了基因的通路分析,证明本文的研究方案所识别的亚型标志基因所在的生物通路对癌症发展有重要影响,增加研究结果的现实意义和可信度。癌症的分型研究加深了人们对癌症发展中不同亚型之间异质性的理解,亚型预测模型的建立以及分子标志物的确立也为临床工作者提供一些有效信息。
其他文献
针对Web项目对图表技术的要求不断提高,介绍一种开源的基于Java技术的动态图表开发组件JFreeChart。结合某煤矸石热电厂管理信息系统,具体阐述了如何通过JFreeChart组件构建
根据夹具设计的经验,介绍了定位销设计的方法与步骤,该方法简单、实用、可靠,区别于夹具设计教材上的方法。笔者先根据常用定位销的推荐配合,计算了两定位销允许的中心距公差
随着社会的发展,城市建设步伐的加快,建筑能源消耗将近占全国总能耗的1/3,针对建筑物的能耗节约以及绿色生态技术的研发和利用已逐渐变成近几年来建筑专家研究和实践关注的侧
在1906至1937年间的华北地区,铁路兴起并形成运输网络之后,加速了河南与沿海地区的经贸交流,推动了经济由传统向现代转型。由此,河南棉花的种植模式、运销体系、集散行业等均
该文从语义分析的角度出发,研究了语义分析在翻译中的运用,在语义分析的基础上寻求达到翻译对等效果的翻译技巧和方法。这不仅为翻译实践指出了一条切实可行的道路,对翻译研
锥齿轮可传递相交轴之间的动力和运动,具有传递扭矩大、传递运动精确、可靠性高的特点。随着航空工业的发展,航空齿轮越来越转速高、负载大、重量轻,常产生因齿轮振动过大引
本文在对神经网络了解的基础上,分析了目前化工安全生产评价体系中存在的不足,指出了神经网络在化工安全生产评价体系中应用的优势。
环境质量对人类健康安全至关重要,仅在美国,每年因食源性疾病死亡的人数达5000,其中70%是由致病菌引起的,因此及时检测致病菌是极其必要的。本论文利用共轭聚合物的信号放大
目的分析血钾正常的原发性醛固酮增多症患者的临床特点。方法选择2013-01~2016-12在东莞市中医院确诊的140例原发性醛固酮增多症患者,将其分为低血钾组60例和正常血钾组80例,
根据双圆锥扫描式红外地球敏感器的工作原理,针对卫星姿态测量与控制过程中存在的俯仰角与滚动角的耦合现象,通过建立卫星姿态耦合误差数学模型,推导出卫星姿态测量计算公式,