论文部分内容阅读
同一种癌症类型的患者表现性状不同,隶属不同的亚型,为每一个患者制定个性化的治疗方案是非常必要的,因此癌症的分型研究对于提高癌症的治愈率具有重要意义。随着新一代基因组技术的快速发展,癌症基因组学数据大量积累,为人们全方位多层次的发掘癌变机制创造有利条件,但是样本少,维度高的数据特征始终是分子技术层面研究癌症的重大挑战。本文基于数据挖掘的分析方法从分子层面定义了两种癌症的亚型,构建了癌症亚型的预测模型并确定若干种癌症相关的分子标记物,旨在增加癌症治疗的靶向性,为开发新的治疗方案提供帮助。本文选取肝癌和乳腺癌这两种极具代表性的癌症类型作为研究对象。数据均来源于TCGA数据库的癌症多组学数据集,包括基因单碱基突变,DNA甲基化,拷贝数变异,mRNA基因表达以及miRNA基因表达数据。基于绝大部分癌症是由基因突变驱动异常细胞生长引起的这一生物学事实,本文提出一种新的针对多组学数据的癌症分型研究思路,对基因单碱基突变数据和其余四种多组学数据采用了不同分析方法,即从最深层次的基因突变因素开始,分层找出导致不同癌变发生的关键因素,最后通过自定义算法融合两次分型的结果确定癌症最终的亚型数目。本文首先将基因单碱基突变数据构造成三碱基突变矩阵,在此矩阵上进行基于非负矩阵分解算法的突变频谱分析,该分析鉴定了若干个独立的突变特征,发现其中有对应于已发布的致病突变特征,从而定义了两种癌症的若干突变标记物。然后在矩阵分解得到的特征矩阵上应用k-means聚类算法,找出特定突变过程富集的所有样本,为每个样本第一次添加亚型标签,最后通过基于互信息的相关性分析找出与分型相关的三碱基突变组合特征,并做出生物学相关解释。随后对其余的多组学数据进行预处理,包括补齐缺失值,标准化以及特征选取等过程,再借助基于多组学数据联合建模的iClusterPlus工具进行集成聚类,根据最小贝叶斯信息准则确定聚类模型,为样本再一次添加亚型标签,上述过程从多组学数据对癌症发展不同程度的影响考虑,通过不用的聚类方法对相同样本集进行了两次亚型标签的定义,这两次聚类分析中被分到一个中心簇的样本被认为代表了一个亚型类型,所以最后通过自定义算法对两次分型结果融合分析,确定两种癌症最终的分型结果。基因的调控作用导致基因表达量的差异,所以最后本文基于带有最终亚型标签样本的mRNA基因表达数据,构建了癌症亚型的预测模型。首先通过双样本t检验为每种亚型样本集选取标志基因,然后使用机器学习中的分类算法进行预测模型的构建,包括多分类的SVM、随机森林以及本文对原有的二分类BCCP算法进行多分类的扩展等三种算法。对比预测结果的准确性,多分类的BCCP算法性能优于其他两种算法,准确率达到83%以上。最后为了解释每种亚型标志基因的生物功能,进行了基因的通路分析,证明本文的研究方案所识别的亚型标志基因所在的生物通路对癌症发展有重要影响,增加研究结果的现实意义和可信度。癌症的分型研究加深了人们对癌症发展中不同亚型之间异质性的理解,亚型预测模型的建立以及分子标志物的确立也为临床工作者提供一些有效信息。