论文部分内容阅读
原发灶不明恶性肿瘤(Cancer of unknown primary,CUP)是指无法确定原发位置的转移性肿瘤。肿瘤的转移是指肿瘤细胞从原发位置通过侵入循环系统,转移到其他身体部位并继续生长的过程。找到CUP原发位置有助于确定更有效的治疗方案,对于改善患者的预后具有重要的意义。传统的检测手段包括临床、影响和病理检查等,仅能确定50%~80%患者的原发位置,剩余20%~50%的患者仍然无法确定原发灶,亟待更有效的手段出现。DNA甲基化是一种重要的基因修饰方式,甲基化水平具有组织特异性,有助于确定肿瘤的原发位置。机器学习算法可以从大量的甲基化数据中发现规律,依此对未知的样本进行分类,因此适用于甲基化肿瘤溯源问题。本研究通过对比和评估,选取合适的甲基化特征和机器学习模型构建了肿瘤溯源分类器。首先,本文收集了TCGA数据库中31种肿瘤的450K甲基化数据,进行数据过滤和特征筛选后,使用主成分分析、非负矩阵分解和奇异值分解三种方法进行了降维,然后使用8种机器学习模型(LASSO、神经网络、随机森林、支持向量机、线性判别、K近邻、决策树、朴素贝叶斯)分别构建了分类器并进行了评估。我们发现LASSO和神经网络的分类效果最好,在5折交叉验证中分别达到了96.77%和96.76%的精确度。我们使用来自GEO的10种癌症甲基化数据对前文训练的模型进行了评估,发现LASSO在独立测试集上取得了91.97%的精确度,验证了模型的效果。在此基础上,本研究对比了甲基化水平、基因表达水平(mRNA)、小RNA(miRNA)和长链非编码RNA(lncRNA)作为特征集建立LASSO分类器的精确度,发现甲基化水平训练的分类器效果最好。为了改进模型,筛选出分类能力最强的探针集合,提高训练效率,本文提出了一种新的探针排序方式——Maximum F-statistic Maximum Distance(MFMD),该方法将探针的F统计量和与其余探针的平均欧氏距离进行加权平均。根据MFMD排序的前5000个探针建立的LASSO精度达到了95.05%。基于前文构建的8种分类器,我们搭建了甲基化肿瘤溯源平台CUPtracer(http://cuptracer.i-sanger.com/)。CUPtracer基于web.py框架搭建,提供了常用甲基化分析软件结果的格式转换工具和邮件提醒服务。CUPtracer所有模型的参数均已进行优化,用户无需对参数进行设置。CUPtracer为没有编程基础的研究者提供了便捷的肿瘤溯源分析途径。总之,本研究使用甲基化数据构建了准确度较高的CUP肿瘤溯源分类器,并搭建了甲基化肿瘤溯源平台,为今后的CUP研究提供了思路和工具。