论文部分内容阅读
目的:随着影像学诊断技术的精准,甲状腺癌发病率逐年增加,其发病率为15.0/10万人。甲状腺癌的预后较好,5-10年生存率达80-95%,然而发生远处转移的患者生存率降到40%左右。目前甲状腺癌的预后研究较少,研究者对于远处转移影响预后状况的关注度不高。由于甲状腺癌发病率高、发生远处转移的患者预后差的特点,本研究选择易发生远处转移的滤泡型甲状腺癌(Follicular thyroid Carcinoma,FTC)患者为研究对象,从SEER数据库中获取其预后数据,应用随机森林算法构建滤泡型甲状腺癌远处转移预测模型,辅助临床医生诊断,改善远处转移患者预后生存状况。方法:通过SEER数据库提供的SEER*Stat软件提取2004-2014年间的滤泡型甲状腺癌患者预后数据。综合参考NCCN指南、AJCC指南、SEER使用指南、CS肿瘤信息采集系统和已有文献,初步筛选出预后相关研究变量,包括社会人口特征:性别、确诊年龄、种族、婚姻状况、居住区域;肿瘤特征:肿瘤大小、患病时长、组织学类型、原位手术、淋巴结手术、肿瘤浸润程度、区域淋巴结转移和多灶性。结局变量为是否发生远处转移。通过删除缺失值、数据转换、数据离散化对数据集进行初步处理后,按照约7:3的比例划分为训练集和测试集。利用SMOTE技术将训练集调整为平衡数据集。基于新训练集应用SPSS20.0选取单因素分析和logistic回归的统计分析方法和应用R studio的随机森林变量重要性的机器学习方法筛选特征变量,而后基于新训练集以随机森林算法构建预测模型。利用测试集,评估预测模型效能并与决策树、人工神经网络算法进行比较,评价指标有G-mean指数、特异度、灵敏度和ROC曲线下面积。结果:初步数据处理后的数据集中包含5278个样本,其中发生远处转移的患者有203例占1/25是不平衡的数据集。经过SMOTE技术调整的新训练集包含5616个样本,阴阳性样本数量基本达到平衡。特征变量筛选后的高相关变量有确诊年龄、肿瘤的浸润程度、肿瘤的大小、区域淋巴结转移和组织学类型。基于随机森林构建的模型G-mean指数和ROC曲线下面积分别为0.767和0.837,优于决策树的0.367和0.565,也优于人工神经网络的0.629和0.75。结论:本研究以滤泡型甲状腺癌患者为研究对象,基于随机森林算法构建远处转移预测模型,G-mean指数和ROC曲线下面积分别为0.767和0.837。通过SMOTE技术对不平衡训练集的调整,明显提高了阳性样本分类正确率。本研究应用的SEER数据库主要是随访数据,在未来的研究中可以加入实验室检查数据等变量,提升模型准确度,从而辅助临床决策。