基于随机森林构建滤泡型甲状腺癌远处转移预测模型

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:znchen1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:随着影像学诊断技术的精准,甲状腺癌发病率逐年增加,其发病率为15.0/10万人。甲状腺癌的预后较好,5-10年生存率达80-95%,然而发生远处转移的患者生存率降到40%左右。目前甲状腺癌的预后研究较少,研究者对于远处转移影响预后状况的关注度不高。由于甲状腺癌发病率高、发生远处转移的患者预后差的特点,本研究选择易发生远处转移的滤泡型甲状腺癌(Follicular thyroid Carcinoma,FTC)患者为研究对象,从SEER数据库中获取其预后数据,应用随机森林算法构建滤泡型甲状腺癌远处转移预测模型,辅助临床医生诊断,改善远处转移患者预后生存状况。方法:通过SEER数据库提供的SEER*Stat软件提取2004-2014年间的滤泡型甲状腺癌患者预后数据。综合参考NCCN指南、AJCC指南、SEER使用指南、CS肿瘤信息采集系统和已有文献,初步筛选出预后相关研究变量,包括社会人口特征:性别、确诊年龄、种族、婚姻状况、居住区域;肿瘤特征:肿瘤大小、患病时长、组织学类型、原位手术、淋巴结手术、肿瘤浸润程度、区域淋巴结转移和多灶性。结局变量为是否发生远处转移。通过删除缺失值、数据转换、数据离散化对数据集进行初步处理后,按照约7:3的比例划分为训练集和测试集。利用SMOTE技术将训练集调整为平衡数据集。基于新训练集应用SPSS20.0选取单因素分析和logistic回归的统计分析方法和应用R studio的随机森林变量重要性的机器学习方法筛选特征变量,而后基于新训练集以随机森林算法构建预测模型。利用测试集,评估预测模型效能并与决策树、人工神经网络算法进行比较,评价指标有G-mean指数、特异度、灵敏度和ROC曲线下面积。结果:初步数据处理后的数据集中包含5278个样本,其中发生远处转移的患者有203例占1/25是不平衡的数据集。经过SMOTE技术调整的新训练集包含5616个样本,阴阳性样本数量基本达到平衡。特征变量筛选后的高相关变量有确诊年龄、肿瘤的浸润程度、肿瘤的大小、区域淋巴结转移和组织学类型。基于随机森林构建的模型G-mean指数和ROC曲线下面积分别为0.767和0.837,优于决策树的0.367和0.565,也优于人工神经网络的0.629和0.75。结论:本研究以滤泡型甲状腺癌患者为研究对象,基于随机森林算法构建远处转移预测模型,G-mean指数和ROC曲线下面积分别为0.767和0.837。通过SMOTE技术对不平衡训练集的调整,明显提高了阳性样本分类正确率。本研究应用的SEER数据库主要是随访数据,在未来的研究中可以加入实验室检查数据等变量,提升模型准确度,从而辅助临床决策。
其他文献
在小学语文教学实践中,随文练笔是提高学生语言文字运用能力的有效方法与途径。但在教学实践中,随文练笔却常常难以达到预期效果。随文练笔的实效取决于训练点的发掘和组织,
本文通过对目前主流的文字冒险游戏流程进行分析,以独立创作的模式,将印度经典史诗《摩诃婆罗多》作为故事背景,以橙光游戏文字中心为平台,对独立创作文字冒险游戏的模式进行
2011年,是"十二五"开局之年。这一年,全国应届高校毕业生达660万,对即将面临毕业和正在积极求职的毕业生而言,"十二五"期间,国家的政策有哪些新调整?透露着怎样的信息?实现就
面对资源约束与生态环境破坏的双重压力以及经济发展与社会稳定的双重需要,优化国土空间开发格局已成为中国经济社会可持续发展的重要任务。土地利用作为国土空间开发的核心
随着船舶动力系统增加,船舶主机缸套中水温控制的滞后性对动力系统的破坏性增强,传统的主机缸套冷却控制已经不能满足现代船舶动力系统温度控制的精度要求,需要更加智能化的
再次肝移植是挽救不可逆移植肝功能衰竭的唯一有效手段。自第一例肝移植手术成功实施以来,再次肝移植一直是移植医生面临的一项重要挑战。我国肝移植事业经历了20多年的蓬勃
<正> 新加坡儿童教育专家考察了马来人社区后,发现马来人十分重视孩童的早期教育。专家们根据幼儿教育理论,结合马来人社区的幼儿教育实例,指出家庭是儿童的图书馆。孩童可以
<正>苏格拉底习惯到热闹的雅典市场上去发表演说和与人辩论问题。他同别人谈话、辩论、讨论问题时,往往采取一种与众不同的形式。 这一天,苏格拉底像平常一样,来到市场上。
为贯彻落实党的十八大精神,推动实现更高质量的就业,加快推进大学生就业信息化工作,教育部高校学生司、就业指导中心等有关职能部门拟以教育部金教工程、科技部国家级科技支