四种机器学习分类方法在乙肝相关肝癌诊断中的应用和比较

来源 :郑州大学 | 被引量 : 0次 | 上传用户:weiqier1110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的医疗诊断是医生综合患者的症状体征和多种检查信息进行决策和判断的过程,其本质为分类。肝癌是我国最常见的恶性肿瘤之一,早期肝癌患者临床症状和各类检查的特征均不明显,因此难以筛查和诊断。本研究尝试使用机器学习中Logistic回归、加权k近邻、决策树、BP人工神经网络四种分类方法分别构建基于血清学指标的早期肝癌的诊断模型,比较模型的诊断效能,评估四种诊断模型的肝癌筛查价值和辅助临床医生进行早期诊断的可行性。比较四种分类方法的算法特点,探索每种方法在临床数据分析中合适的应用场景。方法选择2010年1月至2018年12月解放军总医院第五医学中心收治的5642例慢性乙型肝炎病毒感染者为研究对象,其中慢性乙型肝炎患者1425例,代偿期肝硬化患者567例,失代偿期肝硬化患者731例,肝癌患者2919例。2919例肝癌患者中符合米兰标准的有808例,定义为早期肝癌患者。本研究只关注早期肝癌,因此研究总样本为3531例。使用分层抽样的方法按照7:3的比例将总样本分为训练集和测试集。训练集中使用Logistic回归、加权k近邻、决策树、BP人工神经网络分别构建早期肝癌的诊断模型,并得到相应模型的最佳参数,然后将构建的模型在测试集中进行验证。受试者工作特征曲线下面积(AUROC)、灵敏度、特异度、准确率等指标用来比较模型在训练集和测试集中早期肝癌的诊断效能。为了更稳健地评价四种分类方法的诊断效能、稳定性、泛化能力,每种分类方法均进行10折交叉检验。结果训练集中Logistic回归、加权k近邻、决策树、BP人工神经网络诊断肝癌的灵敏度分别为48.94%、79.68%、47.53%、69.78%;特异度分别为95.23%、98.95%、97.90%、96.96%;准确率分别为 84.63%、94.54%、86.36%、92.42%;AUROC 分别为 0.721、0.893、0.727、0.834。测试集中 Logistic 回归、加权 k 近邻、决策树、BP人工神经网络诊断肝癌的灵敏度分别为46.69%、38.84%、45.45%、62.40%;特异度分别为 94.61%、90.33%、97.06%、93.88%;准确率分别为 83.66%、78.56%、85.27%、86.69%;AUROC 分别为 0.707、0.646、0.713、0.781。10折交叉检验结果为:训练集中BP人工神经网络模型的错误率的均值和标准差为10.50±0.43,低于决策树的13.34±0.90、加权k近邻的13.52±0.22和Logistic回归的16.28±0.39,差异均有统计学意义。决策树与加权k近邻的AUROC相当(P>0.05)但二者均高于Logistic回归(P<0.05)。测试集中BP人工神经网络模型的错误率均值和标准差为13.74±2.17,低于决策树的15.12± 1.13、加权 k 近邻的 17.57±1.80 和 Logistic 回归的 16.56±0.28,差异均有统计学意义。决策树的AUROC高于加权k近邻和Logistic回归(P<0.05)。加权k近邻和Logistic回归的AUROC相当(P>0.05)。BP人工神经网络、加权k近邻、决策树的AUROC均高于在测试集(P<0.05)。Logistic回归模型的AUROC在训练集和测试集中无差异(P=0.589)。结论BP人工神经网络模型在训练集中表现出最好的肝癌诊断效能,且在测试集中表现最稳定,因此有着很强的临床应用潜能。BP人工神经网络模型算法相对复杂,影响模型拟合的关键参数,即隐含层的节点数量以及泛化能力等指标均需要主观输入,此外BP人工神经网络还有较强的过拟合风险。加权k近邻和决策树模型拟合过程不易受样本量大小以及变量的类型、分布、缺失的影响。加权k近邻无法进行析因分析,决策树有一定的析因能力,决策树中用于对节点进行分类的变量与肝癌有较强的相关性。决策树能输出树形图和分类规则,结果容易被临床医生理解和应用。Logistic回归适用于析因分析,它能够剔除混杂变量并筛选出有限肝癌相关变量,它构建的模型能通过简洁的数学解析式表达便于临床应用,当观测变量太多时,Logistic回归难以解决共线性问题。
其他文献
《普通高中地理课程标准(2017年版)》提出了地理学科核心素养,培养学生的地理综合思维素养是学者和一线教师研究和实践的重要任务。传统的地理大专题教学课堂以老师讲解为主,学生们被动地接受老师灌输的知识,往往使得课堂效率低下,不能适应新课改对学生应有地理学科能力和素养的要求。面对这种学习形势,微专题教学作为一种常用于突破重难点的教学方式,有利于学生综合思维的提升。本文以微专题教学为研究对象,以高中地理
如今困扰社会发展的主要问题是日益严重的污染和日益紧缺的资源。超级电容器是一种新式的能量储存设备,它包括电容器快速充放电的性质也包括电池能量储存的性质,使得超级电容器步入公众视线。超级电容器的性能好与坏由电极材料决定,因此超级电容器的研发热门一直以来集中在对电极材料的制备和改性方面。本文也立足于现在的研究热点,经过不断的实验与测试本工作取得了有效成果,成功制备了三种性能优良的电极材料并对他们的电化学
高压CO_2气体运输目前有船舶和管道两种运输方式,如果需要长途运输,采用管道运输方式效率会大幅提高,但管道运输方式存在较大隐患,如果CO_2气体在封闭且人口稠密的环境里发生泄漏,就会有极大可能性对处于高浓CO_2区域的生物造成重大伤害。在研究气体泄漏问题的相关领域内,国内外发展程度差距较大,国外遥遥领先于国内,虽然扩散模型已形成较为成熟的理论体系,但不同特性的气体适应不同的扩散模型。对于CO_2气
马克思主义基本理论是由多种分论构成的统一整体,具有典型的系统性和整体性特征,马克思共同体思想即为其中一个有机构成部分,其以历史唯物主义为问题分析切入点,以此对人类社会发展的基本规律展开全面解读。共同体思想则是马克思在分析人的自由、发展时的理论支撑。马克思本人并非共同体思想理论的提出者,城邦与契约共同体(古希腊)及德国的空想社会主义等才是马克思共同体思想的源头所在。共同体思想历经了三个发展阶段,即萌
经过近十年的发展,钙钛矿太阳能电池的效率由2009年的3.8%提升到现在的24.2%,且具有千小时级的稳定性;蓝、绿和红光钙钛矿LED均具有很高的荧光量子产率并已分别实现5.7%、~20%
“X来”类复合趋向补语表义丰富、结构多变,是对外汉语教学中的重难点。本文以二语习得理论和三个平面语法理论为基础,结合复合趋向补语本体研究及对外汉语教学研究的优秀成
目的:本研究以颈型颈椎病患者为研究对象,以穴位触诊反应、穴位温度变化和穴位机械痛阈变化为观察指标,分析不同经络辨证分型的颈型颈椎病患者穴位敏化现象的表现形式、分布
目的:探讨白介素-33(Interleukin-33,IL-33)对慢性根尖周炎破骨细胞生成及骨吸收功能的影响,研究IL-33在破骨细胞形成过程中的关键调控和分子机制,并进一步证明IL-33在慢性根尖周炎骨吸收机制中的作用。方法:1、测定IL-33对小鼠前破骨细胞RAW264.7细胞增殖和分化的影响。应用100ng/ml IL-33作用RAW264.7细胞,并于诱导1.5h、3h、6h、1d、2d
对性的认知需求是幼儿身心发展过程中自然产生的一种需要。顺应幼儿的身心发展规律,对幼儿进行适当的性教育十分必要的,这会为儿童的性发展打下基础。近年来,由于以学龄前儿童为对象的性侵犯案件屡见不鲜,倒逼着家长、教育者等社会各方思考开展幼儿性教育的迫切性。幼儿园作为专业的教育机构,应与家庭一起承担起对幼儿进行性教育的责任。而适合幼儿阅读的优秀绘本,则是幼儿园开展教育活动的主要资源。因此,以优秀的性教育主题
卷云的物理特性对研究卷云的辐射强迫具有重要意义。CloudSat和CALIPSO (Cloud-Aerosol Lidar and Infrared Pathfinder Satellite Observations)属于A-train卫星观测系统成