基于流行病学、临床症状、肿瘤标志和影像学特征的肺癌诊断模型的建立

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ggqfighter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肺癌是一种涉及了基因和表观遗传改变的复杂疾病,是世界范围内癌症死亡的主要原因。近年来,中国地区的肺癌发病率较前明显增加,成为一个重大的公共卫生挑战。尽管随着医疗水平的提高和临床药物应用的发展,肺癌的治疗效果得到有效的改善,但是晚期肺癌患者的生存率和总体预后仍然在相对较低的水平。因此,提高早期诊断效率是改善肺癌患者预后的关键。流行病学表明肺癌和吸烟有强大的统计学关联。据估计,全世界有12.5亿烟民,每年超过一百万人死于烟草导致的肺癌。吸烟与肺癌的发生发展密切相关,85%的肺癌与吸烟有关,并且2年生存率<10%。美国肺癌筛查中心推荐对吸烟史>30年包,且禁烟<15年的患者进行肺癌筛查。肿瘤标志是反映存在于肿瘤中的生物化学物质。它们不存在于正常成人组织中,或只存在于胚胎组织。它们在肿瘤组织中的含量显著超过正常组织。它们量或质的改变也许预示了肿瘤的本质,以便了解肿瘤组织、细胞分化和细胞功能,并帮助进行肿瘤的诊断、分类、判断预后和治疗。然而,单一肿瘤标志检测的敏感性和特异性通常低于由不同特性、敏感性和互补性的多个肿瘤标志组成的肿瘤标志群。因此,目前多采用多种肿瘤标志联合诊断来提高早期肺癌的检测。影像学是临床肺癌诊断的一种重要的方法。但是低灵敏度的X线片也是肺癌诊断延误的主要原因。近来,在美国肺癌筛查试验研究表明,在肺癌高危人群中进行低剂量CT扫描相比X线降低了20%肺癌死亡率。因此,这项检查被美国预防服务中心、美国癌症协会和其他咨询机构推荐。现在,低剂量CT被用于高度怀疑肺癌患者的检测,而且拥有高度敏感性来帮助发现和确定早期肺癌。然而,CT对肺癌诊断的特异度太差。肿瘤标志比动态CT成像表现出较低的敏感度,而特异性高于CT扫描。因此,CT成像扫描结合肿瘤标志能够有助于区分肺癌与良性肺疾病。数据挖掘技术作为建模工具已经证明了其从多个来源吸收信息并精确分析及建立复杂模型的能力。现在,许多研究将肿瘤特征同数据挖掘技术结合来诊断肿瘤。尽管肺癌诊断有很多因素并且它们之间有复杂的关系,数据挖掘技术能够学习不能通过数学方法描述的模糊评价,并且能够解决一些复杂的、不确定和非线性问题,特别是当面对大样品、多媒体、多变量时,数据挖掘技术在解决非线性和未知数据分布问题上显示了更优秀的能力。目的:本研究在课题组前期成果的基础上,将血清肿瘤标志与流行病、临床症状、影像学特征联合,利用数据挖掘技术来建立肺癌-肺良性疾病辅助诊断模型,以期进一步提高肺癌诊断的准确率,并为肺癌诊断提供参考和辅助方法,改善肺癌患者的生存率和预后。方法:1.收集2014年10月至2016年3月郑州大学第一附属医院呼吸内科423例住院患者的血清学标本并测定血清肿瘤标志水平。从住院医师或主治医师修改并完成的住院病历中提取住院患者的流行病学和临床信息。包括性别、年龄、吸烟史、饮酒史、家族史(肿瘤方面);是否咳嗽、咳痰、痰中带血、乏力、发热出汗、声音嘶哑。2.使用Fisher判别分析和Logistic回归分析方法对血清肿瘤标志、流行病学和临床症状指标进行筛选优化。3.将筛选优化后指标通过数据挖掘技术(ANN、SVM、决策树C5.0)和Fisher判别分析建立肺癌诊断模型。4.同时收集423例患者的CT影像学资料,并根据病例的纳入和排除标准选取其中214例患者的CT影像作为研究对象。5.请3位高年资呼吸科主治医师分别对214例患者的CT影像进行判断,提取19项特征并评分。各个影像学特征的最后评分取3位医师的平均分。6.将提取的19项影像学指标通过Fisher判别分析和Logistic逐步回归分析的方法来筛选优化,并通过数据挖掘技术(ANN、SVM、决策树C5.0)和Fisher判别分析建立肺癌诊断模型。7.采用Fisher判别分析和Logistic逐步回归分析的方法对血清肿瘤标志、流行病及临床症状、CT影像学特征一系列指标进行筛选优化并通过数据挖掘技术(ANN、SVM、决策树C5.0)和Fisher判别分析建立肺癌诊断模型。结果:1.肿瘤标志联合流行病学及临床指标建立的各模型对预测集预测结果的灵敏度、特异度、准确度、阳性预测值和阴性预测值和AUC要明显高于单独肿瘤标志建立的各模型。2.肿瘤标志、流行病学、临床症状指标建立的模型中,ANN模型的的灵敏度、特异度、准确度、阳性预测值和阴性预测值和AUC均高于其他3种模型,ROC曲线下面积对比差异有统计学意义(P<0.05)。3.肿瘤标志和流行病学及临床症状联合后各组指标建立的ANN模型之间AUC差异无统计学意义,但10种肿瘤标志和流行病学及临床症状全部Logistic逐步回归分析优化后的13项指标,即年龄、性别、吸烟史、咳痰、痰中带血、发热出汗和DNMT3B、DNMT1、HDAC1、胃泌素、NSE、CEA和钙离子,建立的ANN模型训练集准确度为100%,预测集准确度为94.33%,特异度95.5%,阳性预测值93.8%,均高于其他模型。4.Logistic逐步回归分析筛选出的空洞征、棘突征和气管狭窄3个变量建立的SVM模型对预测集预测结果的灵敏度为92.3%、特异度81.8%、准确度86.9%、阳性预测值90.6%、阴性预测值91.8%、AUC 0.857。5.将血清肿瘤标志、流行病学、临床症状、影像学联合,利用Logistic逐步回归分析筛选出16项指标建立的SVM模型对肺癌预测结果的特异度、准确度、阳性预测值、AUC分别为95.5%、97.2%、95.4%、0.969,灵敏度和阴性预测值为99.0%和95.4%。6.血清肿瘤标志、流行病学、临床症状、影像学指标联合建立的SVM和决策树C5.0模型对肺癌诊断效能优于单独影像学建立的SVM模型和决策树C5.0模型,AUC相比差异有统计学意义(P<0.05)。结论:1.用Fisher判别分析和Logistic逐步回归分析分别对流行病学、临床症状和血清肿瘤标志指标进行筛选优化,优化后的指标联合建立肺癌ANN诊断模型,其灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC明显高于单纯血清肿瘤标志联合建立的数据挖掘模型,能够更好的对肺癌进行临床辅助诊断。2.Logistic回归分析筛选出的空洞征、棘突征和气管狭窄3个变量建立的SVM肺癌诊断模型可作为肺癌临床影像学诊断的一种方法。3.血清肿瘤标志、流行病学、临床症状、影像学指标联合建立的SVM模型和决策树C5.0模型对肺癌诊断效能优于单独影像学建立的SVM模型和决策树C5.0模型,可作为肺癌临床辅助诊断的一种优选方法。
其他文献
随着我国工业化和城镇化的持续加速发展,我国对供热的需求逐步增长。热电联产机组由于能提高能源利用效率,优化能源结构而成为城市工业主要供热热源,并以大型区域供热锅炉为中心,淘汰附近分散小型锅炉,逐步形成以“燃煤热电联产+大型锅炉房+其它清洁(或可再生)能源供热”的供热格局。为进一步提高热电联产集中供热系统的能源利用率,更好地发挥该系统在提高企业的生产率、降低生产成本的特点,还兼顾热电机组配置蓄热、储能
国有土地上房屋征收,价格谁来定?怎么定?关系到被征收人的切身利益。住房和城乡建设部6月3日颁布了《国有土地上房屋征收评估办法》,对规范房屋征收评估活动,保证评估结果客
目的:回顾性分析青岛大学附属医院儿童重症医学科多重耐药菌感染患儿的临床特点,感染多重耐药菌的高危因素,及多重耐药菌的耐药性,旨在了解儿童重症医学科多重耐药菌的感染现
网络直播行业经历了2016年千播大战、2017年行业洗牌、2018年争相上市,行业集中度加速提升,行业发展全面进入成熟调整期。当前,武汉市网络直播行业由热转冷,用户红利消退,发
<正>近年来,传统媒体遭遇挑战,一些问题抛在了传统媒体人面前:传统媒体人应该往何处去?传统媒体人到底还有没有价值,价值又在哪里?私家车泛滥的年代,专职司机还有没有存在的
本文以苏教版课文《夹竹桃》第一课时教学为例,展示了课堂教学过程,抓住文本的语言特色,渗透抓中心学散文的方法,以品味季羡林先生"质朴而不失典雅,率真而不乏睿智"的作品风
针对改扩建矿井不同生产时期的矿井需风量和通风阻力变化大的特点,以矿井主要通风机性能与矿井风阻合理匹配为理论基础,在保证矿井供风量和矿井安全生产的前提条件下,以矿井
在金融自由化带来的业务融合而监管仍然分割背景下,我国债券二级市场呈现典型的分割化、扁平化的特征。首先,场内、场外市场没有分层,两者在交易模式、客户群体上出现竞争性
目的探讨SOX1在胆管癌发生发展过程中所发挥的作用以及其内在的作用机制,为胆管癌的诊治提供新的思路。方法我们利用Western blot技术,PCR技术,免疫组化染色等技术研究SOX1在胆管癌组织中的表达情况;利用慢病毒转染细胞构建过表达SOX1的稳转细胞株,用Transwell,划痕,CCK-8,平板克隆等试验对胆管癌细胞的侵袭转移,增殖能力进行检测;运用双荧光素酶报告基因,western bl
目的检测转化生长因子β1(transforming growth factor beta 1,TGF-β1)以及表皮生长因子受体(epidermal growth factor receptor,EGFR)在子宫内膜异位症中的表达,探讨两者在