论文部分内容阅读
肺癌是一种涉及了基因和表观遗传改变的复杂疾病,是世界范围内癌症死亡的主要原因。近年来,中国地区的肺癌发病率较前明显增加,成为一个重大的公共卫生挑战。尽管随着医疗水平的提高和临床药物应用的发展,肺癌的治疗效果得到有效的改善,但是晚期肺癌患者的生存率和总体预后仍然在相对较低的水平。因此,提高早期诊断效率是改善肺癌患者预后的关键。流行病学表明肺癌和吸烟有强大的统计学关联。据估计,全世界有12.5亿烟民,每年超过一百万人死于烟草导致的肺癌。吸烟与肺癌的发生发展密切相关,85%的肺癌与吸烟有关,并且2年生存率<10%。美国肺癌筛查中心推荐对吸烟史>30年包,且禁烟<15年的患者进行肺癌筛查。肿瘤标志是反映存在于肿瘤中的生物化学物质。它们不存在于正常成人组织中,或只存在于胚胎组织。它们在肿瘤组织中的含量显著超过正常组织。它们量或质的改变也许预示了肿瘤的本质,以便了解肿瘤组织、细胞分化和细胞功能,并帮助进行肿瘤的诊断、分类、判断预后和治疗。然而,单一肿瘤标志检测的敏感性和特异性通常低于由不同特性、敏感性和互补性的多个肿瘤标志组成的肿瘤标志群。因此,目前多采用多种肿瘤标志联合诊断来提高早期肺癌的检测。影像学是临床肺癌诊断的一种重要的方法。但是低灵敏度的X线片也是肺癌诊断延误的主要原因。近来,在美国肺癌筛查试验研究表明,在肺癌高危人群中进行低剂量CT扫描相比X线降低了20%肺癌死亡率。因此,这项检查被美国预防服务中心、美国癌症协会和其他咨询机构推荐。现在,低剂量CT被用于高度怀疑肺癌患者的检测,而且拥有高度敏感性来帮助发现和确定早期肺癌。然而,CT对肺癌诊断的特异度太差。肿瘤标志比动态CT成像表现出较低的敏感度,而特异性高于CT扫描。因此,CT成像扫描结合肿瘤标志能够有助于区分肺癌与良性肺疾病。数据挖掘技术作为建模工具已经证明了其从多个来源吸收信息并精确分析及建立复杂模型的能力。现在,许多研究将肿瘤特征同数据挖掘技术结合来诊断肿瘤。尽管肺癌诊断有很多因素并且它们之间有复杂的关系,数据挖掘技术能够学习不能通过数学方法描述的模糊评价,并且能够解决一些复杂的、不确定和非线性问题,特别是当面对大样品、多媒体、多变量时,数据挖掘技术在解决非线性和未知数据分布问题上显示了更优秀的能力。目的:本研究在课题组前期成果的基础上,将血清肿瘤标志与流行病、临床症状、影像学特征联合,利用数据挖掘技术来建立肺癌-肺良性疾病辅助诊断模型,以期进一步提高肺癌诊断的准确率,并为肺癌诊断提供参考和辅助方法,改善肺癌患者的生存率和预后。方法:1.收集2014年10月至2016年3月郑州大学第一附属医院呼吸内科423例住院患者的血清学标本并测定血清肿瘤标志水平。从住院医师或主治医师修改并完成的住院病历中提取住院患者的流行病学和临床信息。包括性别、年龄、吸烟史、饮酒史、家族史(肿瘤方面);是否咳嗽、咳痰、痰中带血、乏力、发热出汗、声音嘶哑。2.使用Fisher判别分析和Logistic回归分析方法对血清肿瘤标志、流行病学和临床症状指标进行筛选优化。3.将筛选优化后指标通过数据挖掘技术(ANN、SVM、决策树C5.0)和Fisher判别分析建立肺癌诊断模型。4.同时收集423例患者的CT影像学资料,并根据病例的纳入和排除标准选取其中214例患者的CT影像作为研究对象。5.请3位高年资呼吸科主治医师分别对214例患者的CT影像进行判断,提取19项特征并评分。各个影像学特征的最后评分取3位医师的平均分。6.将提取的19项影像学指标通过Fisher判别分析和Logistic逐步回归分析的方法来筛选优化,并通过数据挖掘技术(ANN、SVM、决策树C5.0)和Fisher判别分析建立肺癌诊断模型。7.采用Fisher判别分析和Logistic逐步回归分析的方法对血清肿瘤标志、流行病及临床症状、CT影像学特征一系列指标进行筛选优化并通过数据挖掘技术(ANN、SVM、决策树C5.0)和Fisher判别分析建立肺癌诊断模型。结果:1.肿瘤标志联合流行病学及临床指标建立的各模型对预测集预测结果的灵敏度、特异度、准确度、阳性预测值和阴性预测值和AUC要明显高于单独肿瘤标志建立的各模型。2.肿瘤标志、流行病学、临床症状指标建立的模型中,ANN模型的的灵敏度、特异度、准确度、阳性预测值和阴性预测值和AUC均高于其他3种模型,ROC曲线下面积对比差异有统计学意义(P<0.05)。3.肿瘤标志和流行病学及临床症状联合后各组指标建立的ANN模型之间AUC差异无统计学意义,但10种肿瘤标志和流行病学及临床症状全部Logistic逐步回归分析优化后的13项指标,即年龄、性别、吸烟史、咳痰、痰中带血、发热出汗和DNMT3B、DNMT1、HDAC1、胃泌素、NSE、CEA和钙离子,建立的ANN模型训练集准确度为100%,预测集准确度为94.33%,特异度95.5%,阳性预测值93.8%,均高于其他模型。4.Logistic逐步回归分析筛选出的空洞征、棘突征和气管狭窄3个变量建立的SVM模型对预测集预测结果的灵敏度为92.3%、特异度81.8%、准确度86.9%、阳性预测值90.6%、阴性预测值91.8%、AUC 0.857。5.将血清肿瘤标志、流行病学、临床症状、影像学联合,利用Logistic逐步回归分析筛选出16项指标建立的SVM模型对肺癌预测结果的特异度、准确度、阳性预测值、AUC分别为95.5%、97.2%、95.4%、0.969,灵敏度和阴性预测值为99.0%和95.4%。6.血清肿瘤标志、流行病学、临床症状、影像学指标联合建立的SVM和决策树C5.0模型对肺癌诊断效能优于单独影像学建立的SVM模型和决策树C5.0模型,AUC相比差异有统计学意义(P<0.05)。结论:1.用Fisher判别分析和Logistic逐步回归分析分别对流行病学、临床症状和血清肿瘤标志指标进行筛选优化,优化后的指标联合建立肺癌ANN诊断模型,其灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC明显高于单纯血清肿瘤标志联合建立的数据挖掘模型,能够更好的对肺癌进行临床辅助诊断。2.Logistic回归分析筛选出的空洞征、棘突征和气管狭窄3个变量建立的SVM肺癌诊断模型可作为肺癌临床影像学诊断的一种方法。3.血清肿瘤标志、流行病学、临床症状、影像学指标联合建立的SVM模型和决策树C5.0模型对肺癌诊断效能优于单独影像学建立的SVM模型和决策树C5.0模型,可作为肺癌临床辅助诊断的一种优选方法。