论文部分内容阅读
研究背景近年来,非结核分枝杆菌(nontuberculous mycobacteria,NTM)肺病的发病率在全球呈快速增长的趋势。NTM生长缓慢,病程长,对一线抗结核药物的耐药率高,因此总体治愈率较低。NTM最常累及肺部,其临床特征和影像学表现与肺结核(tuberculosis,TB)相似,误诊率高。目前,痰分枝杆菌培养与菌种鉴定是甄别NTM肺病与肺结核的主要方法,但这些技术比较耗时费力,对实验室水平的要求较高,而且痰分枝杆菌培养阳性后才能进一步进行菌种鉴定,更增加了其确诊难度。胸部影像学检查在NTM肺病及肺结核的诊断及鉴别诊断中具有重要价值,由于CT检查速度快、密度分辨率高、使用普遍等优点,成为两者诊断和病情评估的重要工具,但是由于两者病情发展和病理表现存在很大的重叠,也导致了影像学在两者的鉴别中存在一定的困难。NTM肺病的CT表现多为空洞、实变、支气管扩张、支气管播散等,显示出多发、多种征象并存的特点,与肺结核的表现具有很大的相似性。尽管如此,一些研究也努力试图寻找两者影像学表现的一些差异,以提高鉴别诊断的水平。例如有研究发现,NTM肺病支气管扩张发生的概率比肺结核高,另外有研究发现,两种疾病实变的发生率、空洞的发生率及是否邻近胸膜,是否合并胸腔积液,是否合并胸膜结核瘤均存在一定的统计学差异。但也有研究认为两者并无可靠的影像学鉴别特征。病理学结果证实两者在实变、空洞等构成和特征方面存在一定的差异,提示反映这些病理变化的影像学特征应该存在一定的鉴别潜力。尽管在实际的临床工作中,影像科医生单凭肉眼发现NTM肺病和肺结核空洞和实变等影像学特征细微差异的能力有限,但更加灵敏和客观的影像学技术在理论上存在解决上述问题的可能性。近年来,以深度学习为核心的人工智能技术取得了一系列重大突破,被广泛应用到各个领域,目前正逐步应用到医学影像中,其中包括肺部疾病如肺结节的CT影像诊断和鉴别。目前AI在肺部疾病诊断中应用较多的是放射组学,随着人工智能放射组学的快速发展,它可以将医学图像转换为高维图像,通过定量的高通量挖掘数据特征,然后进行数据分析以供决策支持,具有客观、精细等特点,可以发现肉眼难以发现的特征。目前在肺部疾病诊断中已经有了深入研究,例如可以利用放射组学提前预测非小细胞肺癌的组织学特征、非小细胞肺癌基因表达以及对肺癌的预后判断等,近来在新冠肺炎的诊断中也显示出良好的特异度和敏感度,但在炎性疾病的研究还是偏少。本研究利用放射组学技术来提取NTM肺病和肺结核CT图像上空洞及实变的纹理特征,探讨该技术在两者鉴别中的价值,为临床治疗提供新的、简便的诊断方法。目的提取非结核分枝杆菌(NTM)肺病与肺结核(TB)CT中空洞和实变放射组学特征,探讨其在两种疾病影像鉴别中的价值。方法对2013年2月至2018年3月在山东省胸科医院和山东大学齐鲁医院经临床证实的NTM肺病患者进行回顾性分析,最终选取胸部CT显示具有空洞和实变的患者73例;同时通过随机软件在HIS系统抽取同一时间段内具有类似CT特点的相同例数肺结核患者作为对照组。所有图像均为飞利浦64排及宝石CT胸部平扫影像资料,层厚5 mm,,将DICOM格式的图像上传至汇医慧影放射组学云平台V2.0进行处理。空洞特征:通过一名有经验的主治医师利用双盲法对胸部CT肺窗(W 1500 L-500)图像进行观测和勾画,有疑问处由一名高级职称医师进行复核,重新确定感兴趣区。从空洞组的146例NTM肺病和肺结核患者中共勾画出289个感兴趣区(ROI)空洞特征,其中NTM肺病共164个ROI,肺结核共125个ROI。使用计算机生成的随机数将80%的ROI分配给训练数据集,20%的ROI分配给验证数据集。最终将131个NTM肺病ROI、100个肺结核ROI分配给训练集,将33个NTM肺病ROI、25个肺结核ROI分配给验证集。利用Radcloud平台从1409个特征中使用方差阈值法(variance threshold)共筛选出476个特征,然后使用k最佳方法共选出333个特征,最后使用最小绝对收缩与选择算子(least absolute shrinkage and selection operator,LASSO)算法从中选出24个最佳特征。使用最佳特征进行机器学习。实变特征:对CT图像进行观测、勾画和复核的医师同上,在CT肺窗(W 1500 L-500)上同时参考纵隔窗图像对显示为实性高密度区,沿边缘进行勾画,勾画时不包括周围渗出晕,从146例患者中共勾画出246个感兴趣区实变特征,其中108个NTM肺病ROI,138个肺结核ROI。使用计算机生成的随机数将80%的ROI分配给训练数据集,20%的ROI分配给验证数据集。最终将86个NTM肺病ROI、110个肺结核ROI分配给训练集,将22个NTM肺病ROI、28个肺结核ROI分配给验证集。利用Radcloud平台从1409个特征中使用方差阈值法(variance threshold)共筛选出452个特征,然后使用k最佳方法共选出203个特征,最后使用最小绝对收缩与选择算子LASSO算法从中选出23个最佳特征。使用最佳特征进行机器学习。结果空洞特征:利用方差阈值法、k最佳方法及lasso算法三种方法筛选出24个最佳特征,采用了三个受监督的学习模型(KNN、SVM、DT)进行分析。使用KNN模型训练时,训练集的AUC分别为:NTM肺病0.99(95%置信区间(confidence interval,CI):0.96-1.00;灵敏度0.94和特异度0.95)、肺结核0.99(95%CI:0.96~1.00;灵敏度0.95和特异度0.94),验证集的AUC分别为:NTM肺病0.97(95%CI:0.89~1.00;灵敏度0.94和特异度0.84)、肺结核0.97(95%CI:0.89~1.00;敏感度为0.84,特异度为0.94)。采用SVM模型训练时,训练集的AUC分别为:NTM肺病0.98(95%CI:0.95~1.00;灵敏度0.95和特异度0.95)、肺结核0.98(95%CI:0.95~1.00;灵敏度0.95和特异度0.95),验证集的AUC分别为:NTM肺病0.99(95%CI:0.90~1.00;灵敏度0.94和特异度0.84)、肺结核0.99(95%CI:0.90~1.00;灵敏度0.84和特异度0.94)。使用DT模型训练时,训练集的AUC分别为:NTM肺病1.00(95%CI:1.00~1.00;灵敏度1.00和特异性1.00)、肺结核1.00(95%CI:1.00~1.00;灵敏度1.00和特异性1.00),验证集的AUC分别为:NTM肺病0.85(95%CI:0.76~0.95;灵敏度0.91 和特异性0.80),肺结核0.85(95%CI:0.76~0.95;敏感性0.80,特异性0.91)。KNN模型验证集AUC值为0.97,SVM模型验证集AUC值为0.99,DT模型验证集AUC值为0.85,DT模型验证集的灵敏度和特异度也偏低。通过精确性、召回率、f1分和支持度分析,KNN、SVM模型比DT模型的性能好。实变特征:利用方差阈值法、k最佳方法及lasso算法三种方法筛选出23个最佳特征,采用了三个受监督的学习模型(KNN、SVM、DT)进行分析。使用KNN模型训练时,训练集的AUC分别为:NTM肺病0.94(95%CI:0.88~1.00;灵敏度0.90和特异度0.80)、肺结核0.94(95%CI:0.88~1.00;灵敏度0.80和特异度0.90),验证集的AUC分别为:NTM肺病0.96(95%CI:0.84~1.00;灵敏度0.93和特异度0.80)、肺结核0.96(95%CI:0.84~1.00;敏感度为0.80,特异度为0.93)。采用支持向量机SVM模型训练时,训练集的AUC分别为:NTM肺病0.98(95%CI:0.91~1.00;灵敏度0.86和特异度0.88)、肺结核0.98(95%CI:0.91~1.00;灵敏度0.88和特异度0.86),验证集的AUC分别为:NTM肺病0.97(95%CI:0.86~1.00;灵敏度0.93和特异度0.87)、肺结核0.97(95%CI:0.86~1.00;灵敏度0.87和特异度0.93)。使用DT模型训练时,训练集的AUC分别为:NTM肺病 1.00(95%CI:1.00~1.00;灵敏度 1.00和特异性 1.00)、肺结核 1.00(95%CI:1.00~1.00;灵敏度1.00和特异性1.00),验证集的AUC分别为:NTM肺病0.77(95%CI:0.61~0.93;灵敏度0.80和特异性0.73),肺结核0.77(95%CI:0.61~0.93;敏感性0.73,特异性0.80)。KNN模型验证集AUC值为0.96,SVM模型验证集AUC值为0.97,DT模型验证集AUC值为0.77。DT模型验证集的灵敏度和特异度也偏低。通过精确性、召回率、f1分和支持度分析的KNN、SVM模型的性能良好,DT模型性能一般。结论利用CT放射组学提取出有价值的空洞及实变特征可以弥补肉眼观察的不足,在非结核分枝杆菌肺病与肺结核的鉴别中具有重要意义。在提取空洞特征中和提取实变特征对NTM肺病与肺结核进行鉴别时,使用KNN模型和SVM模型较DT模型更具有鉴别价值。在NTM肺病和肺结核的放射组学鉴别诊断中,利用空洞提取的特征较实变更具鉴别价值。