论文部分内容阅读
研究背景结直肠息肉是从结直肠黏膜上皮层、黏膜表面突出到肠腔的隆起性病变,是消化系统的常见病,它与结直肠癌的发生密切相关。由于结直肠癌由结直肠息肉发展而来,其过程较长,所以早期的人群筛查、早期诊断和早期治疗对有效降低结直肠癌的发病率尤为重要。舌诊作为中医四诊之首望诊的重要内容,可迅速、清晰、客观地反映出身体的状况,是中医辨证的重要依据。近年来,随着人工智能的发展,舌诊的客观化因具有简单易行、识别准确等优势而常被应用在临床诊治过程中,但目前鲜有结直肠息肉舌诊客观化的研究。研究目的1.探讨基于U-Net深度学习网络和K-均值聚类机器学习在舌象图像分割的应用效果。2.与健康对照组进行比较,分析结直肠息肉患者及不同中医证候舌象图像特征,探讨其与疾病及证候的相关性,为临床更好地对结直肠息肉进行辨证论治提供理论依据。3.探索性构建结直肠息肉的预测模型,分析结直肠息肉的风险因素,探讨舌象图像特征在多指标融合模型中的作用。研究方法1.对2022年3月15日至2023年3月14日间连续在首都医科大学附属北京中医医院内窥镜中心招募的受试者进行研究,共纳入883例,其中结直肠息肉组患者685例和健康对照组198例。使用ZMT-1A舌诊仪采集结直肠息肉患者和健康对照人群的舌象图像,经过数据预处理等操作,纳入分辨率为576 × 768的舌象图像。首先将数据集随机分为8:2,然后使用Labelme软件手动分割和标记舌体区域,得到有效标签,最后基于U-Net语义分割网络搭建舌体分割模型。舌体分割结果使用平均像素精确度(MPA)与平均交并比(MIoU)进行评价。将分割后的舌体图像以RBG方式保存,通过聚类的方式,来提取舌图像中的相似特征,利用K-均值聚类算法将舌象图像像素在RGB的像素值的维度分成6个像素簇,使用手工分类的方式把同一类别的像素簇进行像素聚合,得到舌苔和舌质的像素目标,最后请五位主治及以上中医医师对得到的舌苔和舌质进行辨析。将苔质分离合格的舌象图像根据中医舌面脏腑分区理论,运用OpenCV划分为舌尖、舌中、舌边左、舌边右、舌根区域,并获取整体和分区域舌质和舌苔RGB、Lab、HSV颜色空间指标R、G、B、L、a、b、H、S、V。2.将纳入的830例受试者依据结直肠息肉中医辨证分型标准,分为脾虚湿蕴证、湿热内蕴证、风伤肠络证、气滞血瘀证、脾肾阳虚证。通过统计学方法分析结直肠息肉组与健康对照组的舌象图像指标差异,进一步分析舌象图像指标在结直肠息肉组不同中医证候间是否存在差异。3.从机器学习和统计学习的角度探究结直肠息肉的风险预测模型。在机器学习视角下,采用RF(随机森林)、DT(决策树)、GBM(梯度提升机)、SVM(支持向量机)和XGBOOST(极端梯度提升树)算法进行特征选择和风险预测模型的构建。通过综合考虑变量的重要性和模型的性能来选择最佳特征和模型。在统计学习视角下,采用套索回归(Lasso-Logistic)、岭回归(Ridge-Logistic)、弹性网络回归(Elastic net-Logistic)和逐步回归(Stepwise Logistic)方法,筛选预测变量并构建预测模型。这些方法考虑了预测变量的相关性和模型的拟合效果,以选择最佳的预测变量和模型。通过比较机器学习和统计学习方法,可以获得更全面和准确的风险预测模型。研究结果1.U-Net舌体分割模型的评价指标平均像素精确度(MPA)98.99%,平均交并比(MIoU)97.25%;经专业主治及以上中医医师对883张K-均值聚类的舌质、舌苔分离效果进行辨析,其合格率为94%;获取830张整体舌质、舌苔以及分区舌象图像特征指标。2.结直肠息肉组和健康对照组分区舌象图像特征指标比较,结直肠息肉组舌色舌边右、舌中、舌边左、舌根L,a,b均低于健康对照组(P<0.05);结直肠息肉组苔色舌尖、舌边右、舌中、舌边左L,a,b以及舌根L,b高于健康对照组(P<0.05)。结直肠息肉组不同中医证候与健康对照组舌象图像特征指标比较,与健康对照组相比湿热内蕴组舌质a和舌苔a降低(P<0.05),舌苔R、G、L、H、V升高(P<0.05)。与健康对照组相比气滞血瘀组舌苔a降低(P<0.05),舌苔R、G、B、L、H、V升高(P<0.05);与健康对照组相比,脾虚湿蕴组舌苔a降低(P<0.05),舌苔G、L、H升高(P<0.05);与健康对照组相比脾肾阳虚组舌苔a降低(P<0.05),舌苔H升高(P<0.05)。3.机器学习算法中梯度提升机(GBM)模型的风险预测效果最佳(AUC=0.851)。基于惩罚项的Logistic回归模型中将弹性网络回归(Elastic net-Logistic)和套索回归(Lasso-Logistic)模型中筛选出的(27个变量)特征作为基本特征建立结直肠息肉风险预测模型。变量包含基线资料(年龄、性别、BMI)、个人史(饮酒史、吸烟史、经常食用腌制食品、经常食用烟熏炙烤食物、久坐)、疾病史(高血压、糖尿病、幽门螺杆菌感染史、息肉家族史)、检验指标(便隐血、白细胞计数、血小板计数、淋巴细胞计数)和舌象图像特征指标(舌质L、a、b、H、S、V和舌苔L、a、b、S、V)。逐步回归(Stepwise Logistic)筛选出结直肠息肉风险因素为舌质b、舌质S、舌苔L、舌苔a、便隐血、白细胞计数、年龄。以结直肠息肉临床常用指标构建的风险预测分类能力为AUC=0.733,在此基础上加入舌象图像特征指标后,结直肠息肉风险预测模型分类能力有所提高到AUC=0.756。研究结论1.采用深度学习U-Net和机器学习K-均值聚类算法,可实现舌图像的客观化提取。2.舌象图像特征指标与结直肠息肉具有相关性,结直肠息肉患者不同中医证候间存在差异,可为结直肠息肉的临床辨证论治提供量化依据。3.结直肠息肉风险因素为舌象图像特征(TB-b、TB-S、TC-L、TC-a)、年龄、白细胞计数和便隐血。基于舌象图像特征融合多指标构建结直肠息肉预测模型,具有可行性,该模型为今后中西医多模态融合结直肠息肉预测模型的构建提供一定依据。