论文部分内容阅读
研究目的本研究以社区建立健康档案的居民为研究对象,利用客观检测的舌面脉信息采集体质辨识系统采集其舌诊信息,分析其舌诊客观化参数与高血压病证候之间的相互关系,并结合其他相关信息构建高血压病肝火亢盛证的诊断模型,进一步探索全样本中肝火亢盛证的特征变量及预测准确性,为临床高血压病更高效准确的辨证论治提供方法及依据。研究方法本研究共纳入病例486例,分为高血压病肝火亢盛证组、高血压病非肝火亢盛证组、非高血压病肝火亢盛证组、正常组四组。首先根据研究目标,制定病例报告表,采用调查问卷的方式进行相关信息的采集,其次利用舌面脉信息采集体质辨识系统对舌诊客观化参数信息进行采集。采用双录入法将采集的数据录入数据库,并进行统计分析,研究高血压病肝火亢盛证在舌诊客观化指标上的特异性及高血压病与相关风险因素的关联性。并利用随机森林数据挖掘算法构建高血压病肝火亢盛证证候诊断模型,用测试集数据对模型进行验证,给出模型预测精确度,并筛选出对模型构建贡献度较大的重要变量。进一步对全样本人群中肝火亢盛证证候诊断模型进行构建。研究结果本研究分别对高血压病人群及全样本人群中肝火亢盛证的证候诊断模型进行了构建。1.高血压病人群肝火亢盛证诊断模型的构建本模型共纳入259例,包括高血压病肝火亢盛证组131例及高血压病非肝火亢盛证组128例。1.1统计描述舌诊客观化参数方面,本研究发现高血压病肝火亢盛证组在右侧舌边舌诊客观化参数RGB-G、RGB-B、HSV-H、LAB-L指标上均明显小于高血压病非肝火亢盛证组,具有统计学差异(P<0.05);一般信息方面,本研究发现高血压病人群中肝火亢盛证组与非肝火亢盛证组在年龄、性别、婚姻状况、职业、文化程度方面均没有统计学差异,但可以看出在职业方面,高血压病肝火亢盛证组脑力劳动者占比较高血压病非肝火亢盛证组多;一般体格检查方面,本研究发现高血压病肝火亢盛证组与高血压病非肝火亢盛证组在腹围指标上存在明显的统计学差异(P<0.05),肝火亢盛证组的腹围显著大于非肝火亢盛证组,在身高、体重、腰围、胸围、臀围、及血压值上两组没有统计学差异;中医症状方面,本研究发现高血压肝火亢盛证组在急躁易怒和头晕两个症状上明显比高血压病非肝火亢盛证组程度重,具有统计学差异。相关风险因素方面,高血压病肝火亢盛证组与高血压病非肝火亢盛证组在治疗因素是否服用中药、血压是否波动及生活方式是否减少食盐、是否减少食油指标上有明显的统计学差异(P<0.05)。1.2模型构建本研究采用随机森林算法对高血压病肝火亢盛证证候诊断模型进行了构建,以高血压病是否为肝火亢盛证为结局,共1180项变量,病例共259例,按4:1的比例进行随机划分为训练集和测试集,分别为194例、65例。用训练集训练得到模型,再用测试集验证模型,并筛选出对模型贡献度较大的重要变量。本研究模型的OOB误差为29.35%,泛化能力较强。袋外数据对训练数据的总预测率(Accuracy)为71%,对高血压病是否肝火亢盛的预测准确率(Specificity)为71%,查全率(Recall)为71%;对本模型全样本数据的总预测率(Accuracy)为72%,对高血压病是否肝火亢盛的预测准确率(Specificity)为71%,查全率(Recall)为73%。本研究采用MeanDecreaseAccuracy和MeanDecreaseGini两种方法观察自变量对高血压病肝火亢盛证的重要性,并筛选出重要性排名前十五位的变量,结果显示舌诊客观化参数占比最大,其他还有急躁易怒、臀围、食油减少、头晕、收缩压、舒张压、腹围等指标。用测试数据预测模型精度为0.73,AUC值为0.849,具有较高的预测准确率。2.全样本人群肝火亢盛证诊断模型的构建本模型共纳入486例,将高血压病肝火亢盛证组和非高血压病肝火亢盛证组合并为肝火亢盛证组,共267例,将高血压病非肝火亢盛证组和正常组合并为非肝火亢盛证组,共219例。2.1统计描述舌诊客观化参数方面,本研究发现肝火亢盛证组在舌尖舌诊客观化参数HSV-S指标上明显大于非肝火亢盛证组,具有统计学差异(P<0.05);一般信息方面,本研究发现全样本人群中肝火亢盛证组与非肝火亢盛证组在年龄、性别、婚姻状况、职业、文化程度方面也没有统计学差异;一般体格检查方面,本研究发现全样本人群中肝火亢盛证组的胸围明显大于非肝火亢盛证组,与高血压病人群不同,同时两组在双臂血压值(左臂心率、右臂收缩压、右臂心率)指标上存在明显的统计学差异(P<0.05);中医症状方面,本研究发现肝火亢盛证组在急躁易怒、头晕、头痛、口干症状上明显比非肝火亢盛证组严重,具有统计学差异(P<0.05);相关风险因素方面,全样本人群中肝火亢盛证组在病程上比非肝火亢盛证组明显短,具有统计学差异,两组其他因素是否药物治疗、是否运动疗法、是否服用中药、是否减少食盐、是否减少食油、睡眠质量好坏指标上亦具有明显的统计学差异(P<0.05)。2.2模型构建本研究采用随机森林算法对全样本人群肝火亢盛证证候诊断模型进行了构建,以是否为肝火亢盛证为结局,病例共486例,按4:1的比例进行随机划分为训练集和测试集,分别为389例、97例。用训练集训练得到模型,再用测试集验证模型,并筛选出对模型贡献度较大的重要变量。本研究模型的OOB误差为24.70%,泛化能力较强。袋外数据对训练数据的总预测率为77%,对高血压病是否为肝火亢盛证的预测准确率为60%,查全率(Recall)为77%;对本模型全样本数据的总预测率为73%,对是否为肝火亢盛证的预测准确率(Specific ity)为 60%,查全率(Recall)为72%。本研究采用 MeanDecreaseAccuracy 和 MeanDe creaseGini两种方法进行观察自变量对肝火亢盛证的重要性,并筛选出重要性排名前十五位的变量,结果也发现舌诊客观化参数占比最大。用测试数据预测模型精度为0.71,AUC值为0.802,具有较高的预测精确率。研究结论1.本研究利用随机森林算法对高血压病肝火亢盛证证候诊断模型进行了构建,模型预测准确度较高,发现舌诊客观化参数在模型的构建中贡献度最高,表明舌诊客观化参数对高血压病肝火亢盛证诊断具有重要意义,为高血压病证候研究提供了一定的指导意义;2.本研究基于舌诊客观化参数,结合一般信息、中医症状、体格检查、生活方式等相关信息进行综合分析,构建证候模型,具有可行性,并对高血压病相关因素的危险性进行了分析,为高血压的防治提供了一定的依据;3.本研究进一步对全样本肝火亢盛证证候诊断模型进行了初步探索,发现舌·诊客观化参数对两类人群肝火亢盛证诊断模型的贡献率都最高,且在两个模型中,中医症状“急躁易怒”及舌诊客观化参数右侧舌边HSV-H、右侧舌边RGB-G、右侧舌边HSV-S、左侧舌边LAB-B、舌尖LAB-A指标存在重复,说明这些指标对肝火亢盛证诊断有很重要的意义,为其他中医证候诊断的研究提供了一定思路。