论文部分内容阅读
近年来冠心病以其高发病率、高致死率的特点,给国人带来了健康威胁与经济负担。发展迅速的计算机技术为探索蕴含在中医诊疗数据中的疾病防治规律和用药知识提供了技术基础。如何从已有的数据中挖掘到这些规律和知识,以及如何对这些规律和知识加以利用来为冠心病中医诊疗提供辅助决策将是本文要研究的主要内容。决策树算法结果表达直观易理解。为了直观地反映冠心病症状与证候之间的关系,本文以多值属性多类标决策树算法为研究对象,针对该算法在冠心病中医诊疗数据处理过程中出现的问题进行相应的改进,并通过实验证明了改进的有效性。具体研究工作如下:第一,原有的多值属性多类标决策树算法在分裂属性选取的过程中会忽略掉当前属性取空值的数据。冠心病数据具有多缺失值的特点,原算法会大量丢失数据,从而使分类准确率相对较低。针对这个问题,本文对算法属性选择进行了改进,增加了对空值的判断,并将当前属性值为空的数据作为新的子结点,从而保证数据不丢失。第二,若数据中出现过多的空值属性,按照上述方法处理时容易出现过拟合的现象,造成决策树规模过大,模型分类准确率不高的问题。针对这个问题,本文在建树之前引入空值数目阈值,并根据该阈值对数据集进行预处理,排除掉空值数目过多的数据,这样分类准确率下降过快的问题得到解决。第三,在分裂效果评价阶段,本文提出了新的相似度计算公式,使类标集之间的相似度计算更加合理,并且公式中的参数能够反映集合之间的特征,根据这个特征自动调节。第四,实际应用方面,本文设计了一个辅助诊疗系统,系统中应用了上述改进后的算法。根据选定的症状来对中医证候进行预测,得到患者的中医诊断结果供医生参考。另外,系统中分类模型的训练集能够实现动态增加,在系统之上能够扩展出用于不同目的的专题挖掘子模块。