论文部分内容阅读
作为机器学习和数据挖掘经典的分类模型之一,决策树算法因其简单易懂可复用性强等优点得到了广泛的应用。经典的决策树算法不能处理模糊环境下的分类问题,基于模糊集理论,提出了模糊决策树算法(Fuzzy Decision Tree,FDT)。FDT是经典决策树在模糊集下的扩展,是将一个本来杂乱无序的样本数据进行模糊处理后生成一棵可用于分类预测的模型。模糊决策树的优势在于决策树广泛的应用性和表达知识的易被理解性,以及利用模糊理论去处理模糊信息的能力。FDT已经在医疗、交通、金融等领域得到了广泛的应用。FDT本质上是一种有监督的数据分类模型,通常使用隶属度来表示样例隶属于结点的程度。但是在实际的数据分类过程中,不仅要考虑样例隶属于结点的程度,还需要考虑不属于结点的程度,显然FDT不能全面表述这类分类信息。直觉模糊决策树(Intuitionistic Fuzzy Decision Trees,IFDT)的提出解决了这一问题,但现有的IFDT算法只给出了构建的思想,缺少完整的构建的过程,而且计算直觉模糊熵的方法在某些情况下不满足限制条件。因此,本文提出了改进的直觉模糊决策树算法(Improved Intuitionistic Fuzzy Decision Trees,IIFDT),修改了 IFDT 计算直觉模糊熵的方法,并提出IIFDT的剪枝方法、规则抽取方法、分类预测方法。IIFDT包含了完整的构建过程,改进了 IFDT计算直觉模糊熵时不满足限制条件的情况,更具有普适性。此外,将IIFDT应用在糖尿病诊断中,并以此算法为核心开发了基于IIFDT的糖尿病辅助诊断系统。本文的研究内容主要包括以下三点:(1)论述IFDT的构建思想,梳理FDT的相关理论,总结不同的FDT选择扩展属性的方法和剪枝方法,并梳理直觉模糊集相关的基本概念,坚实了构建IIFDT的理论基础。(2)构建IIFDT模型。推导IIFDT构建的过程,包括属性的模糊处理、扩展属性的选择标准、IIFDT的剪枝处理、IIFDT规则的抽取、IIFDT的分类预测。并以一个算例为例完成IIFDT模型的构建,最后使用三组公开的数据集将IIFDT和其他几种算法进行了对比分析,证明了本文的算法的优势。(3)开发基于IIFDT的糖尿病辅助诊断系统。以IIFDT算法为核心,设计并实现基于IIFDT的糖尿病辅助诊断系统,包括系统需求分析、框架设计、详细设计,人员管理模块、数据处理模块、糖尿病模型构建模块、糖尿病辅助诊断模块的功能实现。最后通过对诊断结果的比较分析,说明IIFDT模型在糖尿病辅助诊断中应用的可行性,以及该系统具有一定的应用价值。