论文部分内容阅读
随着数据量的爆炸性增长以及信息技术的高速发展,数据挖掘与机器学习已成为当今研究的热点。目前,现实世界中往往呈现连续属性值的数据,而很多数据挖掘与机器学习分类算法仅仅适用离散属性值的数据。因此,必须将连续属性值的数据进行离散化,否则,这些分类学习算法无法正常工作。针对此问题,本文系统分析了现有的连续数据离散化方法,并从离散化标准等方面进行了深入研究,主要包括:(1)提出一种单属性与多属性相结合的自底向上离散化方法,在考虑属性间关系的同时,综合衡量各相邻区间对之间的差异,寻找最好的合并区间。首先,我们通过最小描述长度理论和连续属性中相邻区间对的重要性,提出一种结合单属性与多属性的离散化标准,并在理论上分析了此标准的优势;进一步,基于此标准,提出一种启发式的自底向上离散化算法,寻找最优的离散化结果;最后,在UCI数据集上的实验结果表明,与现有的离散化方法相比,此方法显著提高了C4.5决策树与支持向量机分类器的学习精度。(2)提出一种基于非线性降维技术的高维数据离散化方法,有效解决了高维非线性数据的离散化问题。首先,我们提出一种基于局部邻域优化的线性嵌入算法,将高维数据降维至低维空间中,有效保持了原始数据的几何关系结构。该算法克服了数据的几何关系结构容易被扭曲的缺陷;其次,提出一种基于面积的卡方离散化算法,从概率的角度考虑每对区间被合并的可能性,有效离散低维数据空间中的每个连续属性。实验结果表明,此方法得到了较好的离散化结果以及更简化的知识,提高了分类器的学习精度。另外,此方法应用在计算机视觉和图像分类中,取得了很好的效果。(3)提出一种改进卡方统计的数据离散化方法,提高了基于统计独立性离散化方法的质量。首先,我们分析了卡方函数中自由度选取的不足,给出了自由度选取的修正方案;其次,根据数据类分布等特点,提出了期望频数的改进方案,克服了不同数据集赋予相同期望频数的缺陷,提高了卡方计算的准确性。实验结果表明,改进的方法产生了较高的类属性相互依赖冗余值,并显著提高了C4.5决策树与Naive贝叶斯分类器的学习精度。