论文部分内容阅读
数据挖掘是信息技术迅猛发展和人们获取数据手段多样化的结果,是从大量数据中提取隐含在其中的而又潜在有用的信息和知识的过程。数据挖掘的任务主要有关联分析、聚类分析、分类、预测、时序模式和偏差分析等。在挖掘过程中,数据分类是数据挖掘研究的一个重要的内容。目前用于数据分类的方法有很多,如决策树、神经网络、k-最临近方法、粗糙集、统计模型等。其中决策树算法是分类发现算法中最常见的一种方法,以其计算速度较快、容易被人理解、容易转换成分类规则等优点广泛应用于医疗诊断、气象报告、信贷审核、商业预测、案件侦破等领域。现存的决策树算法也存在很多不足之处,如属性选择的多值偏向、属性空缺值的处理、属性连续值的处理等。因此,怎样进一步提高决策树的性能,提高其分类精度,使之更加适合于数据挖掘的应用要求具有重要的理论研究意义与现实意义。本文针对上述决策树的不足之处进行深入的研究,探索决策树分类算法的优化算法以及如何利用决策树方法对研究生数据仓库进行分类挖掘。本文主要研究工作如下:第一,阐述了数据挖掘和分类技术的理论基础以及决策树的基本知识,并重点对几种常见的决策树算法进行了分析和比较,如经典决策树算法—ID3算法、能够克服ID3算法属性取值偏向问题的C4.5算法、利用GINI系数作为属性选择标准的CART算法、有着良好伸缩和并行性的SLIQ算法。第二,详细分析了决策树算法中存在的属性值空缺、属性多值偏向、连续值属性的处理、属性约减、属性选择标准等问题,并提出了具体的优化方法。第三,根据高校研究生信息库的特点,对异构数据源进行抽取、转换、装载,构建出用于分类挖掘的研究生就业数据仓库。第四,对ID3算法做了改进,提出了一种新的基于用户兴趣度和简化信息熵的决策树算法,经过比较,新算法在总体性能上优于传统的ID3算法。将改进算法应用于高校研究生就业信息库中,为各高校就业指导中心提供决策支持,有效地发挥出了新算法的实际应用价值。