决策树算法在高校研究生就业信息库中的应用研究

来源 :武汉理工大学 | 被引量 : 21次 | 上传用户:cain_long
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是信息技术迅猛发展和人们获取数据手段多样化的结果,是从大量数据中提取隐含在其中的而又潜在有用的信息和知识的过程。数据挖掘的任务主要有关联分析、聚类分析、分类、预测、时序模式和偏差分析等。在挖掘过程中,数据分类是数据挖掘研究的一个重要的内容。目前用于数据分类的方法有很多,如决策树、神经网络、k-最临近方法、粗糙集、统计模型等。其中决策树算法是分类发现算法中最常见的一种方法,以其计算速度较快、容易被人理解、容易转换成分类规则等优点广泛应用于医疗诊断、气象报告、信贷审核、商业预测、案件侦破等领域。现存的决策树算法也存在很多不足之处,如属性选择的多值偏向、属性空缺值的处理、属性连续值的处理等。因此,怎样进一步提高决策树的性能,提高其分类精度,使之更加适合于数据挖掘的应用要求具有重要的理论研究意义与现实意义。本文针对上述决策树的不足之处进行深入的研究,探索决策树分类算法的优化算法以及如何利用决策树方法对研究生数据仓库进行分类挖掘。本文主要研究工作如下:第一,阐述了数据挖掘和分类技术的理论基础以及决策树的基本知识,并重点对几种常见的决策树算法进行了分析和比较,如经典决策树算法—ID3算法、能够克服ID3算法属性取值偏向问题的C4.5算法、利用GINI系数作为属性选择标准的CART算法、有着良好伸缩和并行性的SLIQ算法。第二,详细分析了决策树算法中存在的属性值空缺、属性多值偏向、连续值属性的处理、属性约减、属性选择标准等问题,并提出了具体的优化方法。第三,根据高校研究生信息库的特点,对异构数据源进行抽取、转换、装载,构建出用于分类挖掘的研究生就业数据仓库。第四,对ID3算法做了改进,提出了一种新的基于用户兴趣度和简化信息熵的决策树算法,经过比较,新算法在总体性能上优于传统的ID3算法。将改进算法应用于高校研究生就业信息库中,为各高校就业指导中心提供决策支持,有效地发挥出了新算法的实际应用价值。
其他文献
通过对冯文慈点注朱载埴《律学新说》理论要点的归纳和解读,论述朱载靖对我国早期“同律度量衡”研究的主要观点和成果。朱栽靖《律学新说》是研究“同律度量衡”之作《律学四
如果只让我用一句话来说当班主任的感受,那就是班主任的工作让我欢喜让我忧﹗记得初为班主任时急于求成,给学生做思想工作时苛之甚严,责之甚重。对于学习水平较低、行为习惯较
本文在分析《孙子兵法》全胜思想内容及借鉴前人优秀成果的基础上,对孙子全胜思想提出几点新的看法和认识:孙子全胜思想更多的是对军礼文化传统的继承而非个人创见;孙子全胜
波兰馆主题是“人类创造城市”,分为“人类,创造力、城市”三个概念。人们把对生活的创造力和想象力融入到生活中,把艺术和创造力融入到城市中。
在美术院校开展传统文化课程建设对提高美术类大学生的人文修养有着重大意义,但是目前传统文化课在建设的过程中存在着种种问题,如何探索出符合美术院校学生特点的传统文化课
本文针对传统或经典的SBR工艺形式在工程中所存在的一定局限性,将SBR工艺分别与ABR工艺和填料技术相结合,对中、高浓度淀粉废水进行了处理。研究了ABR+SBR系统的启动、生物相
移动互联网时代,知识生产与传播模式的结合正在经历着重构。伴随着受众碎片化、场景化接受习惯的养成,"知识电台"正以自身独特的优势得以发展,在现代媒体竞争中崭露头角,赢得
为发挥省会城市辐射带动作用,国务院批准济南、莱芜调整行政区划,组建大济南。整个过程仅用了一年左右时间,可谓雷厉风行。国务院批准的《关中-天水经济区发展规划》,要建设
电影海报是建立于电影这一视觉传播形态之上的另一种视觉传播形态。本文从类型化的好莱坞动作片叙事入手,通过对其叙事元素的分析,探讨其电影海报的类型化叙事策略。
20世纪的俄罗斯钢琴表演艺术位居世界前列,形成了具有俄罗斯特色的莫斯科四大钢琴学派,俄罗斯钢琴表演艺术取得的成绩一定与该国每个阶段有成效的教学方法相关,本研究确定的