论文部分内容阅读
众所周知,高校的招生工作一直被视作其生存的条件和发展动力。调查显示,自2008年以来,随着高考的人数持续下降以及各高校的不断扩招,高校的生源也日趋紧张,招生竞争也愈发的激烈。在这种紧张的形势之下,招生工作就必须利用一切可以利用的资源,并让这些资源在招生工作中的充分发挥作用。然而,在各高校招生工作中,每年都会累积大量的考生数据,但是这些数据在多数学校中只是做出了简单的统计和分析,并没有充分的利用好这些数据来为招生工作服务。为了能够更好的利用这些数据,提高招生工作的效率和成绩,于是本文将数据挖掘技术引入到高校招生工作中来。数据挖掘技术是从大量的原始数据集中,采用多种多样的方法去寻找数据集中隐含着的有趣的模式以及知识。目前,数据挖掘技术在国外已经被非常成功的应用于众多领域,而国内的相关研究由于起步较晚,所以还处于发展中阶段。本文就是选用数据挖掘技术对历史招生数据进行处理,并探求数据中各种因素与报考学生报到与否之间的关系。文中采用分类分析的决策树算法,以报考学生的报到属性为决策属性,以报考学生的性别、年龄、所在地区、高考类型、高考成绩、专/本科、是否宣传登记、来校参观满意度等属性作为条件属性,分析影响考生报到率的因素。文章在简要的介绍数据挖掘技术、分类分析方法、C4.5决策树算法等相关理论知识之后,对本文采用的挖掘软件SPSS Clementine做出了简要的说明。然后,以安徽省某高校的招生数据为例,经过对数据的结构做出详细分析,设计出可行的样本集生成方案,并使用SPSS Clementine挖掘软件对招生数据进行相应的处理,从而实现待挖掘样本集的生成。接着,多次的将样本集随机分割为训练集和测试集两个部分,并使用SPSS Clementine软件中的C5.0决策树算法,对训练集进行分类,构造出决策树模型,并对模型进行剪枝,再通过训练集和测试集对模型进行预测准确率分析、增益评估、响应评估、提升评估。最后,在反复的多次分割、分类、分析和评估后,选择最优的C5.0决策树模型,并导出规则集。模型和规则集都可以直观的反映出影响考生报到与否的各种因素,在今后的招生工作中,可以为制定招生方案作提供依据,也可用以对报考学生报到率进行预测。