论文部分内容阅读
中等职业教育以促进就业为办学宗旨,故综合学生在校的各种信息预测学生今后的就业情况意义重大。数据挖掘中分类算法研究的日趋成熟为研究上述学生就业情况提供了技术支持。因此,论文围绕着对中职学生信息库分类而展开。
论文对数据挖掘的定义、一般结构、对象、步骤及应用中就应注意的问题进行较全面的分析、归纳和总结,基于数据挖掘分类算法的研究现状,对发展较成熟的几种分类算法如决策树、神经网络、遗传算法、贝叶斯方法、关联规则分类、粗糙集方法、模糊论方法、k-最临近分类法等数据挖掘分类算法分别进行论述。在比较几种典型算法的优点和局限的基础上选取了BP神经网络和决策树两种分类算法应用于中职学生信息库的分类挖掘,提出对神经网络分类算法优化的方案。
论文在对BP神经网络算法进行深入研究后,探讨数据预处理,用示例剖析分类网络模型的训练过程,提出在神经网络算法分类的测试阶段引入拒分的思想,以期分离出测试样本中的异常样本并提高分类模型的分类准确率;由于神经网络中参数多,参数取值是否合适直接影响分类模型的好坏,故论文通过对大量实验数据的分析来选取好的神经网络参数(如初始权值、学习率、迭代次数、隐层节点数),并基于中职学生信息库建立较好的分类模型,达到较高的分类准确率。
本文中还用决策树对中职学生信息库建立分类树,探讨数据预处理,用示例剖析分类树的生成过程,进行适度剪枝,提取分类规则,结合应用背景分析实验结果。
最后对两种分类方法结合实验进行比较分析。
综上,论文能较好的实现把数据挖掘的分类技术应用于学生信息库的分类挖掘。