数据挖掘技术在高职教育中的应用概述

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:qq414363439
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:数据挖掘技术是当前数据库和人工智能领域研究的热点课题,在阅读了大量文献资料的基础上,首先对数据挖掘技术进行了概略介绍,包括数据挖掘技术的产生背景,应用领域,分类及主要挖掘技术。结合自己的主要研究方向,对关联规则的挖掘作了较详细的论述,介绍了关联规则挖掘在高职教育的主要研究成果。
  关键词:数据挖掘;关联规则;KDD
  中图分类号:TP311.13
  数据挖掘(DataMining),也称数据库中的知识发现(KDD:KnowledgeDiscoveryinDatabase),是指从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在的有用的信息,提取的知识一般可表示为概念、规则、规律、模式等形式。大家知道,如今已可以用数据库管理系统来存储数据,还可用机器学习的方法来分析数据和挖掘大量数据背后的知识,而这两者的结合就促成了数据挖掘技术的产生。数据挖掘是一门交叉性学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术[1]。
  1数据挖掘技术的分类
  数据挖掘技术有根据发现知识的种类分类,根据挖掘的数据库种类分类、根据采用的技术分类等几种分类方法。
  其中,根据发现知识的种类分类有关联规则挖掘、分类规则挖掘、特征规则挖掘、离群数据挖掘、聚类分析、数据总结、趋势分析、偏差分析、回归分析、序列模式分析等,根据挖掘的数据库种类分类有关系型、事务型、面向对象型、空间型、时间型、文本型、多媒体型、主动型和异构数据库等[2]。
  2关联规则挖掘
  关联规则挖掘是指在大量数据加项集之间有趣的关联或相关联系。例如,顾客在超市买东西,其同时购买牛奶和面包的可能性有多大?通过分析结果可帮助零售商合理安排货架,刺激消费。规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用性和确定性。这两个度量的值是用0%和100%之间的数据表示。例如:购买面包也趋向于同时购买牛奶可以用以下关联规则表示:面包牛奶【置信度=60%,支持度=2%】,表明在全部的购买行为中,有2%的行为是同时购买面包和牛奶的。而置信度则意味着购买面包的顾客60%也购买牛奶。其中最著名的关联规则挖掘算法是由Agrawal等在1994年提出的apriori算法[3]。该算法的基本思想是:统计多种商品在一次购买中共同出现的频率,然后将出现频率数较多的搭配转换成关联规则。
  3数据挖掘技术在高职教育中的应用综述
  从1998年开始,中国的高职高专教育,尤其是高职教育得到了跨越式的迅猛发展,高职教育坚持“以服务为宗旨,以就业为导向,走产学研结合发展道路”的办学方针。坚持科学定位,以培养生产、建设、管理、服务第一线的高素质技能型专门人才为根本任务。为了贯彻这个教育方针,笔者利用数据挖掘技术,在以下几个方面作了一定的研究,为高职教育贡献一些教育的方向跟经验。
  3.1数据挖掘技术在就业指导的应用探讨
  随着我国社会经济的快速转型,国高级技术人才严重短缺,企业对高级人才的实际需求要比现有数量高出几倍甚至几十倍,许多大城市出现了高级技工奇缺的现象。甚至出高薪也难求一才。但是,一些高职高专院校在专业上却仍未能按市场需求设置,办学特色不鲜明,学生适应社会需求的能力差。这就使得学校的人才培养与社会需求不相吻合。因此,如何利用高校的就业系统数据进行数据挖掘,从大量的毕业生信息中挖掘出应用可信的关联规则,合理的引导学生就业择业,疏通高校就业渠道,都具有一定的指导性意义。例如:笔者曾经利用广西电力职业技术学院数据包括2006-2010年度的就业信息,经过数据预处理,将来自不同数据源中的数据进行填补空缺值、去除孤立点、纠正不一致、平滑噪声等处理,而形成具有语法或语义正确的数据,并经过按专业地域方面的分类,运用数据挖掘关联规则的经典算法Apriori算法,设置置信度为80,最终挖掘出以下几个就业规律:
  (1)来自贫困落后的地区生源的籍贯地区、成绩较低的学生灵活就业率较高,就业不稳定现象比较严重。学生在就业择业中,比较看重薪酬,而个人的发展,能力的拓展方面的考虑则比较排其后。
  (2)尽管从2007-2009年国经济发展波动较大,但是市场营销,物流等第三产业类专业的学生就业率并没有受到太大影响,主要得益于网络购物的发展,特别是网上购物已成为许多白领阶层的首选。
  而通过以上的关联规则,可以给职业教育决策者们提供一些就业指导的依据,即在学生从入学起,可以利用调查问卷的方式,并结合就业问题,依据规则中的相关因素合理的组织,给予学生以正确的专业指导,可在入学后第一或是第二个学期,给予学生第二次专业选择,引导学生选择对其有帮助的专业,从而提高学生的就业率。同时也指引高校的决策者们在进行招生宣传时,如何根据地区的发展进行有引导方向的招生,让毕业生流向能够较稳定让其满意的岗位,逐步扭转大量的毕业生不受社会欢迎以致供大于求的局面。
  3.2关联规则挖掘在教学评价中的应用
  每年,学校都会作一次教学评价活动,教学评价是教学过程的重要组成部分,它以教学目标为依据,制定科学的评价标准,运用一切有效的技术手段,对教与学活动的过程及其结果进行测量,并给以价值判断.无置可否,教学评价不仅对教学起着调节、控制、指导和推动作用,而且有很强的导向性,是学校教学管理工作的重要组成部分,是评价教学工作成绩的主要手段.目前,在教学评价中有几种常用的评价方法教学评价,会对教师的教学工作起到一定的促进作用。但也有一些弊端,
  第一、课程难易程度影响学生对教师评价的公正性。比如《计算机基础》课程,具有一定的操作性,学生的学习压力较小,因此,对教师的评价相对较高。但《成本会计》,则理论性较强,公式较多,学生若数学成绩不好的话,听起来非常枯燥,学生的评价则会较低。第二,不同性质的课程在专业的地位不同,采用相同的评价标准难以衡量教师的贡献。有些课程在专业中处于非常重要的地位,学生的重视程度较高。但有些选修、考查类科目在整个教学安排中处于从属地位。教师所承担的教学任务不同,工作量存在差异,然而,传统的评价体系却没能体现出这些差异。在这样的情况下,我们作数据预处理时,可给一定的课程设置一定的置信调整系数,让评价稍显公平。
  因此,使用学校教学评价系统进行数据挖掘时,我们会特别对加入对课程的评价系数。如在加入前,我们的会得到如下规则:
  规则 年龄 职称 置信度 支持度
  1 25-30 助讲,讲师 44.24 9.2
  2 31-35 讲师 28.76 18.3
  3 36-40 中级 26.92 7.8
  4 41-45 副高 47.44 6.8
  5 45-50 高级 23.90 21.1
  规则1表明;年龄在25-30岁,评定等级为优秀的可能性是44.24,支持度为9.2;规则2表明:年龄在31-35岁,评定等级为优秀的可能性是28.76,支持度为18.3;若把课程的评价体系考虑在内,如把一些基础课的系数设置为0.9(如英语,计算机基础等),一些专业基础课的系数设置为1.1(如基础会计,物流基础等),刚会得到如下的规则:
  规则 年龄 职称 课程系数 置信度 支持度
  1 25-30 助讲,讲师 1 44.24 9.1
  2 31-35 讲师 0.9 30.33 18.1
  3 36-40 中级 1.1 26.02 8.8
  4 41-45 副高 1.2 56.43 14.7
  5 45-50 高级 1.3 38.90 22.9
  从上图可看出,若课程系数为1,则跟原来的规则相比,置信度与支持度并没有太大的差别。但若课程系数为1.3,(即表明该门课程的困难指数为1.3)刚置信度与支持度平均值升高,如:年龄在41-45岁,课程系数为1.2时,评定等级为优秀的可能性是56.43,支持度为14.7。
  4结束语
  目前,计算机技术已经渗透到社会生活的各个方面,对职业教育的教学也产生了重要影响。随着教育信息化进程的推进,产生了大量的、复杂的数据,面对如此巨大的数据资源,如何从大量的教育数据中发现隐藏的、有用的知识来指导教育、更充分、更有效地加以利用,将是数据挖掘技术一个重要的课题。随着数据挖掘技术在教育领域中应用功能及技术的不断发展和完善,人们对这一技术的重视程度,相信其在教育领域的应用范围会越来越广,必将发挥越来越大的作用,并且随着其对教育的改革和发展必将起到巨大的推动作用。
  参考文献:
  [1]HanJiawei,MichelineKamber.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出舨社,2007.
  [2]段向红,张飞舟.数据挖掘技术及其在职业教育中的应用探讨[J].职业教育研究,2007,7:173-174.
  [3]陈玉婷,王斌,刘博.关联规则挖掘算法介绍[J].计算机技术与发展,2009,5:21-25.
  [4]廖燕玲.数据挖掘在学生职业能力分析中的应用[J].电脑知识与技术,2010(06).
  
其他文献
延安整风运动曾为中国共产党加强党风建设开辟了一条成功的道路,因此,本文以延安整风为例,谈谈加强党风建设的问题。思想作风上:坚持实事求是;学风上:理论联系实际;工作作风上:
本文从《计算机网络》课程教学入手,结合计算机网络课程的特点及自身的教学实践,探讨了该课程的教学方法和教学手段。
为了更好地研究模糊PID控制在电机速度控制中的应用,利用MATLAB仿真软件建立了一个仿真模型。并通过分别执行P控制、PI控制、PID控制和模糊PID控制,得到了四种控制下的电机运行
学习拖延是有目的的推迟必须完成的学习任务的行为.学习拖延是很多大学生在学习过程中的常见问题,是指学习者知道自己应该在预定时间内完成学习任务,但却不能按计划分阶段完
美国作为当今世界上经济最发达的国家,是西方民主社会的典范,有人认为美国是一个绝对自由和民主的国家,在学校不存在对学生们进行思想政治教育,但是从美国政府、美国社会到美国学校,却普遍重视思想政治教育,其途径和方式的特点是:多样化和渗透性。中国作为世界上最大的发展中国家,从古至今,历来重视思想政治教育,其教育方法也是多种多样的。但是作为两种不同社会制度的代表,中美两国的思想政治教育的主要方式呈现出不同的
美国当代教育家内尔.诺丁斯提出了以关怀为核心的教育理论,关怀理论是当代西方德育理论中影响深远的重要流派之一,关怀教育理论尊重学生的生命,珍视学生的体验和感受,强调教
摘 要 我国高校毕业生就业难已持续多年,虽然政府和高校做了大量的工作,但至今尚未根本解决。本文认为高校毕业生就业难,与我国所处的经济发展阶段、社会发展和高等教育发展状况密切相关。通过分析使我们对我国高校毕业生就业难问题有一个更加理性、全面的认识,并希望为解决该问题,提供一种可以选择的思路和方向。  关键词 高校毕业生 就业难 宏观原因  中图分类号:G47 文献标识码:A  就业是国家民生之本,社
摘 要 教育部十六号文件明确规定高等职业教育要求工学结合,任务驱动教学,培养学生的相关岗位的职业能力。传统的会计电算化专业教学方法已不适应高职教育培养目标的要求,文章分析了目前会计电算化实践教学存在的问题,认为构建以任务驱动为导向的实践教学体系尤为重要。  关键词 任务驱动 高职高专 会计电算化 实践教学  1 当前高等职业院校会计电算化实践教学存在的突出问题  1.1 实践教学内容陈旧单一  传