基于Weka的CET—4成绩的挖掘与分析

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:sonim0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要;现如今大学生人数逐年在增多,就业压力也在逐年增大,获得含金量较大的证书无疑可以增大大学生就业的优势,CET-4证书就是其中的一种。从本校大学一年级学生教育学习情况调查问卷中,运用决策树C4。5算法进行数据挖掘,可以发现学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级考试成绩之间潜在的关系。运用WEKA数据挖掘软件,可以很清晰直观的进行数据挖掘并分析出影响英语四级考试的因素,对高校英语教学有一定的指导意义。
  关键词:WEKA软件;CET-4成绩;数据挖掘;决策树
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)07-0248-02
  1引言
  大學英语四级考试,即CET-4,College English Test Band4的缩写,是由国家教育部高等教育司主持的全国性教学考试。考试有一定的难度并且监考力度大,考试成绩具有很高的可信度,因此引起了高校中学生、老师和领导的高度重视。
  学校每年都会进行在校大学生学习情况的调查,而这些数据仅仅是用在表面的数据查询,数据背后隐藏的有用信息并未被有效的挖掘出来。针对这个问题,利用WEKA数据挖掘软件中决策树J48(对C4.5进行了改进)算法,挖掘出学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系与CET-4成绩之间的潜在关系,分析出那些因素对CET-4成绩影响最大,从而总结出学习的规律,提高高校学生的CE’T-4成绩。
  2WEKA软件
  2.1WEKA数据挖掘软件介绍
  Weka的全名是怀卡托智能分析环境(WaikatoEnvironment for Knowledge Analysis),是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
  2.2WEKA数据集格式AR]EF
  ARFF(Attribute-Relation File Format)格式是一种ASCII文本文件,记录了具有共同属性的实例集。ARFF格式是数据挖掘软件WEKA所使用的文件格式。ARFF文件分为注释、关系名、属性名、数据域几大部分,注释用百分号开头%,关系名用@relation申明,属性用@attribute什么,数据域用@data开头。当数据是数值型,在属性名的后面加numeric,如果是离散值(枚举值),就用一个大括号将值域列出来。@data下一行后为数据记录,数据为矩阵形式,即每一个的数据元素个数相等,若有缺失值,就用问号?表示。
  3C4.5数据挖掘算法
  C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法ID3算法。分类决策树算法是从大量事例中进行提取分类规则的自上而下的决策树。
  ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。
  设D为用类别对训练元组进行的划分,则D的熵(entropy)表示为:
  其中pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义表示是D中元组的类标号所需要的平均信息量。
  现在我们假设将训练元组D按属性A进行划分,则A对D划分的期望信息为;
  而信息增益即为两者的差值:
  C4.5算法继承了TD3算法的优点,并对ID3算法进行了改进:
  C4.5算法首先定义了“分裂信息”,其定义可以表示成:
  其中各符号意义与ID3算法相同,然后,增益率被定义为;
  4CE4-4成绩挖掘与分析
  4.1确定挖掘对象阶段
  此次实验的数据来源于我校在校学生学习情况、学生入学信息等多个数据源,利用数据库技术将多个数据源中的可能对CET-4成绩造成影响的字段进行整合,合并成一个用于分析学生CET-4成绩的数据表。运用WEKA软件,挖掘出学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级考试成绩之间潜在的关系。
  4.2数据收集与数据预处理
  本次数据中的原始样本数据共有1650个,经过初步的数据清理、排除、整合等操作后,参与数据挖掘的数据共有1528个,样本的有效率达到了92.6%。得到了一个包含stuNum,stuName,stuSex,stuScore,stuAttitude,stuWork,stuRelation,CET4Score八个字段的影响CET4成绩的数据表,数据如表1所示。
  4.3数据转换
  首先需要对stuScore、stuWork、CET4Score字段的数据通过离散化的方法,将原本NUMERIC类型转换为NOMINAL类型。将大学生高考成绩离散化为“A”(≥120分),“B”(≥105且<120分),“C”(≥90且<105分),“D”(<90分);将学生努力程度(每日学习英语的时间)离散化为“lazy”(425分),“nopass”(分数<425分)。当进行挖掘时,剔除掉stuNum和stuNarne两个字段的值。
  4.4数据字段说明
  经过转化后,属性的可选值为:
  5实验结果
  从数据集中随机抽取1428条数据作为训练数据集,把剩余的100条数据作为测试数据集,测试决策树的正确预测率。Weka中对数据集进行决策树分析,产生的决策树如图1。
  正确率达到79.6218%,如圖2所示。
  从建立的决策树模型中推测主要影响大学一年级新生的CFA一4成绩因素有三个,学习的努力程度、对英语的学习态度、高考成绩。
  从中可以看出,学生的努力程度对第一次CET-4是否能通过,有很明显的预测作用,这也和我们本身认知一致,当付出了足够的努力,会获取相应的回报,同时培养学生的学习兴趣,对提高成绩也有很大的帮助,这个信息给了高校的英语老师一个很好的提示,尽可能的要提高学生学习兴趣,同时高考的成绩也反映出学生的基础知识,学习是个长期努力的过程,需要长时间的积累,只有对英语有兴趣,花足够多的时间来学习英语,才能更好地提高英语成绩。
  6结语
  本文研究了可能影响CET-4成绩的相关因素,介绍了C4.5数据挖掘方法,以开源数据挖掘软件WEKA平台为基础,调用其封装好的决策树J48算法,快速的挖掘出学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级考试成绩之间潜在的关系。WEKA数据挖掘软件开源并且源代码免费,是一款非常好的数据挖掘软件,利用该软件可以节省挖掘数据的时间,提高工作的效率,挖掘出数据背后的隐藏的、有价值的信息,从而提高人们的学习效率,生活质量。
其他文献
张惠雯,1978年生,祖籍河南。毕业于新加坡国立大学商学院。1995-2010年居新加坡,现居美国波士顿。小说家,新加坡《联合早报》专栏作家。作品广泛刊发于《收获》《人民文学》《上海文学》《花城》等国内著名文学期刊。曾获“新加坡金笔奖”以及“首届人民文学新人奖”、“中山文学奖”、“上海文学奖”、“储吉旺文学大奖”、“首届曹雪芹华语文学大奖”等多个国内奖项。作品多次上榜“中国小说学会年度十大短篇小说
难以控制的走神儿  小惠是一名高二女生,因为上课老是走神儿,自己难以控制,苦恼不堪,在其妈妈云女士的陪同下找到我咨询。  小惠告诉我,升入高二以后,各门功课都在赶进度,在课堂上,有时候笔记都来不及记,所以同学们都非常紧张。“我的成绩在班里只能算中等,听课对我非常重要!”小惠苦着脸说,“可是我偏偏不能集中注意力,注意力好不容易集中了,又很快涣散,导致物理、数学、化学等理科课程越来越听不懂。再这样下去
一年多以来中国汽车市场的低迷,令不少曾经风光的主流合资车企销量大幅滑坡,长安福特就是其中的一员。在巨变的市场和业绩压力面前,长安福特以前所未有的积极态度开始了应变调整。7月上旬,长安福特宣布将从销售、服务和产品三方面推出重磅举措,全面发力,投入到下半年的车市竞争中。  数据显示,今年上半年在经历了第一季度的低迷之后,长安福特终端零售从第二季度开始出现企稳回升的势头,尤其是5月份、6月份连续两个月零
摘 要:主要以小学语文生字教学——趣味五步曲为重点进行阐述,结合当下小学语文生字教学现状为依据,从游戏激趣、观察激趣、寻找激趣、评价激趣、练习激趣五个方面深入说明并探讨小学语文生字教学开展的有效方式,旨在为相关研究提供参考资料。  关键词:小学语文;生字教学;教学策略;趣味五步  对小学语文识字、写字与写话教学,尤其是生字教学,其既是学生学习语文知识的基础,又是提高学生语文生字素养的关键,对小学生
摘 要:在怀旧风潮的裹挟下,青春电影分化为作者性的青春片与类型化的青春偶像剧。通过对两种青春电影的比较,我们可以发现电影中由不同的青春观所支配的性别塑造。青春片倾向于将女性身体视为一种权力交汇的场域,而青春偶像剧则在隐藏权力操控的策略中将女性身体描画为能动的主体。  关键词:类型化 青春片 青春偶像剧 女性身体 性别叙事  一、背景:趋向类型化的青春电影  近年来,伴随着青春怀旧影像的泛滥,青春电
以前,在阅读课外书时,总想向前再跨一步,成为一名小作家。可我总觉得这一步难以逾越。那个时候,我觉得成为一名小作家的目标离我是那么遥远,我望不到路的尽头,只能看着天际呆呆地发愣。我不敢跨出这一步,我真的害怕一切到头来都是空梦一场。  然而,张老师在课堂上声情并茂地朗读了我写的一篇名为“美丽七夕”的作文。张老师说:“这篇作文构思巧妙、语言优美,是这次作文练笔中写得最好的一篇!”啊,老师在表扬我嗎?原来
40年间,千千万万妇女姐妹的个人命运、中国妇女事业的进步发展,与改革开放的光辉时代同步。  1978年底,邓小平这位改革开放的总设计师绘制了一幅宏伟蓝图,带来了中国社会崭新的思维模式。人们的激情,刹那间爆发。改革开放,为新中国注入了走向世界、与世界接轨的思想意识,带来了人们精神面貌的大变革。  有人说,改革开放后,中国女人更漂亮了,中国女人更洒脱了——烫发、披肩发、马尾发,焗油加染色,呈现出随心所
摘 要:新课改要求,必须要注重培养小学生的兴趣和爱好,用小学生能够接受的方式给他们传授科学知识,让他们能够在生活中感受到科学。科学新课标强调要把科学和生活联系在一起,不可以让学生只学会书本的知识,而不会应用到生活中去,课堂应该是连接书本和生活的桥梁,而不是隔绝生活的孤岛。因此,教师要合理安排科学课的流程,不要在讲授的时候让科学脱离现实,实现教学的生活化,探究材料的生活化,研究的生活化,作业的生活化
摘 要:在正确的合作学习观念的指引下,优化小组建设,通过激发小组成员学习的主动性、创造性,使学生以小组合作学习的形式完成特定的教学任务。让学生时刻处于团结合作学习的氛围中,学会相互合作、共同促进,从而真正促进学生素质的全面发展。  关键词:学习小组;合作;学习;评价  自主、合作、探究,是新课程改革极力倡导的学习方式。小组合作学习,一定程度上改变了教师对课堂信息源的垄断地位。通过小组合作完成特定的
我家的客厅里有一束梅,散发迷人的香味。  迷花陶醉之际,一种黯然从缝隙中展露出来——那是片枯叶。它萎缩着干骸般的身体,轻轻抱住和它一样的泥土色的枝干。冬天的寒风,让它瑟瑟发抖,但它固执地抱住枝干,哪怕只能抱住一小部分。  面前的梅花,依旧香得那么醉人,我却在她的身后,隐约看到了叶的影子。我轻轻拨弄叶子,又依稀看到了那么一个微驼老人的身影,这个老人便是我的外婆。记得老屋门前,外婆种满了果树。她总爱摘