基于学习分析的在线学业成就影响因素研究

来源 :中国电化教育 | 被引量 : 0次 | 上传用户:panfeng123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:如何利用数据和模型来预测学业成功与失败是学习分析领域的核心问题。该文通过对现有文献检索分析出目前研究中主要影响学业成就的要素,结合对原始数据的深度处理,得到和学习相关的高级行为指标,利用机器学习中神经网络、决策树及线性回归算法分别建模分析。研究发现:学习态度、学习及时水平和投入水平是影响在线学业成就的主要因素,耐挫水平为次要因素,而互动水平、积极水平和阶段成效对最终的学业成就无关。该文最后对研究结果进行了反思后认为,课程选取对研究在线学业成就要素有非常大的影响。
  关键词:学习分析;在线课程;学业成就;机器学习
  中图分类号:G434 文献标识码:A
  一、引言
  随着大数据的应用普及,很多行业(如金融、零售)都发生了巨大的变化。但一直以来,教育领域是在大数据中受益最少的领域之一,缺乏“数据驱动的思维(Data-driven Mind-set)”是教育领域当今面临的主要障碍。相对于流程清晰规范的金融系统,教育是一个超级复杂的系统,各类教育实践活动产生了比金融行业要多得多的数据。因此,如何利用好教育数据,并从中发掘其背后的教育规律成了研究者最近关注的重点。自2010年起,学习分析(Learning Analytics,简称LA)逐渐从分析领域独立出来,吸纳数据挖掘、社会网络分析、统计分析等多种分析方法,形成了一个独立的新兴领域。从此,学习分析作为分析技术在教育领域中的应用和发展,受到越来越多研究者的关注和重视。运用在教育领域的学习分析主要任务是通过对学习者产生和收集到的相关数据进行分析和阐释,来评估学习者的学业成就、预测其学习表现并发现存在问题的过程。因此如何利用学习分析技术来预测学业成功与失败是该领域核心问题。
  二、文献综述
  最近几年,围绕学业分析与学业成就这一话题,国内外学者的研究主要聚焦在学业成就模型和指标的研究上。Usamah通过对14个典型的学习分析系统和应用进行研究后指出,学习分析中数据输入应该包含尽可能多的数据,而不应绑定在两种或三种类型的数据中,并最终梳理出包含学习者往期学业表现、课程参与情况、学习者背景、社交表现等多个预测学业表现的重要指标。Bukralia使用学业能力、经济水平、学业目标、技术准备、人口统计、课程动机与参与以及课程特征作为预测学业风险或成就的指标。G.Siemens等对学习者基本情况、学习目标、动机水平、认知风格、学习需要的数据进行收集,并对在线学习影响因素进行分析,其成果为促进学生学业成功提供了有力支撑。武法提和牟智佳基于学习者行为分析提出了以教学目标分类理论、个性化学习理论和社会认知理论为指导的,以“目标-过程-结果”为思想的学习结果分类预测框架,并以edX平台上一门MOOC课程的学习行为数据为研究对象进行探索,通过将视频学习次数、文本学习次数、评价参与时长、评价参与次数和论坛主题发起数作为行为指标组合,发现学习次数的预测效果要好于學习时长,并与学习时长和学习次数结合后的预测效果接近。李爽等基于学习者在线学习行为投入归纳出参与、坚持、专注、交互、学术挑战、学习自我监控等六个在线学业成就评价指标维度。陈子健等通过计算所有单个数据属性和学业成绩类别之间的相关系数及计算所有属性的信息增益率两种方法共同确定学业成绩的影响因素。
  通过对以上分析研究发现,在研究内容及数据的处理上,目前大部分研究主要以理论探讨、框架分析为主,部分以数据为基础的实证分析主要是使用了在线平台基础的原始数据,如各类行为的时长、频次等,对同一行为的多条数据的处理方法主要是取均值,如用所有练习的成绩平均值来代表最终成绩等。鉴于在线学习不同用户的学习习惯不同、分配时间的方式不同、每个练习难度也不同,同一个学习者完成相似任务所需要的时间及次数差异都非常大,不同的学习者完成不同任务的次数和时间会相差更大,对原始数据简单的均值处理显然不太合理,因此需要对原始数据进行归一化处理。如Grabe和Sigler通过研究对各类时间进行了估计,所有超过2分钟的学习行为时间将被替换成2分钟,选择题答题时间最高设定为90秒,使用这种简单规则,的确降低了数据的处理难度,在一定程度上对数据进行了归一化处理,但同时也丢失了包含大量用户特征的数据。在研究方法上,很多研究都通过理论分析指出了影响在线学习学业成就的因素,然后通过调查问卷或少量在线数据来建模验证,数据处理的方式多用回归分析或结构方程模型,很少使用大数据研究所采用的机器学习算法来进行建模并对模型进行深入分析。
  三、分析框架
  本研究参照上述文献中关于学业成就框架的研究结果,对基本的原始数据进行归一化处理后,结合文献中研究得出的影响学业成就指标,选取了及时水平、投入水平、互动水平、耐挫水平、积极水平、学习态度、阶段成效等七个维度作为分析在线学业成绩的指标,并选择了对相关底层数据进行更深入挖掘后所形成的“高级数据”作为以上维度的指标项,构建了学业成绩要素分析的框架,如表1所示。使用线下成绩作为学业成就的标签数据,利用机器学习算法构建模型,分析哪些指标是影响在线学习成就的主要指标。
  (一)第一次学习课程时间
  考虑到课程的创建与发布时间不一定就是学习者可以学习的时间,因此本研究使用课程第一个学习者开始学习的时间为起始点,其他学习者第一次学习课程的时间与起始点之间的间隔,即为该学习者的第一次学习课程时间,该时间为相对时间,以天为单位。第一次学习课程的时间反映了学习者能否迅速开始学习活动。
  (二)平均客观题开始答题时间
  客观题开始答题时间:采用和第一次学习课程时间相同的研究方法,将从每个客观题作业第—个学习者开始答题的时间开始,到其他学习者开始作答该客观题作业时间结束,定义为该学习者该客观题的开始答题时间,该时间为相对时间,以天为单位。
  平均客观题开始答题时间:某学习者某一门课程全部客观题作业的客观题开始答题时间的平均值定义为该学习者的平均客观题开始答题时间。通过平均客观题开始答题时间,可以反映出学习者开始学习课程新资源的主动性和及时性。   (三)客观题平均答题时长偏移
  客观题答题合理时长:本研究以每个客观题任务为单位,基于在线认真学习的学习者成绩大部分都能超过均分的假设,选取所有完成该任务且评分大于本题均分的学习者完成时间为样本计算该任务的答题合理时间。具体做法如下:对于每个课程的客观题,不同学生完成时间相差非常大,如某客观题任务(10道选择题)最短答题时间12秒,最长时间约1200秒,相差近100倍,因此在计算答题平均时间时如果将所有的样本都计算在内,必然有很大误差。在实际操作时,先通过箱线图去除异常值,将剩下的样本时间计算均值,得到某个课程客观题答题合理时长。如果答题时间过长或过短,都可能是学习者完成任务时投入不够,过长的答题时间意味着学习者在完成任务过程中有其他和当前任务无关的行为,过短的答题时间则可能是学习者对所回答的问题缺乏深入的思考。
  客观题平均答题时长偏移:将每次任务的时长减去该任务合理时长定义为答题时长偏移,所有的答题时长偏移的绝对值的均值即客观题平均答题时长偏移。该指标项反映了学生的学习投入水平。
  (四)观看视频是否中断
  视频中断的类型分为2种,一种是暂停视频播放做某个其他事情后继续播放(视频页面没有关闭),另一种是直接关闭视频播放页面后退出视频的播放。鉴于第一种暂停行为页面没有关闭,可能是学习者正在完成某个练习,或者暂停做线下笔记(也可能是做线下和学习无关的事,但无法及时检测),所以认为学习仍在进行。本研究主要关注的是第二种,即是否能在不关闭视频窗口的情况下一次完整看完视频。
  观看进度与观看次数:每个视频每次的观看时间和视频长度之比定义为视频的观看进度。某个视频每次观看进度越大,观看次数越少,则说明用户观看视频注意力越集中;而视频每次观看进度越小,观看次数越多则可以认为学习者投入学习活动的程度不够。因此,可以使用课程内所有视频的平均观看进度和观看次数来描述学习者观看视频的精力集中程度。
  (五)论坛中发帖、回帖及跟帖
  本研究中为了方便描述,对发帖、回帖及跟帖定义界定如下:
  发帖:学习者在课程的论坛中,发表一个新话题供大家讨论的行为,定义为发帖。
  回帖:学习者在课程论坛对某个发贴发表的自己关于本话题的看法的行为,定义为回帖。
  跟帖:学习者在课程论坛中对某发贴的回帖给予一定评价或看法的行为,定义为跟帖。
  通过学习者在课程论坛中是否回帖或跟帖及回帖跟帖的数量作为指标来反映学习者主动参与互动的情况。一般可以认为,回帖跟帖的数量越多,学习者参与互动的主动性越强。在论坛中是否能主动发帖,可以反映出学习者在学习过程中遇到问题后,是否能主动向同伴寻求帮助。
  (六)坚持度
  当学习者遇到较难任务时,能够克服困难,克服畏难情绪,继续任务的倾向程度,可以表示为坚持度。在线课程的学习中,会有一定的主观题作业和客观题作业。在完成作业的过程中,如果连续答题遭到挫折(成绩低于60分),学习者一般会产生畏难情绪,放弃后续课程的学习,最终导致学习失败;如果学习者能克服困难,坚持完成后续的学习,则有可能获得最后的成功。样本中课程共8周,有8个客观题练习,按周次把練习题分成了前后2部分。如总体受到的挫折次数(NoS: Number of Setbacks)较多,且后期答题次数(NoA: Number of Answers)仍然较多,则认为该学习者坚持度(DoP:Degree of Persistence)比较高。学习者在遭受挫折(或成功,NoS=O)后,放弃了后期的答题(NoA=O),则其坚持度为0,如果NoA
其他文献
生育文明代表着新时期人口计生工作.的发展方向.推进生育文明是稳定低生育水平、统筹解决人口问题的必然选择。蕲春县人口计生工作在2007年成功跳出全省重点管理边缘的基础上.继
【正】深入有效地开展大学生党员考核工作是增强学生党员教育管理,构建发挥党员先锋模范作用长效机制的重要举措。在当前的学生党员考核中,评价量表法是广为采用的一种考核工
20世纪80年代,世界新技术革命、中国改革开放风云际会,武汉东湖新技术开发区应运而生。1988年正式成立:1991年被国务院批准为国家级高新区;2001年被国家发改委、科技部批准为国家
【正】2008年1月23日,中央四部局《关于全国博物馆、纪念馆免费开放的通知》联合下发之后,出现了博物馆相继开放的新形势,同时也遇到了一些尴尬局面。一、不乐观现象1、门庭
一、构建大交通大物流是我国经济发展大势所趋(一)我国经济全面提速要求构建大交通大物流改革开放以来,我国国民经济迅猛发展。2007年,全国GDP总量达到30100亿美元,占全世界10%
【正】近几年来我国大力发展民办教育,鼓励社会力量办学,于是一大批独立学院蓬勃发展,给我国的教育事业注入了不少新鲜的血液。独立学院大多依托一所公办高校,并借助于这所学
开展深入学习实践科学发展观活动.是党中央作出的一项重大战略部署.也是当前的一项重要政治任务。湖北省高速公路实业开发有限公司在深入学习实践科学发展观活动中.始终把握科学
改革开放与现代化建设事业已走过30年的历程。30年来,曾有三次思想大解放,这三次大解放都起到拨乱反正,推动经济社会发展的作用,成为我国改革开放过程中具有里程碑意义的事件。在