论文部分内容阅读
远程教育是指使用电视及互联网等传播媒体的新兴教学模式,它突破了时空的界限,学生可以随时随地上课。招生对象也不受年龄和先前学历限制,为广大已步入社会的群众提供了学历提升的机会。大规模网络在线教育课程慕课(MOOC)是远程教育的典范,通过网络整合教学资源,使得学习者有丰富的课程选择。2012年被誉为慕课发展的元年,美国顶尖大学率先建立了在线教育网站。这种新兴的远程教育方式很快就被广大学习者和各大高校认可,其注册用户数量飞速增长。用户数量的增长对其发展而言,既是机遇又是挑战。一方面可以找到在市场上的定位和可持续的收入模式,另一方面则是大量用户只简单的通过网络在线学习,学习效果差强人意。据2019年哈佛大学MOOC研究报告显示,有58%的学生有意向在网上获取技能资格证书,完成注册且能获得证书的学生占比只有6%。这表明有大量的学生不能顺利完成学业考核,甚至报名后就放弃学习。这一状况引发了公众对其授课质量的质疑,将会直接影响这种新兴远程教育的社会公信力。2020年伊始,新型冠状病毒在世界各地蔓延,许多国家关闭了学校并采用了远程教学的方式开展教学工作。学生是未来祖国建设的栋梁,如何确保他们能获得与传统课堂教育相仿的学习效果是当下的热门话题。为解决当前远程教育中学生完成率低、缺乏有效预警机制的问题,本文在慕课数据集上建立了基于图卷积神经网络的学习情况预测模型。通过该模型,管理者可以及时发现远程教育平台中有失败风险和辍学风险的学生。目前在学生学习情况预测的研究领域,按研究模型的不同可分为三大类,包括使用传统机器学习模型,多层感知机模型和卷积神经网络模型。远程教育平台上可供分析的数据一般分为三类:学生注册时的个人信息、课程信息和用户在虚拟交互系统(VLE)上的行为信息。作者指出传统机器学习模型和多层感知机模型的缺陷在于,模型需要在现有数据集上进行大量的特征工程工作。这一过程不但需要耗费大量时间,所取得效果还与研究者对数据集的熟悉程度有关。意味着模型只在特定数据集有效,无法推广到其他数据集进行工作。为解决这一问题,具有自动提取数据特征的卷积神经网络也在这一领域进行了实践。Wang等人提出一个基于卷积神经网络和循环神经网络的Con Rec Network预测学生的辍学情况,并达到了与非自动提取特征模型相当的预测效果。该模型的弊端在于,只能将用户作为单独的个体进行计算,在训练的过程中需要消耗大量时间。另外CNN网络模型无法将用户数据和用户关系图有机结合,例如:当CNN应用于任意图形(如社交网络)而不是规则网络结构,通常的卷积操作是不适用的。因为图中的每个节点邻居的数量和拓扑结构各不相同,很难对图上的数据进行固定尺寸的滤波扫描来提取特征。为解决图上的卷积问题,文中对现有的图卷积模型进行了介绍,并将图的卷积与时域卷积进行对比,进而推导出三种不同的图卷积公式。通过对现有研究的分析,学习预测的研究中很少有考虑到使用图卷积的模型。本文将学生学习情况预测问题考虑为图上的节点分类问题,分为通过、失败和辍学三大类别。每名学生可以看作图上的一个节点,学生个人信息和学习行为数据可视为节点属性,边则为学生间的某种社交关系。所提出的图卷积模型不仅克服了现有模型的不足,还强调与实际应用相结合。相比其他模型,图深度学习模型更为直观。老师可以通过用户关系图精准定位高风险学生,更利于快速找到教学环节中出现的漏洞。在实现这一过程中,主要存在两个研究难点:一是如何正确的定义用户关系,构建用户关系图。第二是如何将用户特征和用户关系图的特征有机结合,以取得更好的预测效果。针对以上两个难点,作者以英国开放大学学习分析数据集(OULAD)上的应用为例,介绍了文中所提出的方法与贡献。英国开放大学学习分析数据集包含22门课程、32000多名学生生成的数百万条记录。作者在该数据集上工作的主要贡献和创新主要有三点:第一是提出了一种将数据集中的离散数据和时间序列转换成向量的方法,并对用户特征进行了可视化分析和筛选。在这一步骤中,VLE系统中百万条时间序列的学生行为记录按时间段划分成了若干块。在每个时间段分别统计了每个用户二十种不同的交互行为信息,如某一时间段内点击量的总和等。再根据时间段的划分,使用One-hot算法将离散数据转化为符合模型使用的规范化特征矩阵。第二是介绍了图的基础知识,并使用基于决策树的数据挖掘算法定义了用户关系。在此使用决策树的目标不在于预测,而是自动获取节点的分类规则。我们将处于同一分类规则下的节点定义为同一类,在类内采用随机连接的方式连接各节点。相互连接的节点意味着存在某种社交关系(如拥有同等学历、学习时长相当等…),学习情况会相互影响。完节点关系定义完成后,计算了用户的邻接矩阵用以表示图的结构信息。第三是将学生完成情况的预测问题转换成了图上节点分类问题,提出了基于图卷积算法的预测模型。详细介绍了所提出的图卷积算法、损失计算方法和使用子掩码矩阵的训练方法。相比传统深度学习模型,图卷积模型对输入数据的要求有所不同。图卷积模型的输入由两部分构成:数据特征矩阵和代表用户关系图的邻接矩阵。通过主要贡献2所描述的方法挖掘的用户关系,按照不同的关系分别计算了多个邻接矩阵,并根据规则提取优先度计算了权重。各邻接矩阵经过加权计算后得到代表所有用户关系的加权邻接矩阵,意味着所提出图卷积方法区分了不同的用户关系。另外,所提出的图卷积算法使用了切比雪夫多项式对矩阵进行分解,将复杂的特征值计算转换为了矩阵乘法,大大减少了计算复杂度。为了测试所提出模型的性能和验证所提出方法的有效性,作者设计了五个不同的实验,并使用scikit-learn中的测试工具对模型进行评估。在实验一中,对比了所提出模型与同类慕课学习预测模型的预测效果。相比四种已有的非图卷积预测模型,图卷积模型在精确率、召回率和F1-score三方面均有明显的提高。相比同类型的图卷积模型,所提出模型准确率有所提高,并在时间花销上有明显的优势;在实验二中,对比了图卷积神经网络中使用不同的用户邻接矩阵对模型性能的影响。使用文中提出的邻接矩阵构建方法,在所有图卷积模型中都取得了最好的预测效果。这一实验结果表明,所提出基于决策树的数据挖掘方法定义了正确的用户关系;在实验三和实验四中,分析了对实验结果有影响的相关参数。综合考虑时间开销与预测性能间的平衡,通过实验得到了较优的模型参数;在实验五中,通过节点三分类问题对作者提出的模型进行评估。结果表明,所提出模型对辍学学生的预测准确率和召回率高达98%,通过考试和考试失败的预测准确率都达到了80%以上。通过文中设计的五个实验,验证了作者所做贡献和创新的可行性与有效性。所提出的图卷积神经网络模型结合了图论的知识,很好弥补了现有模型存在的不足,准确地预测出远程教育平台中的高风险学生。这一图上深度学习的创新应用,对远程教育的发展及教学质量的提高有着显著意义。