论文部分内容阅读
随着信息技术的发展,教育的形式与方法均发生了巨大的变化,并产生了大量与教育相关的数据。同时,大数据处理技术的发展及数据挖掘领域的繁荣使得大数据时代逐渐到来。将数据挖掘技术应用于教育学领域被称为教育数据挖掘,简称EDM。EDM是一个交叉学科,涉及计算机科学、教育学、统计学等多个领域。成绩预测是EDM研究中较为经典的应用场景之一。目前的成绩预测研究主要基于智能教学系统和数字化教学软件等信息化教学平台,成果仅能用于分析特定系统,有较强的针对性,但通用性较弱。以此为背景,本文对学生访问网络的日志数据及其以往的教学信息进行数据分析和数据挖掘,从而预测他们数据结构课程能否及格。在前期研究中,根据学生访问各类网站的频次信息及高等数学成绩进行成绩预测,取得了一定的效果。此次研究中作者以此为基础,提取学生访问百度文库的时间及频次数据,并将其作为新的特征加入原数据集中,以期进一步提升预测效果。在进行百度文库访问时间提取时,通过仔细观察百度文库相关的网络日志,发现了百度文库访问状态转移模型,并以此为基础得到了一种可以较精确地估计访问时间的方法。接下来作者按文档类型统计了学生访问百度文库的频次信息,进而确定了与数据结构成绩最相关的7种文档类型。为了提高学生成绩预测的准确性,作者按一定的顺序将新特征加入到模型中。在进行特征组合时考虑了使用新特征及不使用新特征、采用粗略访问时间及精确访问时间、采用重点文档类型及非重点文档类型几种情况。研究同时表明,采用精确访问时间和重点文档类型能有效地提高预测的准确率。通过采用最优的特征组合,本文提出的方法将预测结果的特异性从52.94%提升到了70.59%,同时敏感性保持在了80%以上。最后,对全文进行了总结,同时提出了下一步的工作。研究发现,使用网络访问日志和以往的考试成绩进行成绩预测是可行的。本研究使用的数据集不依赖于某些特定的教学系统,因此具有较强的通用性,克服了当前大多数成绩预测研究的缺点,理论上该方法具有可移植性。