论文部分内容阅读
摘 要:试卷分析是教学工作中的重要部分。传统试卷分析侧重借助统计方法从多个统计维度进行整体分析,缺乏对试卷知识点间关联关系的挖掘。本研究基于学生答题数据,运用Apriori算法分析了试卷中各知识点间的隐含关联关系。所得到的结论在帮助教师了解各知识点间的相互影响、改进教学方法,引导学生进行自主学习等诸多方面具有积极的作用。
关键词:关联规则;试卷分析;Apriori算法
一、引言
目前学校教学管理中,对学生试卷分析侧重于借助统计手段得到相关的试卷统计数据,比如:最高得分、最低得分、平均成绩、难度系数等一系列指标,缺乏针对考题知识点的评价,对学生取得这些成绩的知识层面的原因较难深入了解,对教学支持作用存在局限性。多数教师在试卷讲评环节中,对错误率高的题目进行重点讲解,再结合自身经验进行扩展延伸,这会导致试卷讲解过于主观。如何利用成绩数据理性分析学生知识点掌握情况,找出知识点间关联,是广大教师共同关心的问题。
Apriori算法是经典的关联规则挖掘算法之一,能够探究事物间的关联关系,建立关联规则。本文使用Apriori算法,依据学生答题数据,分析出了试卷中各题目对应知识点间的关联性,从而指导教师合理地开展教学。
二、关联规则算法
1. 关联规则算法的基本概念
关联规则挖掘方法由R.Agrawal等人在1993年提出,用此算法可对商店顾客的购物数据进行分析,基本思想如下:
设I={i1,i2,…,im}是二进制集合,其中元素称为项(item)。项的集合称为项集(itemset),包含k项的集合为k-项集。记 D 为交易(transaction)T 的集合,這里交易T 是项的集合,并且T I。设 X 是一个I 中项的集合,如果X T,那么称交易 T 包含 X 。
关联规则形如X→Y,其中X I,Y I,并且X∩Y=。规则X→Y在交易数据库D中的支持度(support)为交易集当中,同时包含 X 与 Y 的交易数与全部交易数的比值,记为support(X→Y)。
support(X→Y)=
支持度(support)能够反映 X 与 Y 在同一时间内出现的概率。如果二者在同一时间出现概率较小,代表二者关系不大,若二者同一时间出现概率较大,那么说明二者是相关的。
规则 X→Y 在交易集中的置信度(confidence)为同时包含 X 和 Y 的交易数与包含X 的交易数比值,记为confidence(X→Y)。
confidence(X→Y)=
通过置信度(confidence)我们能够判断关联性的强弱,如果置信度较高,那么X与Y的关联性很强。
挖掘特定交易集D的相关规则问题,就是产生那些支持度和置信度分别大于最小支持度和最小置信度的关联规则。
计算频繁项集是关联规则挖掘的关键,主要有两种算法:R.Agrawal提出的Apriori算法,与Jiawei Han提出的FP-growth算法。本文采用Apriori算法计算频繁项集,并对知识点的关联性进行分析。
2. Apriori算法步骤
步骤一:确定最小支持度与最小置信度。
步骤二:对事务集D进行扫描,分析事务中出现的项目,如果首次遇到该项目,那么加入候选集C1,并将对应的计数置为1;如果该项数据已加入C1,则将其计数值加上1得到了候选1-项集。扫描C1,对于计数小于最小支持度的数据项集进行删除,得到频繁项集 L1。
步骤三:对 Lk-1 和 Lk-1 进行连接生成 Lk,得到所有长度为k的候选k-项集 Ck 。
步骤四:对 Ck 进行剪枝,删除所有(k-1)-子集不全包含在Lk-1中的 Ck 中的数据项集。
步骤五:扫描事务集D中的所有事务,如果它包含 Ck 中的候选数据项集c,则将c的计数加1(初始值为0)。扫描 Ck 删除那些出现计数小于最小支持度的数据项集,得到频繁项集 Lk 。
步骤六:重复步骤三到步骤五,直到 Lk 为空。
步骤七:对 L1 到 Lk 取并集最终即为频繁项集L。
三、 Apriori算法在试卷分析中的应用研究
1. 数据的准备
本文以某中学初一年级上学期期末数学考试卷面成绩为数据基础,结合学科知识结构及教学主要知识点分布。首先,对试卷各试题所包含的知识点进行统计,如表1所示。然后,对学生题目的作答成绩进行录入,如表2所示。
2. 数据的清理
重点检查数据缺失的情况,对于成绩的缺失,通常采用录入平均值的方式。对学生答题情况进行记录,客观题采用“0”和“1”来描述学生试题的正确与否,主观题以得分率进行记录。针对试卷知识点的关联分析中,那些难度过大或过小的题目会导致分析结果中体现对这些题目的关联性过强,影响分析结果。因此需计算各题目的难易度,将过于简单和困难的题目排除。
3. 数据离散化处理
由于关联分析只能对处于区间数据进行分析,需要对数据进行离散化处理,通过离散化处理后,连续的数值会被区域数值代替。得分率小于等于0.5量化为0,得分率大于0.5量化为1,如表3所示。
利用Apriori算法对形如表3所示的数据进行关联规则挖掘。当最小支持度下限设为0.5,最小置信度下限设为0.7时,产生如表4的部分挖掘结果。
4. 计算结果分析
以下为得到的部分关联规则:
规则1:一元一次方程的应用=>数轴
此规则的意思是:在一元一次方程的应用知识点得分较高的学生对包含数轴知识点的题目得分也会高。这表明考察数轴知识点的题目会结合一元一次方程应用的知识,教师在讲解数轴时,注意带领学生回顾一元一次方程解法的相关内容。
规则2:有理数的混合运算=>频数直方图、用样本估计总体
此规则的意思是:解有理数混合运算题目得分较高的学生在解包含频数直方图和用样本估计总体的题目得分也较高。这说明掌握有理数混合运算是解包含频数直方图和用样本估计总体知识点的基础。
四、小结
实践证明将Apriori算法应用到试卷知识点分析中,能够帮助教师更加客观地评价学生知识掌握情况,为教师调整教学安排与教学方法提供参考,从而提升教学质量。
参考文献:
[1]沈学珺.大数据对教育意味着什么[J].上海教育科研,2013(9):9-13.
[2]陈明选,许晓群,王玉家.基于教育测评数据分析的教学优化研究[J].中国电化教育,2018(5):80-89.
[3]Agrawal R,hnielinski T,Swami A.Mining Association Rules Between Sets of Items in Large Databases[C]. Proceedings of the ACM SIGMOD Conference on Management of Data,New York:ACM,1993:207.
[4]Agrawal R,Srikant R.Fast Algorithms for Mining Association Rules[C].In Proceeding of the 20th International Conference on Very Large Database,1994:487-498.
[5]Jiawei Han,Jian Pei,Yiwen Yin. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record,2000,29(2).
[6]倪海儿,裘晓华,魏丹毅.试卷质量评估与分析系统的构建与实现[J].宁波大学学报(理工版),2016,29(3):118-122.
关键词:关联规则;试卷分析;Apriori算法
一、引言
目前学校教学管理中,对学生试卷分析侧重于借助统计手段得到相关的试卷统计数据,比如:最高得分、最低得分、平均成绩、难度系数等一系列指标,缺乏针对考题知识点的评价,对学生取得这些成绩的知识层面的原因较难深入了解,对教学支持作用存在局限性。多数教师在试卷讲评环节中,对错误率高的题目进行重点讲解,再结合自身经验进行扩展延伸,这会导致试卷讲解过于主观。如何利用成绩数据理性分析学生知识点掌握情况,找出知识点间关联,是广大教师共同关心的问题。
Apriori算法是经典的关联规则挖掘算法之一,能够探究事物间的关联关系,建立关联规则。本文使用Apriori算法,依据学生答题数据,分析出了试卷中各题目对应知识点间的关联性,从而指导教师合理地开展教学。
二、关联规则算法
1. 关联规则算法的基本概念
关联规则挖掘方法由R.Agrawal等人在1993年提出,用此算法可对商店顾客的购物数据进行分析,基本思想如下:
设I={i1,i2,…,im}是二进制集合,其中元素称为项(item)。项的集合称为项集(itemset),包含k项的集合为k-项集。记 D 为交易(transaction)T 的集合,這里交易T 是项的集合,并且T I。设 X 是一个I 中项的集合,如果X T,那么称交易 T 包含 X 。
关联规则形如X→Y,其中X I,Y I,并且X∩Y=。规则X→Y在交易数据库D中的支持度(support)为交易集当中,同时包含 X 与 Y 的交易数与全部交易数的比值,记为support(X→Y)。
support(X→Y)=
支持度(support)能够反映 X 与 Y 在同一时间内出现的概率。如果二者在同一时间出现概率较小,代表二者关系不大,若二者同一时间出现概率较大,那么说明二者是相关的。
规则 X→Y 在交易集中的置信度(confidence)为同时包含 X 和 Y 的交易数与包含X 的交易数比值,记为confidence(X→Y)。
confidence(X→Y)=
通过置信度(confidence)我们能够判断关联性的强弱,如果置信度较高,那么X与Y的关联性很强。
挖掘特定交易集D的相关规则问题,就是产生那些支持度和置信度分别大于最小支持度和最小置信度的关联规则。
计算频繁项集是关联规则挖掘的关键,主要有两种算法:R.Agrawal提出的Apriori算法,与Jiawei Han提出的FP-growth算法。本文采用Apriori算法计算频繁项集,并对知识点的关联性进行分析。
2. Apriori算法步骤
步骤一:确定最小支持度与最小置信度。
步骤二:对事务集D进行扫描,分析事务中出现的项目,如果首次遇到该项目,那么加入候选集C1,并将对应的计数置为1;如果该项数据已加入C1,则将其计数值加上1得到了候选1-项集。扫描C1,对于计数小于最小支持度的数据项集进行删除,得到频繁项集 L1。
步骤三:对 Lk-1 和 Lk-1 进行连接生成 Lk,得到所有长度为k的候选k-项集 Ck 。
步骤四:对 Ck 进行剪枝,删除所有(k-1)-子集不全包含在Lk-1中的 Ck 中的数据项集。
步骤五:扫描事务集D中的所有事务,如果它包含 Ck 中的候选数据项集c,则将c的计数加1(初始值为0)。扫描 Ck 删除那些出现计数小于最小支持度的数据项集,得到频繁项集 Lk 。
步骤六:重复步骤三到步骤五,直到 Lk 为空。
步骤七:对 L1 到 Lk 取并集最终即为频繁项集L。
三、 Apriori算法在试卷分析中的应用研究
1. 数据的准备
本文以某中学初一年级上学期期末数学考试卷面成绩为数据基础,结合学科知识结构及教学主要知识点分布。首先,对试卷各试题所包含的知识点进行统计,如表1所示。然后,对学生题目的作答成绩进行录入,如表2所示。
2. 数据的清理
重点检查数据缺失的情况,对于成绩的缺失,通常采用录入平均值的方式。对学生答题情况进行记录,客观题采用“0”和“1”来描述学生试题的正确与否,主观题以得分率进行记录。针对试卷知识点的关联分析中,那些难度过大或过小的题目会导致分析结果中体现对这些题目的关联性过强,影响分析结果。因此需计算各题目的难易度,将过于简单和困难的题目排除。
3. 数据离散化处理
由于关联分析只能对处于区间数据进行分析,需要对数据进行离散化处理,通过离散化处理后,连续的数值会被区域数值代替。得分率小于等于0.5量化为0,得分率大于0.5量化为1,如表3所示。
利用Apriori算法对形如表3所示的数据进行关联规则挖掘。当最小支持度下限设为0.5,最小置信度下限设为0.7时,产生如表4的部分挖掘结果。
4. 计算结果分析
以下为得到的部分关联规则:
规则1:一元一次方程的应用=>数轴
此规则的意思是:在一元一次方程的应用知识点得分较高的学生对包含数轴知识点的题目得分也会高。这表明考察数轴知识点的题目会结合一元一次方程应用的知识,教师在讲解数轴时,注意带领学生回顾一元一次方程解法的相关内容。
规则2:有理数的混合运算=>频数直方图、用样本估计总体
此规则的意思是:解有理数混合运算题目得分较高的学生在解包含频数直方图和用样本估计总体的题目得分也较高。这说明掌握有理数混合运算是解包含频数直方图和用样本估计总体知识点的基础。
四、小结
实践证明将Apriori算法应用到试卷知识点分析中,能够帮助教师更加客观地评价学生知识掌握情况,为教师调整教学安排与教学方法提供参考,从而提升教学质量。
参考文献:
[1]沈学珺.大数据对教育意味着什么[J].上海教育科研,2013(9):9-13.
[2]陈明选,许晓群,王玉家.基于教育测评数据分析的教学优化研究[J].中国电化教育,2018(5):80-89.
[3]Agrawal R,hnielinski T,Swami A.Mining Association Rules Between Sets of Items in Large Databases[C]. Proceedings of the ACM SIGMOD Conference on Management of Data,New York:ACM,1993:207.
[4]Agrawal R,Srikant R.Fast Algorithms for Mining Association Rules[C].In Proceeding of the 20th International Conference on Very Large Database,1994:487-498.
[5]Jiawei Han,Jian Pei,Yiwen Yin. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record,2000,29(2).
[6]倪海儿,裘晓华,魏丹毅.试卷质量评估与分析系统的构建与实现[J].宁波大学学报(理工版),2016,29(3):118-122.