基于Apriori算法的试卷知识点关联分析

来源 :新校园·上旬刊 | 被引量 : 0次 | 上传用户：ccjhvv

【摘要】

：

【作者】

：

李毅

【出处】

：

新校园·上旬刊

【发表日期】

：

2018年7期

【关键词】

：

关联规则试卷分析 APRIORI算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：试卷分析是教学工作中的重要部分。传统试卷分析侧重借助统计方法从多个统计维度进行整体分析，缺乏对试卷知识点间关联关系的挖掘。本研究基于学生答题数据，运用Apriori算法分析了试卷中各知识点间的隐含关联关系。所得到的结论在帮助教师了解各知识点间的相互影响、改进教学方法，引导学生进行自主学习等诸多方面具有积极的作用。
　　关键词：关联规则；试卷分析；Apriori算法
　　一、引言
　　目前学校教学管理中，对学生试卷分析侧重于借助统计手段得到相关的试卷统计数据，比如：最高得分、最低得分、平均成绩、难度系数等一系列指标，缺乏针对考题知识点的评价，对学生取得这些成绩的知识层面的原因较难深入了解，对教学支持作用存在局限性。多数教师在试卷讲评环节中，对错误率高的题目进行重点讲解，再结合自身经验进行扩展延伸，这会导致试卷讲解过于主观。如何利用成绩数据理性分析学生知识点掌握情况，找出知识点间关联，是广大教师共同关心的问题。
　　Apriori算法是经典的关联规则挖掘算法之一，能够探究事物间的关联关系，建立关联规则。本文使用Apriori算法，依据学生答题数据，分析出了试卷中各题目对应知识点间的关联性，从而指导教师合理地开展教学。
　　二、关联规则算法
　　1. 关联规则算法的基本概念
　　关联规则挖掘方法由R.Agrawal等人在1993年提出，用此算法可对商店顾客的购物数据进行分析，基本思想如下：
　　设I={i1，i2，…，im}是二进制集合，其中元素称为项（item）。项的集合称为项集（itemset），包含k项的集合为k-项集。记 D 为交易（transaction）T 的集合，這里交易T 是项的集合，并且T I。设 X 是一个I 中项的集合，如果X T，那么称交易 T 包含 X 。
　　关联规则形如X→Y，其中X I，Y I，并且X∩Y=。规则X→Y在交易数据库D中的支持度（support）为交易集当中，同时包含 X 与 Y 的交易数与全部交易数的比值，记为support（X→Y）。
　　support（X→Y）=
　　支持度（support）能够反映 X 与 Y 在同一时间内出现的概率。如果二者在同一时间出现概率较小，代表二者关系不大，若二者同一时间出现概率较大，那么说明二者是相关的。
　　规则 X→Y 在交易集中的置信度（confidence）为同时包含 X 和 Y 的交易数与包含X 的交易数比值，记为confidence（X→Y）。
　　confidence（X→Y）=
　　通过置信度（confidence）我们能够判断关联性的强弱，如果置信度较高，那么X与Y的关联性很强。
　　挖掘特定交易集D的相关规则问题，就是产生那些支持度和置信度分别大于最小支持度和最小置信度的关联规则。
　　计算频繁项集是关联规则挖掘的关键，主要有两种算法：R.Agrawal提出的Apriori算法，与Jiawei Han提出的FP-growth算法。本文采用Apriori算法计算频繁项集，并对知识点的关联性进行分析。
　　2. Apriori算法步骤
　　步骤一：确定最小支持度与最小置信度。
　　步骤二：对事务集D进行扫描，分析事务中出现的项目，如果首次遇到该项目，那么加入候选集C1，并将对应的计数置为1；如果该项数据已加入C1，则将其计数值加上1得到了候选1-项集。扫描C1，对于计数小于最小支持度的数据项集进行删除，得到频繁项集 L1。
　　步骤三：对 Lk-1 和 Lk-1 进行连接生成 Lk，得到所有长度为k的候选k-项集 Ck 。
　　步骤四：对 Ck 进行剪枝，删除所有（k-1）-子集不全包含在Lk-1中的 Ck 中的数据项集。
　　步骤五：扫描事务集D中的所有事务，如果它包含 Ck 中的候选数据项集c，则将c的计数加1（初始值为0）。扫描 Ck 删除那些出现计数小于最小支持度的数据项集，得到频繁项集 Lk 。
　　步骤六：重复步骤三到步骤五，直到 Lk 为空。
　　步骤七：对 L1 到 Lk 取并集最终即为频繁项集L。
　　三、 Apriori算法在试卷分析中的应用研究
　　1. 数据的准备
　　本文以某中学初一年级上学期期末数学考试卷面成绩为数据基础，结合学科知识结构及教学主要知识点分布。首先，对试卷各试题所包含的知识点进行统计，如表1所示。然后，对学生题目的作答成绩进行录入，如表2所示。
　　2. 数据的清理
　　重点检查数据缺失的情况，对于成绩的缺失，通常采用录入平均值的方式。对学生答题情况进行记录，客观题采用“0”和“1”来描述学生试题的正确与否，主观题以得分率进行记录。针对试卷知识点的关联分析中，那些难度过大或过小的题目会导致分析结果中体现对这些题目的关联性过强，影响分析结果。因此需计算各题目的难易度，将过于简单和困难的题目排除。
　　3. 数据离散化处理
　　由于关联分析只能对处于区间数据进行分析，需要对数据进行离散化处理，通过离散化处理后，连续的数值会被区域数值代替。得分率小于等于0.5量化为0，得分率大于0.5量化为1，如表3所示。
　　利用Apriori算法对形如表3所示的数据进行关联规则挖掘。当最小支持度下限设为0.5，最小置信度下限设为0.7时，产生如表4的部分挖掘结果。
　　4. 计算结果分析
　　以下为得到的部分关联规则：
　　规则1：一元一次方程的应用=>数轴
　　此规则的意思是：在一元一次方程的应用知识点得分较高的学生对包含数轴知识点的题目得分也会高。这表明考察数轴知识点的题目会结合一元一次方程应用的知识，教师在讲解数轴时，注意带领学生回顾一元一次方程解法的相关内容。
　　规则2：有理数的混合运算=>频数直方图、用样本估计总体
　　此规则的意思是：解有理数混合运算题目得分较高的学生在解包含频数直方图和用样本估计总体的题目得分也较高。这说明掌握有理数混合运算是解包含频数直方图和用样本估计总体知识点的基础。
　　四、小结
　　实践证明将Apriori算法应用到试卷知识点分析中，能够帮助教师更加客观地评价学生知识掌握情况，为教师调整教学安排与教学方法提供参考，从而提升教学质量。
　　参考文献：
　　[1]沈学珺.大数据对教育意味着什么[J].上海教育科研，2013（9）：9-13.
　　[2]陈明选，许晓群，王玉家.基于教育测评数据分析的教学优化研究[J].中国电化教育，2018（5）：80-89.
　　[3]Agrawal R，hnielinski T，Swami A.Mining Association Rules Between Sets of Items in Large Databases[C]. Proceedings of the ACM SIGMOD Conference on Management of Data，New York：ACM，1993：207.
　　[4]Agrawal R，Srikant R.Fast Algorithms for Mining Association Rules[C].In Proceeding of the 20th International Conference on Very Large Database，1994：487-498.
　　[5]Jiawei Han，Jian Pei，Yiwen Yin. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record，2000，29（2）.
　　[6]倪海儿，裘晓华，魏丹毅.试卷质量评估与分析系统的构建与实现[J].宁波大学学报（理工版），2016，29（3）：118-122.

其他文献

露地蔬菜周年生产高效种植模式

1 春马铃薯--伏萝卜--夏大白菜--菠菜春马铃薯选用早熟、优质、丰产的"东农303”、"津引8号”等品种,2月中旬选择无病种薯进行切块催芽.3月上旬芽长2cm时即可播种,播前施肥并

期刊

露地蔬菜周年生产种植模式春马铃薯夏大白菜伏萝卜

力的不确定分解规律及计算机演示

力的不确定分解是指求一个力Ｆ的两个分力Ｆ1和Ｆ2。按照平行四边形法则,分解的方案必须具备以下条件:已知一个分力的大小和方向;或者已知两个分力的方向。另一种情况:已知两个分力

期刊

力不确定分解规律计算机演示

开封市男女体检对象空腹血糖的年龄差异

[目的]了解开封市男女体检者空腹血糖（FPG）年龄上的差异。[方法]收集2015年河南大学淮河医院体检者血常规、生化检验数据进行统计学分析。[结果]男性FPG=（5.93±1.64）mmol/L,

期刊

体检人群性别空腹血糖年龄physical examination crowdsex；fasting plasma glucoseage

江苏省鸟类一新记录──黄爪隼

江苏省鸟类一新记录──黄爪隼唐伯平（江苏盐城师专生物系，盐城２２４００２）吕士诚（江苏盐城国家自然保护区，盐城２２４３３３）１９９２年１２月８日笔者于江苏省射阳县新洋港滩涂（３３．６°Ｎ，１２０．５°Ｅ）捕获１只雌性黄瓜隼（Ｆａｌｃｏｎａｕｍａｎｎｉ...

期刊

TRIMERESURUSyunnanensisOvophiszayuensisGolydiusstrauchiimonticolaRhabdoph

《湖南有色金属》1989年总目录

期刊

湖南有色金属化学元素周期表网络计划技术稀散硫化矿原子吸收综合回收点柱充填法阻化剂矿产资源

慕课环境下高职英语教学研究

摘要：作为一种网络教学新模式，慕课在当代教育中掀起了教学改革的热潮。本文以高职英语教学为研究对象，以其在慕课背景下的教学改革为研究目标，以期利用慕课提升高职英语教师的专业能力，丰富授课类型，构建多元化的高职英语教学评价体系。　　关键词：慕课；高职英语；多元化　　慕课（MOOC），属于在线课程教学，具有开放性和规模性的特点。它通过运用网络和通信技术，将世界各个地区的优秀教学资源汇集在一起，使参与者能

期刊

慕课高职英语多元化

全息照片不成二级以上的像

现在大学的光学课程里几乎都有全息照相这一现代技术的内容。全息照相是一种两步成像法:第一步是先将感光胶板置于物光和参考光的干涉区内曝光,将曝光后的干板冲洗显影得到所

期刊

全息照片光学光栅衍射

土地荒漠化的含义

<正> 通俗地说,土地荒漠化,就是可耕土地变成荒漠。联合国给土地荒漠化下的定义是:荒漠化是指包括因自然变异和人类活动在内的干旱、半干旱和亚湿润地区的土地退化,其中包括:

期刊

土地荒漠化原因分析定义

水萝卜缺硼也会空心

<正> 人们都知道秋萝卜空心症是缺硼所致,故种秋萝卜时都很注意用硼肥。其实,春、夏水萝卜(小萝卜)同样会发生缺硼症,致使空心。空心萝卜重量轻,质量差,肉质发褐,食性不佳,商

期刊

水萝卜生长期

“南岳唱酬”另面观

《南岳倡酬集》是张栻、朱熹、林用中三人于乾道三年游南岳唱酬的诗歌结集,存诗一百四十余首。学界对《南岳倡酬集》古藏本及集中诗之真伪、倡酬诗内涵与风格多有研究。但"南

期刊

南岳唱酬张栻朱熹林用中社会活动

基于Apriori算法的试卷知识点关联分析

与本文相关的学术论文