论文部分内容阅读
随着信息化技术的发展和数据库的广泛应用,人们面对的数据规模迅速膨胀,面对这些海量、混乱的数据,传统分析方法已经无法满足人们对数据处理的需求,因此,寻求能够分析大量数据的技术成为一个迫切的需求,数据挖掘技术的出现恰好解决了这一难题。关联规则是数据挖掘中一种应用最为广泛的技术,它主要用于从大量、复杂的数据中发现各个属性之间的内在联系,得到有指导意义的规则,因而具有重要的实用价值。关联规则挖掘主要分为两个步骤:寻找频繁项集和生成规则;第一步是算法的关键,因此,如何提高寻找频繁项集的效率成为目前研究的重点。论文分析了Apriori系列算法的特点及不足,同时分析了一种改进算法-AprioriTid系列算法的优点及缺陷。针对关联规则中Apriori算法多次扫描数据库的缺陷,论文利用AprioriTid算法事务压缩的思想提出一种基于索引的Apriori改进算法。改进算法利用包含候选项集的事务标识列表计算候选项集的支持度;在剪枝过程中,采用地址索引机制减少对比次数;提出了一种快速连接事务标识列表求两列表交集的方法,并通过实验证明了算法的高效性。研究目前的关联规则衡量标准,在U检验思想基础上提出影响度衡量标准,该标准在一定程度上避免了其它标准的不足,而且能够找出无效关联规则和负关联规则,同时将正关联规则分为弱关联规则和强关联规则,给用户提供更加有效的关联规则。利用改进算法,以某高校计软学院2006级学生大学四年课程考试成绩为研究对象,通过数据清理、数据转换等数据预处理操作之后,挖掘课程之间和课程类别之间的关联关系,给出了挖掘结果并对部分规则进行解释。最后对高校成绩分析系统的总体框架和数据库进行设计;实现数据选取、数据清理、数据转换功能;挖掘前期,根据用户需求实现选择挖掘内容功能;挖掘过程中引入了规则模板,挖掘结果采用表格的形式显示,用户可以从大量规则中快速发现感兴趣的规则;同时用户可以对挖掘结果进行分类并将有效规则保存至规则库中。利用规则结果可以对学生学习成绩进行预警提示,同时辅助教学部门合理安排课程,从而达到提高学校教学质量的目的。