论文部分内容阅读
随着信息技术的飞速发展,数据积压现象越来越严重,人们面临海量数据却无从下手,数据挖掘技术的诞生,使得人们从这样的尴尬情形中解放出来。作为数据挖掘领域的一个重要分支,关联规则数据挖掘由于其简单、易于表示和理解而得到了广泛的研究。关联规则数据挖掘存在两类代表性算法,一类是以Apriori算法为代表的候选项集至频繁项集迭代算法;另一类足以FP树算法为代表的无需产生候选项集的频繁项集生成算法。本文针对关联规则数据挖掘做了理论上的研究并且在此基础上对研究生信息数据库进行了挖掘实验。
本文主要做了以下几个方面的工作:
(1)研究基于图的关联规则挖掘算法DLG,研究数据库事务的矩阵编码、候选项集的剪枝方案、频繁项集的图搜索策略,并在此基础上提出了改进算法CAG。
(2)根据研究生数据库的实际情况,提出了在数据预处理阶段中两种数据抽取策略:外键关系查询和类公交换乘算法。其中重点分析了类公交换乘算法如何实施于研究生信息数据库中,该算法具有一定的通用性,适用于数据库比较庞大的情形。
(3)在关联规则挖掘中,连续型数据通常都要采用离散化处理方案,才能应用于挖掘算法。传统的离散化方法只是将数据按照经验来划分为若干个区间,然后判定数据散落到哪个区间,从而达到离散化的目的,文中采用改进的k-means算法对数据进行了离散化处理,更加合理地对数据进行了分类。
(4)利用关联规则的相关算法,以研究生信息数据库为基础,从两个方面对研究生信息数据库进行了挖掘:一方面是学生综合素质,包括学生的基本信息、总成绩学分、学生发表的论文等等;另一方面是教学质量评价,包括学生每门课的成绩、相关的课程信息、以及任课的老师信息等等,完整地演示了数据挖掘的流程,最终得出了一些有用的结论。