论文部分内容阅读
信息社会的到来使得数据库的应用更加广泛,但大部分数据库系统还都仅能提供简单的事务性操作,如插入、删除、修改等,所以人们只能通过这些操作获取很有限的信息,而好多隐藏在这些数据后面的潜在信息和数据的联系都被忽略了,于是对大量数据进行有效地挖掘和发现价值,并根据数据的各种联系为出发点对原始数据进行提炼和加工从而形成有价值的知识发现过程(Knowledge Discovery in Database简称KDD)应人们实际需求而被提出。数据挖掘只是知识发现过程中的一个步骤,但它是知识发现过程中最重要的一个步骤。它主要是利用知识发现算法,从数据中发现出有关的知识或模式。Apriori算法在关联规则挖掘中最具代表与影响的一种算法。Apriori算法核心思想是基于数据概率的挖掘数据布尔型关联规则项集,对据库中项目或事物之间的关系通过循序渐进的方式挖掘数据,对用户提出有价值的规则或指导意见。该算法的过程主要由两步构成,连接和剪枝。但Apriori算法存在着两个主要的缺陷:1.需要重复的扫描数据库以确定各个候选项集的支持度计数。2.需要产生大量候选项集。通过对Apriori算法及其改进算法的分析比较,针对原始算法需要多次重复扫描数据库以确定各个候选项集的支持度计数的缺陷进行改进,提出了一种新的算法Apriori-TID(Transaction Identifier)算法。本文针对传统经典Apriori算法的缺陷进行改进研究,采用了一种用事务标识符列表的方式来计算新产生的候选集的支持度和置信度从而生成该层的频繁项集,从而从根本上改变了传统算法需要多次扫描数据库的缺点,大大提高了算法的运行速度并降低了运行时的开销。将新算法应用于教学管理系统中,开发出具有专家功能的教育管理决策的关联规则挖掘系统。通过几个相关主题的设定,对现行的大学管理提出许多有价值的决策信息。.该规则结果的展示方面,采用了一种文本和图形相结合的可视化方式,从而可以让用户更直观的看到挖掘的结果,同时通过该界面让用户对自己所感兴趣的规则进行筛选,提高了系统的智能性,使得挖掘结果更加符合用户的感兴趣程度。