论文部分内容阅读
作为信息科学领域的前沿研究课题之一,数据挖掘技术是解决如何在海量数据中提取有效信息的关键技术。与数据挖掘技术相关的研究与应用已经极大的提高了人们的决策支持能力。本文描述了数据挖掘的概念、功能以及模式的分类,并将文章聚焦在数据挖掘领域中的关联规则挖掘方面。本文的主要内容,先是对Apriori算法的流程思路进行了梳理,然后对目前关于Apriori算法的几种改进思路进行了归纳性总结,最后提出了一种基于用户感兴趣度阈值(USI)和项集重要性的改进型Apriori算法。本文改进算法的思路,是抓住用户对项集感兴趣程度与项集相关重要性两个要素,对Apriori算法进行一种复合式改进:首先从数据库中利用某些用户感兴趣的项从数据库所有项的集合中选择出一个子集作为挖掘对象,然后对数据库进行一次扫描,实现用事务标识号来表示项目集。在产生项目集后,依项集相关重要性原则,对项目集中的元素赋以权值,然后利用引入了权值的支持度函数计算项集的支持度以产生频繁项集,最后从这些频繁项集中产生关联规则。之后,论文以仿真实验将本文提出的改进思路在时间性能、空间性能上分别与FP-growth算法及原始Apriori算法进行了对比,实验结果验证本文提出的改进算法在性能上的优化提高。