基于USI及项集相关重要性的频繁集挖掘算法

来源 :天津师范大学 | 被引量 : 7次 | 上传用户:efan913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为信息科学领域的前沿研究课题之一,数据挖掘技术是解决如何在海量数据中提取有效信息的关键技术。与数据挖掘技术相关的研究与应用已经极大的提高了人们的决策支持能力。本文描述了数据挖掘的概念、功能以及模式的分类,并将文章聚焦在数据挖掘领域中的关联规则挖掘方面。本文的主要内容,先是对Apriori算法的流程思路进行了梳理,然后对目前关于Apriori算法的几种改进思路进行了归纳性总结,最后提出了一种基于用户感兴趣度阈值(USI)和项集重要性的改进型Apriori算法。本文改进算法的思路,是抓住用户对项集感兴趣程度与项集相关重要性两个要素,对Apriori算法进行一种复合式改进:首先从数据库中利用某些用户感兴趣的项从数据库所有项的集合中选择出一个子集作为挖掘对象,然后对数据库进行一次扫描,实现用事务标识号来表示项目集。在产生项目集后,依项集相关重要性原则,对项目集中的元素赋以权值,然后利用引入了权值的支持度函数计算项集的支持度以产生频繁项集,最后从这些频繁项集中产生关联规则。之后,论文以仿真实验将本文提出的改进思路在时间性能、空间性能上分别与FP-growth算法及原始Apriori算法进行了对比,实验结果验证本文提出的改进算法在性能上的优化提高。
其他文献
随着新课程改革的兴起,教科书研究就逐渐成为教育研究的热点话题。量化方法作为一种重要的研究方法,一直以来受到人们的重视。然而,目前国内外有关量化方法在教科书研究中运
经济的发展,科技的进步,人们的物质文化生活日益丰富,未来社会将朝着休闲化的方向发展。在休闲化的社会里,人们将拥有更多的休闲时间,更加注重生活质量的提升。健康而良好的
2008年8月24日北京奥运会男篮比赛在北京五棵松体育馆落下了帷幕,但中国男篮参加的每一场比赛仍令人记忆犹新,虽然成绩和2006年世界男篮锦标赛相同,没有取得历史性突破,但经
学习支架是根据学生需要,为学生提供的一种临时性的支持,目的是帮助学生完成凭自己的能力不能独立完成的任务,获得进一步的发展;当学生能够成功建构自己的知识或独立完成任务时,学