交互式关联规则挖掘技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:denggaoangyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库和互连网技术的发展,许多组织积累了相当丰富的数据,显然,这些数据蕴含着很多有用的知识,于是利用这些知识为组织创造更多的财富便成为火热的话题。但是,靠人的直觉和手工处理是无能为力的,在数据丰富但知识贫乏的现象面前,数据挖掘技术应运而生。 该文首先详细地说明了数据挖掘技术产生的实际背景,数据挖掘技术的概念,数据挖掘应用的相关方法,数据挖掘处理的对象以及它丰富的应用领域。作为数据挖掘研究的重要问题,文章阐明了关联规则挖掘的定义及经典的关联规则挖掘方法Apriori算法,分析了Apriori算法的不足之处,说明了目前为止人们对该算法的改进。 按照以人为中心进行数据挖掘的理念,应该对关联规则进行交互式挖掘,该文从两个方面对之进行了研究:约束关联规则的快速挖掘和频繁项集的快速更新。 对于约束关联规则的快速挖掘,该文系统的分析了实际中经常遇到的约束的种类,对约束进行了分类,为了把约束尽早的用于挖掘过程,实现用户和系统的交互,提出了约束关联规则挖掘的体系结构及ccc优化原则。但按照一般的优化方法进行挖掘未必有最优的性能,对于项在规则的头和体中是否出现一类的约束,该文提出了一种基于事务数据集修剪的挖掘方法。实验证明,该方法较一般的优化方法有较好的性能。 在交互挖掘的过程中,用户经常要改变挖掘的条件,寻找感兴趣的规则,于是频繁项集的更新便是一个非常关键的问题,解决此问题的最简单方法是将Apriori算法重新执行一遍,但这显然不是高效的,因为以前挖掘的结果没有得到充分的利用,显然,解决此问题的关键是频繁项集的更新,文章提出了数据集,支持度和可信度变化时频繁项集的更新方法。实验证明,该方法较重新执行一遍Apriori算法需要较少的时间。
其他文献
随着网络的迅速发展和普及,分布式计算的研究在90年代后达到了高潮,目前,在Internet网上分布式计算已非常流行。分布式计算研究主要集中在分布式操作系统研究和分布式计算环境研
基于内容的图像检索是近年来的热门研究内容,涉及图像处理、计算机视觉和数据库系统等方面的学科。其中,有效的高维索引机制是使大规模图像库的检索能够达到实时性要求的关键技
学位
随着企业业务的发展,数据库中慢慢积累了大量的客户历史消费数据,如何从这些海量数据资源中发现对企业有价值的信息,成为企业将来市场决策的一个重要部分。数据挖掘技术因而被逐
企业在Portal上发布与企业相关的信息,使得浏览者迅速找到他所需要的内容。由于Internet的规模与使用的持续增长,大多数的Web结构非常复杂和庞大,导致用户失去查询目标。智能Por
数据仓库是存储供查询和决策分析用的集成化信息仓库。它的数据来源于数据库或其它信息源(如日志文件等)。但是非Agent结构的数据仓库系统还存在着信息集成时网络拥塞、网络
在当前的电子政务中,各种满足不同需求的分布式应用系统不断涌现,但是这些应用系统之间的信息共享却没有同步发展,形成了信息孤岛;虽然部分应用提出了相应的共享需求,但在许多方面
文本分类是文本挖掘的重要分支,在当今的信息时代文本自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段,已经被应用于抽取符号知识、新闻分发、排序电
VoIP(VoiceoverInternetProtocol)电话技术是目前Internet应用领域的热门话题,它实现了语音在Internet上的实时传送。VoIP以其强大的功能、低廉的价格以及高度的灵活性对传统
计算机病毒对社会经济生活的影响越来越大,计算机反病毒技术是网络安全的一个重要研究内容。随着计算机技术的发展和网络的普及,网络蠕虫成为目前出现最多、影响最大的计算机病