基于多维谓词索引树的关联规则挖掘算法的研究与应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:ilytotti
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘作为数据挖掘中的一个重要问题,已经广泛地应用于各大商业领域,成为数据挖掘中最主要的研究内容之一。多维关联规则作为关联规则的一种重要形式,在近年来也得到了迅速的发展,成为近几年来一个研究热点。首先,本文分析了目前研究多维关联规则挖掘的两种主要途径,一种是扩展维内关联挖掘算法直接应用于多维事务数据库产生多维关联规则,此方法具有很好的灵活性,但处理维谓词的I/O开销较大,从整体上来说效率较低。另一种是利用数据立方体技术进行多维关联规则挖掘,此方法具有较好的I/O性能,特别当数据立方体较小时,可以用多维数组有效实现,然而针对维数较多的大型数据库,构造及维护相应的数据立方体是极其昂贵的。然后,针对两类方法的优缺点,提出了一种高效的多维关联规则算法,通过引入一种新的数据结构——MDPI-tree (Multi-dimensional Predicate Index Tree)结构,有效地将数据立方体技术和频繁项集挖掘技术结合起来,其中MDPI-tree由维信息部分的DP-tree (Dimensioal Predicate Tree)和项信息部分事务构造的FP-tree (Frequent Pattern Tree)及其连接构造而成。算法采取分而治之的思想,首先对维信息部分构建数据立方体,并采用致密的前缀树结构DP-tree压缩存储,最大限度的压缩存储空间;然后对项信息部分,采用FP-Growth算法挖掘频繁维谓词约束下的频繁项集,从而大大减少了项信息的处理量。该算法既利用了数据立方体能够有效处理多维数值度量的优点,又高效地处理了事务的项信息,不仅能够挖掘维间关联规则,而且能够挖掘混合维关联规则。最后,本文以vc++ 6.0, sql server 2000为实验平台,通过实验验证了MDPI算法的性能,实验结果表明MDPI算法不仅具有良好的I/O性能,还具有很好的伸缩性与稳定性。并将基于MDPI的多维关联规则算法应用于某移动通信公司交叉销售中,结果显示所挖掘出的多维关联规则具有一定的商业价值,能为决策分析人员提供决策依据。
其他文献
随着计算机技术,特别是数据库技术的发展,高校的信息化发展有了很大的进步,校园网内各类管理信息系统以及因特网上权威检索数据库中存储的数据已初具规模。如何发现隐含在这些数
在现实生活中,许多应用涉及到多个目标同时求优的问题,这些问题被称为多目标优化问题。进化算法凭借着其较好的收敛性和多样性被广泛应用在多目标优化问题中,这些多目标优化
随着我国水电事业的迅猛发展,大批的规模较大的梯级水电站群已经投产使用。水电站群的特点包括电站级数多、装机容量大、输送范围广等,其优化问题具有非常明显的高维性,非线
随着在线社交网络平台的爆炸式增长,比如国内的微博、微信,国外的Twitter、 Facebook等社交网络平台,人们越来越倾向于在社交网络平台上发表自己的观点,表达情感态度。与此同
无线传感器网络(Wireless Senor Network,WSN)是由大量的具有独立处理能力的传感器节点,通过无线通信的方式所构成的一种拓扑结构。无线传感器网络中的一项关键技术是时间同
随着通信技术的迅速发展,用户对带宽的需求越来越高。以成熟的以太网技术为基础的以太无源光网络(Ethernet Passive Optical Network,EPON)采用点到多点结构、无源光纤传输,
随着计算机网络的应用推广以及数字多媒体技术的迅速发展,视频在传输过程中遭到攻击或侵权的问题越来越严重。目前,视频信息隐藏作为信息安全的重要手段之一,已经成为信息隐
学位
如今市场对产品的设计要求越来越高,而产品结构也变得更复杂、功能也变的更强大,如果继续使用基于文本的系统工程(Text-Based System Engineering)这种传统的方法,将不能顺利地开发出复杂产品,因此,基于模型的系统工程(Model-Based System Engineering)被研究者提出,它的出现将开发复杂产品的系统工程中出现的许多问题很好地解决了。运用基于模型的系统工程方
软硬件资源的不断成熟和完善,使得嵌入式系统应用得到了十分迅猛的发展。另一方面,互联网技术的发展,使得Internet逐渐深入到人们的日常生活中。嵌入式控制网络与信息网络的
渤海海域在地理位置的作用下,每年冬季都会有海冰生成。同时由于渤海处于亚热带季风气候区内,受季风气候的影响每年的冰情都不相同。冬季的海冰会对海上的生产运输产生影响,