论文部分内容阅读
关联知识反映一个事件和其他事件之间依赖或关联的知识,若两个或多个变量的取值之间存在某种规律性,就称为关联。关联规则是几种主要的数据挖掘方法之一,它通过搜索系统中的所有事物,从中找出数据对象之间出现条件概率较高的模式,这些模式即被认为是数据对象之间的关联规则。关联规则的挖掘由两个步骤来完成:一、找出所有频繁项集;二、由频繁项集产生强关联规则。技术的关键在第一步,有两种比较常用的方法:Apriori算法和F-P增长树法。科学决策是现代企业管理的核心与基础,传统的市场调查数据分析主要是用统计方法对调查数据进行单项统计处理,而要揭示事物间客观存在而未被人所知的联系,就要找出数据库中隐藏着的关联网。关联规则挖掘能够从大量的数据中发现项集之间有趣的关联或相关联系,因此它广泛应用于各种决策支持系统、专家系统和智能信息系统等等。本文尝试把关联规则技术应用于电信宽带市场研究中,建立了一个基于宽带业务的数据挖掘子系统,以期发现宽带用户的使用规律,为决策者提供决策所需的信息,了解经营情况,为科学决策提供准确的数据依据。根据电信的需求以及在现有的数据资料基础,本文设计了客户消费行为分析、投诉咨询情况分析和离网情况分析三个功能模块的关联规则挖掘系统,详细地介绍了在SQL Server 2000上构建系统的全过程,包括:(1)分析挖掘任务,确定系统要完成的功能,以及为了实现这些功能需要准备的数据资料;(2)系统设计,包括硬件环境选择、算法选择和系统模型设计、数据库模型设计;(3)数据预处理,主要要做的工作有数据的选择和集成、数据清理和变换;(4)算法实现,应用Apriori算法思想,通过PL/SQL语句及存储过程实现频繁项集的发现及关联规则的产生。最后,运用关联规则价值衡量的方法,对挖掘结果进行讨论和分析,发现基本方法的不足,分别从客观层面及主观层面提出改进系统实用效果的模型和方法:包括加入更多的兴趣度度量和增加可选的参数设置,并对改进后的结果再进行分析和确认。最后使系统得到更好的实用效果。