论文部分内容阅读
数据仓库和数据挖掘技术的快速发展,促进着企业决策支持系统的不断更新,也促使企业与客户之间的经济关系发生着重大变革。客户关系管理(CRM)作为近年来数据挖掘技术在企业决策支持系统中又一新的应用,使企业在经营模式、销售战略以及市场服务等多元领域都突破了传统框架。传统的“以产品为核心”的生产经营战略也变革成“以客户为中心”的新型商业模式。客户关系管理中需要理解客户特性和客户行为,利用数据挖掘的分类工具,实现对客户群的认识、分类和评估,然后通过优化服务来实现客户获取、客户保留、客户忠诚和客户盈利的目的。针对客户关系管理中客户分类这一重要环节,作者在分析了现有的数据挖掘分类工具的基础上,采用了决策树分类算法来构造客户分类器。针对多种决策树分类算法存在的不稳定性问题、效率问题和可伸缩性问题,作者采用多属性代替单属性分割的方法来解决决策树的不稳定性,并且结合提高算法效率和可伸缩性的目标,针对SLIQ和C4.5两种算法作了改进和实验。针对SLIQ算法,将单纯利用单属性分割的Gini值作分割指标的方法修改为利用近似最佳分割点和分割谓词的方法,使算法稳定性提高,并且生成的决策树更为紧凑;将驻留内存的散列表用数据库表代替,并且在结构上作了一定的修改,这样可以存储多个最佳近似分割点,从而使算法脱离了内存的限制,提高了可伸缩性;针对C4.5算法,作者为了将不稳定性的改进方法模块化,对C4.5的信息增益的计算作了修改,同时用计数排序代替线性排序来搜索分割点,使算法在时间复杂性上得到一定程度的优化。通过对算法的初步改进,也对决策树算法的不稳定性问题提出了改进的实例,为提高决策树算法稳定性、高效性、可伸缩性提供了一条途径。作者将改进的算法运用于“重庆市移动通信公司话费管理系统”,构造了一个客户分类器,通过对客户属性和业务数据的分类模型建立试验,实现了构建稳定的、可伸缩的分类器的基本目的,从而也证明了针对决策树不稳定性和伸缩性问题的改进的可行性,具有一定的理论价值和实用价值。