论文部分内容阅读
在互联网普及的今天,各企业已从信息时代进入大数据时代,企业们纷纷致力于寻找有效利用海量数据的方法,使之成为企业竞争的有力工具。红塔烟草(集团)有限责任公司在经历了几年的信息化建设后已经积累了大量业务数据,现在,集团将客户(消费者)数据的采集也纳入了日常营销规划,因为卷烟作为大众商品,其消费者地域分布非常广,对消费者数据的直接采集成为了集团的一个难点。同时,集团提出了以大规模数据分析结果作为依据,建立科学的营销方案的战略目标。本文针对红塔集团的营销战略提出红塔集团数据库营销系统的建设方案,实现各地客户数据的直接采集,建立企业与消费者的直接互动平台,并且实现大规模客户数据和业务数据的数据挖掘和数据建模,为业务人员提供数据分析结果,使集团能够根据客户分析结果对客户采取个性化的营销方式,根据业务分析结果建立科学的市场应对方案。在系统完成并投入运行后,到目前为止客户数据库已拥有数据完整的客户基本信息数据约27万条,其中活跃客户已超过半数,客户购买信息数据达到亿级。文章主要研究内容如下:1.提出红塔集团数据库营销系统的系统目标,得出系统的主要业务流程:客户数据采集、业务数据整合并统一存储→海量数据简化预处理→数据挖掘、数据建模以及数据测试→为业务人员提供数据分析结果。根据业务流程提出系统的组成模块,以及各模块在业务流程中负责的功能。2.设计客户数据采集方案。设计一种防伪码生成算法,将其喷印在烟盒内侧,使客户可以通过在线客户平台注册个人信息并返回这个防伪码以兑换积分,系统通过客户注册行为获取客户基本信息,通过防伪码解密后的明文所带的卷烟信息获取客户的购买信息。3.海量数据简化处理。设计数据降维和数据累加的方法以解决采集到的大规模数据的计算问题。在MapReduce分布式计算模型下,分别设计降维和累加的并行Map函数和并行Reduce函数,以减小数据精度和密度的方法对数据进行合并,有效减少后期数据分析时所涉及到的数据量。4.设计客户数据挖掘方法。利用客户行为信息设计客户分类决策树,将客户分为忠诚、流失和浮动客户;设计基于k-means算法的客户聚类分析方法,从浮动客户中进一步挖掘潜在忠诚客户;建立促销活动响应模型,利用客户属性建立客户市场值函数,计算浮动客户的市场值,设计模型评价方法,以促销活动实验数据证明市场值越高的客户响应度越高,越容易发展成忠诚客户,因此集团可以对市场值高的客户投入更多营销成本。5.设计业务数据挖掘方法。建立基于ARIMA自回归移动算法的卷烟销售预测模型,选择某重点品牌卷烟作为实验数据,统计该品牌的历史销量时间序列,利用销售预测模型对近期销量进行预测,将预测值与实际值进行比较,证明模型可以基本预测近期卷烟的月销量,并且能够对卷烟销售的季节性、周期性和随机性特点进行有效模拟。6.实现系统技术架构和总体部署方案,实现web服务器负载均衡和数据库服务器的扩展。以反向代理服务器和实际服务器协作的方式实现web服务器负载均衡,利用多次压力测试得出最优的服务器调度策略,解决客户平台高并发量带来的系统负载问题;以数据库服务器读写分离方式解决客户平台带来的密集型数据库读写操作问题,以数据库服务器纵向和横向分区方式解决海量数据存储问题。