论文部分内容阅读
随着人民生活水平的提升和大数据技术的发展,对于传统保险行业而言,既有转型发展的机遇,也有着将传统业务和大数据技术进行结合的挑战。保险公司必须考虑如何利用大数据技术和自身拥有的海量数据,提升服务质量,增强自身核心竞争力,这是保险行业由粗放管理到精细化管理转型的必由之路。本文选取国内某大型保险公司的真实客户数据,充分发挥大数据的作用,尝试搭建保险客户价值分类的模型。以该公司A保险产品作为代表,其中包含2018年1月至2019年4月约4万购买A产品的客户,也包含约800万购买过其他产品而未购买过A产品的公司存量客户。本文主要针对以下方面进行探究。第一,在模型指标的选取方面,结合客户分类领域的研究文献和可以获取的客户特征,对传统RFM(近度、频度、值度)模型指标进行修正和扩充,构建以客户基本特征、活跃度(Activity)、忠诚度(Loyalty)、时间长度(Duration)为客户价值分类指标的ALD-RM修正模型作为客户价值衡量的切入点。第二,在建模方面,基于大数据处理技术Hadoop和Spark,本文使用逻辑回归、随机森林和模型融合的方法,建立客户价值分类模型。模型训练过程中以客户上个月的客户画像作为特征,以当月客户是否购买作为标签,使用分类算法进行建模,输出的正类概率可以看作是客户价值评分,从而可以将整个客户群划分为十个层次。与基准(整体)转化率相对比,将低于基准转化率的客户视为低价值客户,将介于基准转化率和两倍基准转化率的客户视为中价值客户,将高于两倍基准转化率的客户视为高价值客户。因此在模型实际使用中,可以根据模型输出的评分与各类别的临界值相对比,从而实现客户分类。第三,在不平衡样本的处理上,考虑基于投票法(Voting)的模型融合的方法提高对负样本的利用率。对原始正负样本比例约为1:176的样本拆分,每次选取全部正样本,对所有负样本划分为60个部分,保证每组样本的正负样本在1:3以内,随后在每组数据上分别建立随机森林模型。最后在模型训练完成后,输入测试集,从而得到每个模型所输出的评分,根据设定的阈值,判断样本的最终归属类。从以上方面的探究中本文主要得到了如下结论。第一,本文对传统的RFM模型指标进行修正得到的ALD-RM模型是一种研究保险客户价值细分的有效方法,有利于帮助大数据情况下实现基于用户价值的分层管理。第二,本文将基于投票法的模型融合方法应用到保险客户数据上,相比于下采样更充分利用了样本数据,对于潜在客户的识别能力有明显的提升。第三,本文所采用的大数据处理方法可以解决在大数据情况下单机内存不足的问题,解决了保险行业海量数据的存储和计算问题,为保险行业数据在大数据背景下的挖掘提供了可行方案。本文的创新点主要有两个方面,第一,本文对传统的RFM模型的指标进行扩充和修正,增加了活跃度、忠诚度、时间长度作为客户价值分类指标,同时对原有的RFM模型指标进行了修正,补充了有效信息。在结合分类算法后修正的ALD-RM模型效果优于传统方法,能够更准确地对客户价值进行分类。第二,将基于投票法(Voting)的模型融合方法应用到保险客户数据上,相比下采样更充分利用了样本数据,有效提高了分类的准确性,为更精准地进行客户分类提供参考。总得来说,本文基于修正的RFM模型,借助大数据技术Hadoop和Spark,使用多种分类算法,并进一步针对不平衡样本使用模型融合的方法,提出一种高价值客户筛选方法。通过该种方法可以挖掘现有存量客户的价值,使得保险营销更具目标性,从而提高购买保险的转化率。本文提出的方法可以解决海量数据的处理,为保险业的精准业务推荐提供支持,进而使得保险行业实现精准目标定位。