论文部分内容阅读
随着互联网技术的发展和通信行业日益饱和的现状,预先预测客户流失并挽留住客户对于通信行业的发展是关键一环。目前,我国刚刚迈入5G时代,通信行业面临着激烈的竞争、产品的同化和其他诸多问题,这些问题导致通信行业的运营商企业存在着严重的客户流失现象。针对这一现象,从海量的客户信息和消费数据中,预测出具有流失倾向的客户及找到影响因素,构建比较完整的流失体系,针对性地给出合理的挽留建议,为客户提供精准的服务和为企业创造更多的收益具有重要的意义。第1章介绍了通信行业某运营商的研究背景及意义。从通信行业运营商的业务收入、使用情况和用户规模出发了解该行业的发展趋势,阐述了论文的研究在新兴技术、互联网发展下对于运营商企业收益方面的意义。并对国内外学者研究客户流失的方法与机器学习的方法发展进行分析。第2章的主要内容是对某运营商的客户数据进行探索性分析。首先,对数据来源进行介绍。其次,对数据进行预处理包括缺失值的处理和变量的变换。最后,对数据进行可视化,查看数据的基本信息特征。第3章利用箱线图法、Spearman相关系数法、假设检验法、基于决策树ID3算法和基于SVM-L1算法筛选了16个重要的自变量,有套餐月资费、电话号码等级、4g非在线计费、4g在线计费、有合约期、无合约期、在网的月数、计费时长、主叫计费时长、上网流量、3G电视费、费用2、上网费、应收费、合约期时长和赠送话费这些变量。第4章利用Boosting算法和生存分析方法建立客户流失预测模型。首先,建立AdaBoost、GBDT、XGBoost、LightBGM、CatBoost客户流失预测模型,选出预测效果最好的CatBoost模型为最优预测模型。其次,为了了解客户流失时间和影响的风险因素,建立生存分析模型。用K-M法画出离散变量的累积生存函数图,直观展示这几个离散型变量对客户生存率的影响。对所有的变量建立Cox比例风险回归模型,分析了影响客户流失的风险因素,有套餐资费、部分电信类型、应收费用和赠送话费。当客户在多种因素影响下,发现客户在使用超过200个月时,生存概率保持0.4左右,达到最低点。最后,基于生存分析模型对CatBoost算法进行改进,将生存分析算法中预测的生存概率代入样本中,用CatBoost进行预测,其准确率、召回率、精确率、F1得分均在0.96左右,提升的预测效果与CatBoost模型相比不是很显著,但其改进后的模型可以提供影响客户流失的风险因素和客户的生存概率,有利于更加详细地了解客户流失的时间和原因。第5章利用系统聚类法对预测流失的客户的变量进行聚类,发现影响客户流失的因素有上网流量、在网时间、应收费用和其他综合因素。结合之前的研究分析,对运营商企业给出相应的挽留客户的建议,帮助企业更好的发展。第6章给出论文研究的结论及展望。首先总结了全文,给出论文的结论。其次对研究中存在的数据收集、算法改进和客户价值挖掘的三个不足的方面进行说明,对未来工作进行展望。