论文部分内容阅读
随着外资银行的进入、互联网金融的出现,国内银行业竞争激烈。对客户进行分类,识别潜在客户是银行抢夺客户资源的前提与关键。贝叶斯网络算法能从大量数据学习到解释性强的结构模型,是解决分类问题的主流方法。针对银行客户识别问题特征,详细研究贝叶斯网络建模过程,给出一种有效的客户识别过程模型ERNOK。通过对现实数据进行测试及比较分析,验证了ERNOK的效果。最后,构建银行客户识别模型,为银行提供参考与借鉴。基于银行客户识别问题现实数据主要进行了以下分析测试:第一,通过大规模数据测试,比较分析数据离散化、属性选择和贝叶斯网络结构学习各阶段不同方法的效果,找出不同阶段的最佳处理方法。1、比较等宽离散化方法、等频离散化方法和熵最小离散化方法。大规模数据测试与ANOVA分析结果表明,熵最小离散化方法效果显著优于等宽离散化方法。2、比较基于信息增益、信息增益率的属性选择方法和不使用属性选择方法的效果。ANOVA方差分析及多重比较结果表明,基于信息增益率的属性选择方法显著最优。3、比较NB、TAN和K2分类器。统计结果表明,在较小规模数据集上,NB分类器的分类效果最好;在较大规模数据集上,K2分类器表现最好。第二,针对不同规模的数据集,结合各阶段的最优方法,给出了基于贝叶斯网络的银行客户识别过程模型ERNOK,通过与其他文献比较,证明了ERNOK的方法优越性。1、ERNOK算法采用EMD离散化方法和GR属性选择方法对数据进行处理;2、在小规模数据集上,采用朴素贝叶斯结构学习;在大规模数据集上,采用K2结构学习。3、在模型预测阶段加入阈值,有效提高小类的识别率。第三,给出银行客户识别模型,并进行分析评价。1、该识别模型主要包括客户工作类型、个贷情况、房贷情况、信用违约情况四种基本属性信息,通话时长、联系方式、联系次数、联系月份、活动间隔时间、历史联系次数、上次活动签约情况七种活动行为相关属性。模型中,影响客户分类的重要因素有客户房贷情况、联系月份、通话时长及上次活动签约情况。2、通过成本分析对方法应用效果进行评价,验证本模型算法的效果。