论文部分内容阅读
贷款是金融业务最重要的属性之一,随着贷款业务量的爆炸式增长,借款人发生逾期的比率不断上升。对于首次借贷业务,金融机构在批准贷款时很难确定借贷人是否会逾期还款,这在一定程度上增加了贷款审核的难度,如何精准衡量首次贷款用户的资质以减少逾期风险,成为当下金融机构亟待解决的重要难题。本论文基于传统机器学习和深度学习算法对用户首借逾期行为进行研究,并提供了相应的解决方案。当前常见的逾期预测模型研究的数据集多为借款人贷后产生的数据,对借款人贷前在平台上留下的用户特征很少有研究。因此,为了更深层的挖掘贷款特征,本文选取用户贷前、贷后的数据作为研究对象,数据集A(贷后)来自DR公司信用平台某款在线产品的贷款数据,数据集B(贷前)是数据集A中借款人在平台上的贷款申请记录(数据截至2018年底)。通过对用户贷前、贷后数据特征进行分析,提出一种基于特征分组重构的特征集构造方法,并设计了一个基于XGBoost-DNN组合特征预测模型,然后利用模型对首次借贷用户是否发生逾期行为进行了预测,并实现了提出模型的线上预测系统,具体如下:(1)基于特征分组重构的特征集构造方法:首先分别对2个数据集特征进行统计分析,通过分析,以每一个自然日作为独立观察日将数据按照借款人婚姻属性、城市属性、职业属性、贷款金额属性进行分组,分别构造出不同类别的贷款审批通过率、审批过程用户取消率、30天逾期率、7天逾期率、入催率5个新的特征,然后通过WOE编码计算各分组下特征的IV值评估新特征的预测性能,并结合XGBoost特征选择算法选取最优特征子集。(2)基于XGBoost-DNN组合特征预测模型:首先基于特征工程建设结果,选取随机森林和XGBoost进行单模型训练,其次运用网格搜索算法和K-fold交叉验证分别对单模型进行调优并进行特征重要性分析和分组输入到XGBoost-DNN组合特征预测模型进行建模,通过模型的准确率、精确率、召回率、F1值和AUC值来对模型的性能进行比较评估。实验结果表明:XGBoost-DNN组合特征预测模型比随机森林、XGboost等单模型具有更高的预测准确度和稳定性,证明了该方法的有效性。(3)以XGBoost-DNN组合预测模型为算法核心,设计并实现用户首借逾期预测系统的风控中心平台,作为企业信贷审批员的贷款审批操作平台。