论文部分内容阅读
互联网金融的蓬勃发展,在为有融资需求客户提供更快捷金融服务的同时,也产生了信用风险和用户欺诈等问题,因此,通过有效的信用评分体系,并借助于量化分析模型来定量预测并控制风险是当前风险领域研究的热点问题,本文针对大数据背景下,利用逻辑回归度量风险存在的不足,以某消费金融公司2017、2018年的线上现金贷数据为基础,采用GBDT、XGBoost、LightGBM三个机器学习算法建立模型,与逻辑回归所建立的模型进行比较分析,并在此基础上建立了Stacking模型,期望达到更好的模型效果。首先,本文样本数据量为22925,变量为1327个,包括商品消费、稳定性、网购、借贷意向(多次申请)、实名信息和地址信息6个方面的信息,并通过删除缺失值95%和单一值占变量份额95%以上的变量、对变量进行WOE分箱删掉IV值小于0.02的变量、对分类变量进行哑变量处理等操作,得到843个变量。其次,对843个变量进行lasso回归、逐步回归和变量衍生等操作,筛选得到87个重要变量建立模型。然后,选取逻辑回归和GBDT、XGBoost、LightGBM三个机器学习算法分别进行信用评分体系的构建,根据AUC和KS两个指标来对比分析各个模型效果,结果表明GBDT、XGBoost和LightGBM三个基模型的模型效果均优于单一模型逻辑回归的模型效果,其中LightGBM的模型效果最好,并在此基础上建立以GBDT、XGBoost、LightGBM为第一层基模型,逻辑回归为第二模型的Stacking模型,为此期待达到更高的模型效果,而Stacking组合模型的AUC与KS值是其余模型中最高的,KS值相对于逻辑回归提升了接近6%,GBDT、XGBoost和LightGBM提升了接近1%。最后,根据逻辑回归的预测结果建立了评分卡,通过对比分析用户的信用分数和实际违约率,验证结果的可靠性,并通过信用分数和违约率的分布情况,给予一些建设性意见。GBDT、XGBoost和LightGBM三种算法中后者都对前者进行了一定的改进,故本文采用这三个算法建立模型,已在模型效果、过拟合问题和运行速度等方面验证其优势,并在此基础上,结合逻辑回归建立了Stacking模型,有一定的创新性。