论文部分内容阅读
当下,互联网金融经过蓬勃发展,已呈现出多种多样的业务模式和运行机制。但互联网金融发展的同时也引发了信用风险和用户欺诈等问题。P2P网贷作为互联网金融的突出代表,其所面临的信用风险尤为突出,故急需通过建立信用评分体系预测借款人逾期/违约倾向从而提高P2P网贷对其信用风险的控制水平。这对未来互联网金融业可持续健康发展也具有重大意义。然而,现实生活中这些天然带有多重数据源、超高维、稀疏等特点的复杂性数据也远远超出了线性回归或Logistic回归等线性模型所能处理的能力范围,这对传统风控提出了巨大的挑战。随着个人信息和各种行为数据的逐步完善,采用大数据挖掘技术预测个人未来的信用表现日益成为主流方法。如何在充分利用大数据的同时提高风控水平,正是传统风控转型为大数据风控的关键。本文基于这些挑战进行P2P网络借贷借款人信用风险预测分析。具体工作内容如下:1.数据获取与数据集预处理。本文对获得的P2P网贷行业部分借款人脱敏化的个人基本信息数据和信用记录数据集做预处理,完成数据清理工作如:剔除异常数据、缺失值填充等。2.特征工程。在前期准备工作中重点对数据特征做处理,比如:特征变量衍生、定性变量One-hot编码、定量变量Min-max标准化处理等,接着对借款人相关信息做描述性统计分析。完成特征选择与最终变量汇总,并根据宏观环境对特征变量进行监控,后续作为模型参数阀值调整参照对象。3.集成学习模型构建。构建随机森林、GBDT、XGBoost和模型Stacking,输出特征重要性图并将这些模型进行结果比较和效果评价。4.建立信用评分模型体系。选择效果最优的GBDT和评分卡模型结合起来形成信用评分模型体系。本文得出如下结论:1.通过前期特征工程处理,得出借款人用户画像;2.在P2P网贷借款人信用违约情况分类预测模型中,通过比较随机森林,GBDT,XGBoost和模型Stacking发现以上模型的准确率都在85%以上,具有较好的预测分类准确性,其中GBDT分类准确率最高;3.四个模型的AUC值也均超过了80%,说明4个模型在信用风险预测上都具有良好表现;4.本文还借助GBDT模型搭建评分卡,相比较单独使用GBDT或传统评分卡模型具有更高区分性能,也避免黑箱问题。最终根据模型结果并结合大数据背景,对社会信用评分体系建立、信用风险预测模型应用和互联网金融监管三大方面提出展望与建议。