P2P网络借贷借款人信用风险预测分析

来源 :贵州财经大学 | 被引量 : 2次 | 上传用户:geshufa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当下,互联网金融经过蓬勃发展,已呈现出多种多样的业务模式和运行机制。但互联网金融发展的同时也引发了信用风险和用户欺诈等问题。P2P网贷作为互联网金融的突出代表,其所面临的信用风险尤为突出,故急需通过建立信用评分体系预测借款人逾期/违约倾向从而提高P2P网贷对其信用风险的控制水平。这对未来互联网金融业可持续健康发展也具有重大意义。然而,现实生活中这些天然带有多重数据源、超高维、稀疏等特点的复杂性数据也远远超出了线性回归或Logistic回归等线性模型所能处理的能力范围,这对传统风控提出了巨大的挑战。随着个人信息和各种行为数据的逐步完善,采用大数据挖掘技术预测个人未来的信用表现日益成为主流方法。如何在充分利用大数据的同时提高风控水平,正是传统风控转型为大数据风控的关键。本文基于这些挑战进行P2P网络借贷借款人信用风险预测分析。具体工作内容如下:1.数据获取与数据集预处理。本文对获得的P2P网贷行业部分借款人脱敏化的个人基本信息数据和信用记录数据集做预处理,完成数据清理工作如:剔除异常数据、缺失值填充等。2.特征工程。在前期准备工作中重点对数据特征做处理,比如:特征变量衍生、定性变量One-hot编码、定量变量Min-max标准化处理等,接着对借款人相关信息做描述性统计分析。完成特征选择与最终变量汇总,并根据宏观环境对特征变量进行监控,后续作为模型参数阀值调整参照对象。3.集成学习模型构建。构建随机森林、GBDT、XGBoost和模型Stacking,输出特征重要性图并将这些模型进行结果比较和效果评价。4.建立信用评分模型体系。选择效果最优的GBDT和评分卡模型结合起来形成信用评分模型体系。本文得出如下结论:1.通过前期特征工程处理,得出借款人用户画像;2.在P2P网贷借款人信用违约情况分类预测模型中,通过比较随机森林,GBDT,XGBoost和模型Stacking发现以上模型的准确率都在85%以上,具有较好的预测分类准确性,其中GBDT分类准确率最高;3.四个模型的AUC值也均超过了80%,说明4个模型在信用风险预测上都具有良好表现;4.本文还借助GBDT模型搭建评分卡,相比较单独使用GBDT或传统评分卡模型具有更高区分性能,也避免黑箱问题。最终根据模型结果并结合大数据背景,对社会信用评分体系建立、信用风险预测模型应用和互联网金融监管三大方面提出展望与建议。
其他文献
川西前陆盆地侏罗系整体气候炎热、干旱,受板块差异挤压的影响,周围山体继承性隆升,前渊坳陷不断发生迁移。构造作用控制物源区迁移,进一步分配了不同时期沉积体系的展布。通
绞吸式挖泥船是一种常用的清淤疏浚工具,其核心部件之一是挖掘水下土质的绞刀。从绞刀的Pro/E三维造型入手.分析绞刀切削土壤过程,在受力分析的基础上,应用有限元软件MSC.PATRAN时
青光眼减压阀植入术是治疗难治性青光眼的有效手术方式之一,在控制顽固性高眼压方面临床效果确切,因此被越来越多的眼科医生作为治疗难治性青光眼的首选方式,但是术后的各种并发
生态园林设计所追求的是在保护自然环境的基础上,在视觉上达到一定的美观以及协调,而植物配置在其中就占有者十分关键的作用。本文在论述的过程中介绍了生态园林设计中植物配置
基于高分辨质谱,建立植物提取物中7种合成色素的快速检测方法。样品经超纯水提取,采用聚酰胺固相萃取小柱净化,以C18色谱柱为分析柱,乙腈和5 mmol/L乙酸铵溶液作为流动相,经
食管癌是来源于黏膜上皮和粘膜腺体的常见恶性肿瘤,中国是食管癌发病率、死亡率最高的国家之一。2014年我国食管癌的发病率为18.85/10万,死亡率为14.11/10万。多数患者确诊时
简单回顾了光传飞控系统的发展背景,详细介绍了国内外光传飞控系统发展历程及现状,在此基础上分析了光传飞控系统的光纤传输系统、光传感器、光纤数据总线以及光传飞控系统的构
当前我国正面临较为严重的老龄化趋势,养老问题成为社会经济发展中的焦点所在。为应对老龄化趋势,应积极探讨大型城市养老社区构建的意义和大型城市养老社区构建的基本思路。
简单介绍集散控制系统的组成、配置,以及它在中药提取方面的应用实践。
目的 探讨新生动物脑缺氧缺血 (HI)后迟发性细胞死亡是否存在细胞凋亡 ;分析不同检测手段的敏感性与特异性。方法 在建立新生大鼠脑HI损伤标准动物模型基础上 ,采用脑组织