基于LightGBM与XGBoost算法的P2P网络借贷违约预测模型的比较研究

来源 :东北财经大学 | 被引量 : 40次 | 上传用户:quhongliangs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪大数据和互联网金融得到了巨大的发展,P2P作为互联网金融的重要组成部分,利用互联网技术的优势,拥有着相比于传统方式更加便利、快捷、透明的特性,在小额信贷需求快速增长的今天迅速发展,是对传统金融行业的有力补充和完善。P2P(peer-to-peer),即个人对个人,又称点对点的网络借贷,它是一种将闲散的小额资金聚集起来借贷给资金需求者的一种民间小额借贷模式。伴随着P2P行业的快速发展,P2P行业遇到的问题也是层出不穷,借款人多为不符合银行贷款标准的人或小型企业是P2P行业绕不过的致命伤。中国P2P网络借贷行业出现了大规模平台跑路、倒闭潮的情况,为投资者带来了巨大的损失,严重阻碍了中国P2P行业的发展。P2P的核心是风险控制,而违约预测模型是风险控制的核心。对于一家P2P网络借贷公司而言,对借款者进行真实可靠的风险评估,将总体违约率控制在较低的水平,既是对投资者应尽的责任,也是一家P2P公司能否长期经营下去的关键所在。因此,对P2P网络借贷平台的违约预测模型进行研究,提出相应的改进措施,引导行业的良性发展显得尤为重要。本文主要研究P2P网络借贷的违约预测模型及其影响因素。由于Lending Club是目前美国规模最大的P2P交易平台之一,而且数据公开透明,因此本文选择使用Lending Club平台2007年至2017年第二季度的交易数据作为研究数据。首先从五个角度对原始数据进行描述性统计分析,其中包括:规模分析、借款人等级分析、借款期限分析、借款目的分析、违约率分析。然后对原始数据进行数据清洗:采用“多维度”与“多观测”两种方式清洗数据,分别得到480018条观测、61个变量的“多维度数据集”与569338条观测、24个变量的“多观测数据集”。为验证模型的稳健性,随机将两个数据集拆分成训练集与测试集。之后,将所有借贷影响因素归纳为四大类:借款详情、经济状况、信用状况、个人信息。其次,分别运用Python和R软件,将LightGBM算法与XGBoost算法运用到P2P网络借贷违约预测模型中。将两种模型分别应用于两种数据集,对得到的四种结果进行详细的对比与分析。最后对影响违约结果的因素进行排序与分析。结果显示:就同一种算法而言,无论是LightGBM算法还是XGBoost算法,“多观测数据集”的分类效果都要优于“多维度数据集”;就同一数据集而言,LightGBM算法的分类预测结果要优于XGBoost算法的分类预测结果。其中,运用基于“多观测数据集”的LightGBM算法的分类预测结果的正确率是最高的,为80.10%,比Lending Club平台历史交易数据计算的平均履约率78.82%提升了 1.28个百分点。粗略估计,若Lending Club自成立初期就使用LightGBM算法,可以减少约1.17亿美元的违约借款。因此,运用LightGBM算法进行分类预测是有意义且有效的。最后对影响违约结果的因素进行排序与分析,四类借贷影响因素按照重要程度从高到低排序为:借款详情>经济状况>信用状况>个人信息。综上所述,本文对国外的P2P网络借贷平台提出如下建议:一方面调整利率设定原则,对于信用水平较低的借款者,降低其利率,从而降低违约率;另一方面跨国发展是长期发展趋势。对中国P2P网络借贷平台的发展提出以下建议:政府政策方面,建议尽快完善信征体系,建立P2P行业的惩处机制;P2P行业机制方面,建议建立P2P行业投资者权益保障机制,完善投资者分散投资机制,逐渐进行创新转型,实现服务模式的多元化。LightGBM算法与XGBoost算法都是近几年来机器学习比较前沿的算法,受到各界学者的广泛好评。本文将LightGBM算法和XGBoost算法应用到P2P行业的违约预测模型中。一方面增加了违约预测模型的选择范围;另一方面拓展了 LightGBM与XGBoost机器学习算法的应用范围。但由于LightGBM和XGBoost两种算法的研究尚处于起步阶段,目前可参考的相关学术文献较少,研究难免存在不足之处。本文是LightGBM和XGBoost机器学习算法在P2P违约预测模型中的一次尝试,对这两种算法的优化仅限于对其参数的调整,并没有研究将其与其他算法相结合。随着未来学者们对这两种算法研究的深入,相信会将更加优化的算法用于违约预测模型中。
其他文献
目的探讨喉癌患者血小板表面血小板膜糖蛋白Ⅱb/Ⅲa纤维蛋白原受体(PAC-1)、血小板P-选择素(CD62P)阳性表达率以及与患者临床病理特征和复发的关系。方法选取2014年1月~2015
[目的]研究分析糖尿病合并心肌梗死病人的常见护理风险,并提出预防护理对策。[方法]对本院收治的80例糖尿病合并心肌梗死病人作为本次实验的研究对象,总结80例病人发生的护理
目的探讨电视胸腔镜手术(VATS)前CT引导下微弹簧圈定位肺小结节(SPN)对精准切除病灶的临床价值。方法回顾性分析2014年6月至2016年5月,90例行VATS切除孤立性SPN患者的资料。
马克思认为,新型无产阶级国家政权建设要发挥民意机关的作用,特别要体现代表的工人阶级属性,代表可以随时撤换。我国人民代表大会制度一直重视政权建设中代表的身份属性。充
结构主义代表人物布鲁姆认为,教一门学科就是使学生理解该学科的"基本结构"。但《普通高中语文课程标准》并没有明确语文学科的课程内容,其所确定的课程目标属于"能力目标",而非"
目的探讨支气管断裂的外科临床治疗方法.方法应用不同的治疗方法进行对比治疗观察.结果急症开胸手术治疗21例,胸腔闭式引流治疗10例,二期手术2例,术后均一期愈合良好,结论通