随机森林在P2P网贷借款信用风险评估中的应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:zhangjunfeng_1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网金融逐步发展,P2P网络借贷作为一种创新的互联网金融模式在当下变得炙手可热。近年来,凭借着高收益、便捷等理财优势,各类P2P网络借贷平台得到了爆发式增长。然而,我国P2P网络借贷因其较短的发展时间、落后的风险分析技术、以及尚不健全的法律法规体系等使得投资者面临着严重的资金安全隐患问题。信用风险已成为P2P网络借贷行业的首要发展瓶颈,如何为P2P网络借贷者建立一套良好的风险评估模型,显得非常迫切与必要。但是学术界对此还缺少深入的研究,风险评估依然处于传统个人借贷风险评估方法的简单模仿阶段。本文我们选择一种组合分类器模型——随机森林(Random Forest),该算法能够较好的容忍噪声,不容易产生过度拟合,且有着较高的稳定性,相比于传统的单分类器模型,能够更好的处理信贷风险评估问题。文中对随机森林算法的相关理论进行了详细介绍,并在此基础上通过引入代价敏感学习法提出了加权随机森林算法(WRF),进而提高错判代价较高的类别的准确率,增强模型的实用性。在实证阶段,我们首先对数据进行了预处理,主要包括剔除离群值点,补齐缺失值,归一化以及相关性检验;接着,采用五重交叉数据利用RF算法进行特征指标的选择,为实证部分打下了坚实的基础;然后,利用Lending Club开放数据集,以及German、Austria公开银行信贷数据集,建立了以随机森林为基础的个人信用评估模型,并与Logistic回归,KNN,SVM,ANN等传统信用风险评估方法进行对比。通过实验我们知道:不论是P2P信贷数据还是传统银行信贷数据RF模型总体分类效果最佳,这说明RF算法更加适用于构建信用评估模型。最后,我们采用SMOTE算法针对P2P不平衡数据进行了处理,使得分类结果更加具有现实参考意义。
其他文献
中国电视少儿节目发展到今天,有了细化的专属频道,节目类型更加多样化,节目内容较起步时期更是有了巨大的变化。在电视少儿节目飞速发展的今天,我们既要肯定取得的成绩,但更
作为大气中污染最重的污染物—首要污染物,它的浓度是一项重要的空气质量指标。因此面对日益严峻的空气质量状况,及时开展首要污染物浓度的预报、预警工作显得尤为重要。太原
听写是英语专业四级考试(TEM-4)中综合性强,难度较大的部分。本文根据学生课堂听写测试试卷分析,结合听写后的自评报告,指出听写过程中主要存在的问题有:听力理解过程中声音
古今中外,音乐作品题材广泛,数量庞大。今人对于音乐作品的整理、开发与研究,索引发挥了积极的作用。音乐作品索引类型丰富、特色鲜明,以诸多有别于甚至迥异于其他普通学科的
性侵害对儿童身心发展的影响在很大的范围内变动。本文从影响治疗效果的因素、受害儿童治疗方法的研究、受害儿童治疗效果的元分析研究三个方面对性侵害受害儿童的治疗研究进
随着物联网时代的来临,创新智能硬件产品日益丰富,传统设计方法和设计伦理并不能满足新时代的要求。设计作为技术的载体,如何利用大数据、云计算、人工智能、物联网等技术服
为满足参与方同时为收发方的组播通信模式,该文提出了一种新的基于特定源组播的多源组播路由协议SSM-MSM,该协议利用特定源组播形成的单向组播转发树维护一个与之并行的用于多
手术室护理工作者是一个在特殊环境中从事特殊护理专业的群体。据有关资料报道,锐器刺伤是导致医务人员发生血源性传播疾病最主要的职业因素,我国是肝炎的高流行区,近年来艾滋病
文章通过孔明山景区开发的实例,分析景区开发商和当地居民矛盾产生的根本原因,针对具体问题提供了具体的解决措施,特别是对景区发展的利益分配问题提供了具体的解决方案,解决
笔者依据实际工作经验及相关文献资料的记载,针对我国岩土工程勘查环节中存在的问题进行分析,并提出一些应对措施,希望可以在日后相关工作人员对这个问题进行分析的时候,起到