论文部分内容阅读
P2P网络借贷作为“互联网+金融”模式的代表,为借款方和投资方打通了一条便捷的融资渠道,但伴随P2P网络借贷行业的迅速发展,P2P网络借贷违约事件频繁出现,导致大量P2P网络借贷平台破产倒闭。这不仅损害了投资方的合法权益,同时也危害了互联网金融行业的安全与社会的稳定。针对现有的机器学习算法在违约风险评估中的预测准确率、F1值和AUC值不高的问题,本文使用深度森林算法构建P2P网络借贷违约风险评估模型。论文主要工作如下:(1)数据预处理与特征选择。本文以Lending Club平台的历史借贷交易数据集为研究对象,首先对原始数据集进行清洗,然后确定数据集的目标变量和特征变量,将目标变量分为违约类和履约类。其次将特征变量分为连续型特征变量和离散型特征变量,对连续型特征变量进行了归一化处理,对离散型特征变量分为有序离散型特征变量和无序离散型特征变量,对有序离散型特征变量进行自然数编码和归一化,对无序离散型特征变量进行独热编码。最后使用了方差和互信息指标进行特征选择。(2)建立基于深度森林的P2P网络借贷违约风险评估模型。本文选取了梯度提升决策树、随机森林、极端梯度提升决策树和极端随机森林作为学习器构建深度森林,每一层的学习器接收原始特征信息和上一层输出的特征信息,并将处理结果输出到下一层。模型的输入是数据预处理和特征选择后的P2P网络借贷数据,输出是借款人为违约类的概率。(3)风险评估模型的对比与分析。本文选取了逻辑回归、线性判别分析、决策树、K近邻、朴素贝叶斯、BP神经网络和Adaboost集成决策树与深度森林进行模型对比实验。实验结果显示,深度森林模型的F1值为0.6790、准确率为0.6824和AUC值为0.7579,相比逻辑回归、线性判别分析、决策树、K近邻、朴素贝叶斯、BP神经网络和Adaboost集成决策树,深度森林模型在P2P网络借贷违约风险评估中具有更好的预测性能。