论文部分内容阅读
在当前国家大力发展“普惠金融”,推动建设社会信用体系的背景下,大数据征信越来越成为学术界和金融界关注的热点问题。相比于数据的体量而言,大数据征信中更为关键的问题在于处理征信数据本身维度的多样性和结构的复杂性。例如大部分征信样本数据从结构上说都是类别非平衡的,其中的违约样本在整体中往往只占到很小的比例。而目前现行的关于个人信用风险评估的多数方法和模型都没有重视数据的这些特征。如果忽略数据本身带有的特点,直接套用现有的模型和方法,自然而然其结果和可靠性都会受到一定程度上的影响。 从统计学习的角度而言,可以将个人信用风险评估转化成一个分类问题,通过将贷款申请人分为信用好客户和信用差的客户,提供贷款或增加额度给还款概率大的信用好客户,拒绝或降低贷款额度给违约概率大的信用差客户。因此本文首先从分类学习的角度出发,进行数学抽象成无约束的最优化问题,从而构建了统计学习的理论框架。并在此理论框架下梳理总结了当前处理分类问题的单分类器方法和集成分类方法。其次从数据的高维不平衡特点出发,建立了与之相适应的分类性能评估指标。然后结合集成分类方法,在随机森林模型的基础上引入代价因子,建立了基于高维非平衡数据的随机森林模型。并将新建立的随机森林模型应用到个人信用风险评估的实证研究上,实证结果表明新建立的随机森林模型在处理不平衡数据的分类问题上有很好的效果,尤其是在对占少数的违约客户的分类准确率上远远高于逻辑回归,单棵决策树,以及普通随机森林模型。并且随着不平衡程度的加深,其效果越明显。