高维非平衡数据的集成分类方法及其在个人信用风险评估中的应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zzj0926
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前国家大力发展“普惠金融”,推动建设社会信用体系的背景下,大数据征信越来越成为学术界和金融界关注的热点问题。相比于数据的体量而言,大数据征信中更为关键的问题在于处理征信数据本身维度的多样性和结构的复杂性。例如大部分征信样本数据从结构上说都是类别非平衡的,其中的违约样本在整体中往往只占到很小的比例。而目前现行的关于个人信用风险评估的多数方法和模型都没有重视数据的这些特征。如果忽略数据本身带有的特点,直接套用现有的模型和方法,自然而然其结果和可靠性都会受到一定程度上的影响。  从统计学习的角度而言,可以将个人信用风险评估转化成一个分类问题,通过将贷款申请人分为信用好客户和信用差的客户,提供贷款或增加额度给还款概率大的信用好客户,拒绝或降低贷款额度给违约概率大的信用差客户。因此本文首先从分类学习的角度出发,进行数学抽象成无约束的最优化问题,从而构建了统计学习的理论框架。并在此理论框架下梳理总结了当前处理分类问题的单分类器方法和集成分类方法。其次从数据的高维不平衡特点出发,建立了与之相适应的分类性能评估指标。然后结合集成分类方法,在随机森林模型的基础上引入代价因子,建立了基于高维非平衡数据的随机森林模型。并将新建立的随机森林模型应用到个人信用风险评估的实证研究上,实证结果表明新建立的随机森林模型在处理不平衡数据的分类问题上有很好的效果,尤其是在对占少数的违约客户的分类准确率上远远高于逻辑回归,单棵决策树,以及普通随机森林模型。并且随着不平衡程度的加深,其效果越明显。
其他文献
近年来,对传染病模型的定性分析已是应用数学专业的一个重要课题.随着研究的不断深入,人们将传染病的传播过程逐渐细化,非线性传染率、病程结构、年龄结构以及防控、治疗措施
最大流问题是一个经典的网络优化问题,除了解决实际网络中的问题以外,在许多科学技术领域也有广泛的应用。目前的大多数最大流算法都是针对有向网络的,并且是在容量限制条件和流
近年来,在无尺度网络拓扑结构下研究传染病动力学被广泛进行,而且取得了很多阶段性成果。由于无尺度网络能更好的描述现实世界的真实系统,本文主要对基于无尺度网络的传染病模型
复杂网络的同步与反同步问题已经受到数学、复杂性科学、物理、生物、计算机等领域学者广泛关注.咎其因为,这主要是因为复杂网络有着复杂的动力学行为,如周期性、混沌等.对一
学位