高维非平衡数据的集成分类方法及其在个人信用风险评估中的应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zzj0926
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前国家大力发展“普惠金融”,推动建设社会信用体系的背景下,大数据征信越来越成为学术界和金融界关注的热点问题。相比于数据的体量而言,大数据征信中更为关键的问题在于处理征信数据本身维度的多样性和结构的复杂性。例如大部分征信样本数据从结构上说都是类别非平衡的,其中的违约样本在整体中往往只占到很小的比例。而目前现行的关于个人信用风险评估的多数方法和模型都没有重视数据的这些特征。如果忽略数据本身带有的特点,直接套用现有的模型和方法,自然而然其结果和可靠性都会受到一定程度上的影响。  从统计学习的角度而言,可以将个人信用风险评估转化成一个分类问题,通过将贷款申请人分为信用好客户和信用差的客户,提供贷款或增加额度给还款概率大的信用好客户,拒绝或降低贷款额度给违约概率大的信用差客户。因此本文首先从分类学习的角度出发,进行数学抽象成无约束的最优化问题,从而构建了统计学习的理论框架。并在此理论框架下梳理总结了当前处理分类问题的单分类器方法和集成分类方法。其次从数据的高维不平衡特点出发,建立了与之相适应的分类性能评估指标。然后结合集成分类方法,在随机森林模型的基础上引入代价因子,建立了基于高维非平衡数据的随机森林模型。并将新建立的随机森林模型应用到个人信用风险评估的实证研究上,实证结果表明新建立的随机森林模型在处理不平衡数据的分类问题上有很好的效果,尤其是在对占少数的违约客户的分类准确率上远远高于逻辑回归,单棵决策树,以及普通随机森林模型。并且随着不平衡程度的加深,其效果越明显。
其他文献
近些年来,随着我国教育事业的飞速发展,小学数学教育呈现出蓬勃发展的迹象,然而与城市中所不同的是,乡村小学因为条件有限,先进教学的设备欠缺,使得小学数学的教学比城市小学
随着时代的发展和教育改革的不断深入,我国教育逐渐从传统的应试教育转变成素质教育.基于此,合作探究式教学应运而生,不仅为学生创造了良好的学习氛围,促进了学生思维能力、
近年来,对传染病模型的定性分析已是应用数学专业的一个重要课题.随着研究的不断深入,人们将传染病的传播过程逐渐细化,非线性传染率、病程结构、年龄结构以及防控、治疗措施
在教育体制改革的当下,高中语文学习的重要性也逐渐突显出来.而高中语文写作在语文学科学习过程中发挥着重要作用,写作学习能够使我们自身的语言运用能力得到提升,然而,在传
在中国煤炭运输大港秦皇岛港附近的绥中县,将崛起一座新的亿吨煤炭港区。这个新煤炭港区,将成为辽宁省最大的煤炭运输港口,为内蒙古东部的煤炭资源下海南下提供支撑。 In Su
新课程改革在我国已经实行了好些年了,并取得了较好的成果,体育课程这一块的成效尤为明显.在新课程下,体育推出了体育与健康课程,它对于内容的多种教育价值要求提高,需要体育
宫本朋,一位80后青年画家,一位地地道道的乡村教师。他用自己的墨竹画书写着无悔人生。宫本朋出生在庄河市,读小学时就学过画竹,1997年考入了大连师范学校美术班。2004年,宫
最大流问题是一个经典的网络优化问题,除了解决实际网络中的问题以外,在许多科学技术领域也有广泛的应用。目前的大多数最大流算法都是针对有向网络的,并且是在容量限制条件和流
近年来,在无尺度网络拓扑结构下研究传染病动力学被广泛进行,而且取得了很多阶段性成果。由于无尺度网络能更好的描述现实世界的真实系统,本文主要对基于无尺度网络的传染病模型
复杂网络的同步与反同步问题已经受到数学、复杂性科学、物理、生物、计算机等领域学者广泛关注.咎其因为,这主要是因为复杂网络有着复杂的动力学行为,如周期性、混沌等.对一
学位