基于经典评分卡与机器学习的金融风险识别模型及其应用

来源 :天津商业大学 | 被引量 : 3次 | 上传用户:chengxiulong33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网金融的蓬勃发展,在为有融资需求客户提供更快捷金融服务的同时,也产生了信用风险和用户欺诈等问题,因此,通过有效的信用评分体系,并借助于量化分析模型来定量预测并控制风险是当前风险领域研究的热点问题,本文针对大数据背景下,利用逻辑回归度量风险存在的不足,以某消费金融公司2017、2018年的线上现金贷数据为基础,采用GBDT、XGBoost、LightGBM三个机器学习算法建立模型,与逻辑回归所建立的模型进行比较分析,并在此基础上建立了Stacking模型,期望达到更好的模型效果。首先,本文样本数据量为22925,变量为1327个,包括商品消费、稳定性、网购、借贷意向(多次申请)、实名信息和地址信息6个方面的信息,并通过删除缺失值95%和单一值占变量份额95%以上的变量、对变量进行WOE分箱删掉IV值小于0.02的变量、对分类变量进行哑变量处理等操作,得到843个变量。其次,对843个变量进行lasso回归、逐步回归和变量衍生等操作,筛选得到87个重要变量建立模型。然后,选取逻辑回归和GBDT、XGBoost、LightGBM三个机器学习算法分别进行信用评分体系的构建,根据AUC和KS两个指标来对比分析各个模型效果,结果表明GBDT、XGBoost和LightGBM三个基模型的模型效果均优于单一模型逻辑回归的模型效果,其中LightGBM的模型效果最好,并在此基础上建立以GBDT、XGBoost、LightGBM为第一层基模型,逻辑回归为第二模型的Stacking模型,为此期待达到更高的模型效果,而Stacking组合模型的AUC与KS值是其余模型中最高的,KS值相对于逻辑回归提升了接近6%,GBDT、XGBoost和LightGBM提升了接近1%。最后,根据逻辑回归的预测结果建立了评分卡,通过对比分析用户的信用分数和实际违约率,验证结果的可靠性,并通过信用分数和违约率的分布情况,给予一些建设性意见。GBDT、XGBoost和LightGBM三种算法中后者都对前者进行了一定的改进,故本文采用这三个算法建立模型,已在模型效果、过拟合问题和运行速度等方面验证其优势,并在此基础上,结合逻辑回归建立了Stacking模型,有一定的创新性。
其他文献
会议
人类司法制度的发展史也即是被告人权利保护的进步史,刑事诉讼目的也由单一的惩罚犯罪转变为惩罚犯罪与保障人权并重。任何刑事程序的设立都要兼顾公正和效率两大价值,刑事简
介绍硅基负极中最常见的体积膨胀、不稳定的SEI膜以及首次库伦效率低三大技术挑战,并对其进行分析和相应展望。
论文以快堆非能动停堆系统为研究对象。首先,按照ASME规范要求,完成了用于快堆非能动停堆系统的磁性连接对的设计;其次,论文对工况进行了分析,总结出了磁性连接对在正常运行
白居易的诗歌在其生前就传入日本,对日本的平安文学产生了极大的影响。著名的平安朝女作家紫式部创作的《源氏物语》中可以见到许多白居易诗歌的影子。甚至作者吸收了白居易
目的:探讨不同分化血管外皮细胞瘤的影像表现与病理改变的关系,分析其MRI表现与肿瘤分级的关系,研究不同分化血管外皮细胞瘤影像和病理表现的特点以及与P73表达程度的相关性。
《廣韻》音系是汉语中古音的代表,《新华字典》的注音反映了现代汉语普通话的语音系统。本文以上海人民出版社2008年版余迺永先生校注的《新校互注宋本〈廣韻〉》(定稿本)和
本论文基于Weizacker-Skyrme原子核质量公式,进一步考虑了核质量公式中的残余修正项,提出了改进的核质量公式WS3。在WS3中引进的残余修正项主要包括以下几个方面:(1)在液滴能
本文通过对H市信息化居家养老服务构建过程的分析,呈现出政府与社会组织的互动关系从嵌入到排斥的转变。研究表明,一开始政府允许社会组织通过政策嵌入、关系网络嵌入和服务
本文首先总结了西方音乐史的几个发展历程和在文化上的转变,然后用对比的方式从古琴的发展历史引出了中国音乐的发展和变化,从古琴与文学和古琴与美学两个方面展开论述,阐释