基于集成LightGBM模型的信贷违约预测研究

来源 :东北财经大学 | 被引量 : 0次 | 上传用户:a63685296
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着居民的生活水平不断改善、消费能力不断提高,信贷方式的多样化、贷款门槛的慢慢降低,越来越多的人们开始通过贷款进行消费。人们的消费观念慢慢向贷款消费转变倾斜,这使得信贷机构面临的信用风险逐渐增大。因此对信贷机构的管理水平与风险控制均提出了更高的要求,也对信贷机构能够更准确地识别出存在潜在违约风险客户的能力有了更高的要求。对于信贷业务每年动辄数万亿资金体量而言,即使预测准确率仅仅是微小的提升,都将帮助信贷机构避免巨大的经济损失。更准确的识别出借款人的风险,不仅可以帮助信贷机构识别出风险客户和优质客户,降低违约风险。同时也有助于维护信贷市场的秩序和稳定,推动其良性发展。本文选择对信贷违约预测进行研究,基于机器学习方法,提出一种改进的违约预测模型,预测未来客户是否会产生违约行为。以期为信贷机构做出贷款审批的管理决策提供一些依据,帮助其降低客户违约风险、减少坏账率。为信贷机构制定控制信用风险相应对策、加强风险控制提供一些思路。本文提出基于Bagging算法集成LightGBM模型对信贷数据进行预测。首先,针对信贷数据数量庞大、信息复杂的特点,对数据进行预处理后,选择面对高维数据可以更快地给出特征指标重要性的随机森林模型计算各个指标的重要性值。根据重要性对指标进行排序,保留重要性值大于0.005的指标。其次,对每个训练样本集,使用SMOTE算法进行过采样增加少数类样本的数量以平衡数据。再次,选择基于树的LightGBM算法作为基分类器结合Bagging集成算法构建集成模型,分别训练10个LightGBM基分类器。再运用Bagging算法进行集成模型,然后采用投票方法即得票多的类别作为集成模型的最终预测结果。理论上集成模型将结合Bagging和Boosting的优势,具有更强的预警能力和稳健性。最后,考虑到类不平衡问题会导致传统的基于混淆矩阵的准确率等模型评价指标出现虚高的情况,使得评价结果不够准确、有效,本文采用ROC曲线和AUC值对模型进行评估。并将集成模型与未集成的单个LightGBM模型、传统统计方法中的Logistic回归模型以及传统机器学习方法中的随机森林模型进行对比分析,验证模型的效果。结果表明,在本文选取的信贷数据集上,集成模型的ROC曲线靠近左上角且其AUC值为0.9324,表现要明显优于其他三个模型。较未集成的单一LightGBM模型提高了 1个以上百分点,较Logistic回归更是大幅提升了百分之二十七,较随机森林也提升了百分之三左右。说明本文提出的集成模型具有更好的预测准确性,适用于信贷违约预测。并且在本文选取的数据集上,机器学习的方法预测精度明显高于传统的Logistic回归,说明对于高维度、复杂的信贷数据的处理,选择机器学习更为适合。本文创新性地选择基于树的LightGBM算法作为基分类器,再结合Bagging集成算法构建集成模型运用于信贷领域的预测。所提出的模型不只使用了一种集成方法,而是将两种集成方法结合使用对基分类器进行集成,进一步提升模型对信贷数据的预测精度。理论上集成模型将结合Bagging和Boosting的优势,具有更强的预警能力和稳健性。但本文所构建的模型虽然整体效果较其他模型更好,尤其对负类样本的预测更为精准,这对信贷违约预测尤为重要,可对正类样本的预测效果还不够理想,仍存在可进一步优化提升的空间。
其他文献
近年来随着我国高度重视住宅产业化发展,国务院要求“十二五”期间要着力推广预制装配式住宅体系,国内沿海和内地发达大城市都相应的对住宅产业化的建设比例提出了明确的目标,为更好的保障和提高装配式建筑节点的可靠性,就需要进一步完善对装配式框架节点的抗震性能研究。本文对于当前常见的装配整体式结构的各类节点和整体抗震特性展开深入研究。针对平面框架中含有的十字型节点、两类T型节点和L型节点,依照现行标准和规范要
学位
保障房用于满足居民的基本住房需求,其社会效益大于经济效益,国家在其建设过程中倾斜了大量资源。保障房建设具有投资回收期长、资金需求大、经济效益较低等特点,导致其资金缺口较大,而相关资产证券化产品通过信用增级可降低信息不对称产生的风险,帮助发行者顺利融资。“国开证券—温州生态园”保障房绿色资产支持证券专项计划是国内首单绿色保障房资产支持专项计划,于2020年6月4日在深交所挂牌交易。本案例采用了结构化
学位
在大型社会调查和人口普查中,一般都会采用开放式问题对被访者职业进行询问,传统的职业编码由专业人员使用全人工方式对这些原始回答文本进行编码,手动编码既费时又昂贵并且需要大量的专业知识。目前关于自动化职业编码的研究主要集中在英文文本领域,中文职业文本的自动编码研究几乎空白。本文基于中国劳动力动态调查(CLDS)2016年数据集,测试了四种不同的机器学习分类器,分别是朴素贝叶斯、逻辑回归、随机森林以及深
学位
茶树遗传转化技术迄今为止没有被建立,主要受制于茶树农杆菌转化效率低下和茶树再生速度缓慢两个问题。目前已经有基于发根农杆菌转化产生茶树毛发根的报道。而茶树再生过程中,愈伤组织诱导率低、幼苗畸形率高和幼苗生长缓慢的问题亟待解决。本研究,首先优化了茶树愈伤诱导体系并完善茶树再生体系,接着基于农杆菌介导的基因瞬时表达技术,比较了茶树不同组织器官的基因瞬时表达效率,筛选了促进茶树愈伤再生的相关基因。本研究论
学位
期刊
我国汽车保有量逐年上升,道路基础设施快速发展;与此同时,较大的道路交通事故量凸显出道路交通安全问题的严峻性。在我国,当前以设计速度理论为道路线形设计基础,线形设计指标极限取值可能导致道路设计不合理,缺少考量道路线形对碰撞事故后车辆行驶安全性的影响。为了减少车辆碰撞事故的发生,提高车辆碰撞事故后的道路安全性,本文开展了基于交通事故碰撞动力学的道路线形优化与车辆行驶安全性的研究。通过碰撞事故现场勘察的
学位
历史街区旧建筑风貌需要保持,外墙与屋盖不能拆除,但其承重与安全性能难以满足现代使用的要求,修缮加固工程往往只能在狭窄户内施工。本文通过实地调研,分析了福建历史街区旧建筑的主要特征,由于这类建筑邻户共墙,开间窄、进深大、楼层较高,涉及复杂产权,导致修缮工程操作空间小、施工需谨防墙体坍塌,常用加固改造方法难以使用,需要研究新方法。鉴于旧有承重体系无法再用,提出在户内新植钢框架,用以承担全部荷载,同时对
学位
语义分析是基于自然语言进行语义信息分析的方法之一,旨在通过句子的语义结构表示语言的结构。语义分析属于人工智能领域内的一个分支,是自然语言处理的基础核心任务之一,也是实现各种智能系统的关键技术,为知识图谱、智能问答、自动驾驶等应用提供了基础。近年来,随着互联网、信息行业的高速发展,各行各业开始建设以“大数据”为导向的数据中台信息管理系统。同样,在学术界,“大数据”已经成为各个学术领域研究的热点。经统
学位
下击暴流是一种强烈的下沉气流,能够在地面或地面附近引起破坏性的强风,对输电线塔、桥梁和建筑等结构物有着重大的安全威胁。已有研究针对两栋相同建筑间的互相干扰,证实了来流前方建筑阻挡下击暴流冲击风后的建筑尾流将对后方建筑造成一定的负压影响。而现实生活中,高层建筑周围存在多数较低矮建筑,下击暴流的冲击风作用于相对较低的建筑之后,产生的建筑尾流将影响后方高层建筑的风压分布特性,其结果将与作用两栋相同建筑的
学位
随着城市化进程的加快和建造技术的发展,各地的高层建筑数量和体量明显增加,玻璃幕墙也被越来越广泛地运用到建筑的围护结构中。在强风环境下,松散的具有一定质量的构件会被卷起在风场中运动成为风致飞射物,而风致飞射物碎片的冲击正是建筑物围护结构在强风环境下遭受破坏的一个重要原因,此类冲击对于建筑的结构安全和使用观感都会造成比较大的破坏。因此,本文旨在研究典型的飞射物和玻璃幕墙,通过对飞射物的飞行机理、撞击模
学位