基于决策树的信用卡违约记录分析

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:lianghaiyanps3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信用卡业务作为一种非现金业务,属于银行的核心内容以及主要的收入来源,因此其市场竞争相当激烈。而这种激烈的竞争所带来的业务量极具增加的同时,也使银行承担着巨大的风险,除了违约造成的巨大金额损失外,还有一定的催收成本。因此,对用户的违约行为进行预警,提前识别信用卡违约用户就显得尤为重要。本文数据为某大型银行2015―2017年之间的信用卡违约记录数据集。此数据集共有15万条数据,包含11个特征变量,其中特征“是否违约”属于二分类的因变量,有两个类别,违约和未违约,其中未违约用户在总数据集中达到93%的占比。其余10个特征属于自变量,描述了用户的多方面信息,如:月收入,家数数量,负债率等。本文首先基于原始数据集,构建决策树预测模型,实验结果出现准确率很高但召回率极低的现象,对此,本文从数据自身的特点出发,经过探索分析发现,传统的分类模型大都假设:类别的数量相等,并且误分代价也相同,但本文的数据集类别分布极度不均衡,因此并不适合直接用来学习决策树模型。因此本文在学习模型前,先对不均衡的训练集进行均衡处理,选取的处理方法为过采样技术中的SMOTE算法,使得新训练集中的类别达到均衡。本文训练集在过采样处理前,未违约93499人,违约5965人,SMOTE方法处理后的训练集中违约与未违约人数均为93499人,训练集已达到均衡状态,符合决策树模型的构建环境。基于新的均衡的训练集,重新构建决策树分类模型并进行结果评估,将得到的实验结果与基于未经过采样处理的数据所构建的模型预测结果进行对比,发现基于过采样处理后的数据所建立的决策树模型能够在保证准确率的同时,召回率从0.14上升至0.71,这表明识别违约用户的能力具有明显的提高。本文选用的决策树算法简单直观,可理解性强,在实际运用中能够为信贷决策提供支持,具有较强的理论和现实意义。
其他文献
目的:探讨幽门螺杆菌(Helicobacter pylori,H.pylori)感染通过原癌基因c-JUN引起DKK1表达上调,以及DKK1在胃癌细胞生长和侵袭中的作用及分子机制。方法:(1)用c-JUN shRNA转染胃癌细胞AGS和SGC-7901 48h,加入H.pylori 1004感染细胞6h,收集细胞,提取总蛋白,蛋白免疫印迹(Western blot,WB)检测各组c-JUN和DKK
电子病历可以看作是病人在进入医院到离开医院期间的记录信息,包括所患疾病的原因、疾病的治疗方法以及对于疾病的药物治疗与疾病的检查手段等等。这些信息不但有利于患者健康的恢复,而且为以后的医疗留下了宝贵的信息。电子病历一般有图像信息与文字信息两种,其中以文字信息居多。医院记录的电子病历文字信息绝大多数是非结构化的信息,这些信息对科研与临床都有着重要的意义,然而这些信息并不容易被信息抽取。文本信息抽取最基
随着无线通信网络的飞速发展,用户对于高清视频业务的需求日益增加。然而视频质量的不断提升,导致对于无线网络中的传输速率和效率的要求日益提高,同时带宽资源也显得捉襟见肘。为了解决上述问题,在靠近用户侧进行文件缓存成为了可行并有效的方法。因此如何进行文件缓存直接影响到了通信成本和用户体验。我们尝试在无线通信网络中解决这一问题。论文主要研究如何优化缓存放置和路由选择策略,以此来降低运营商成本和通信延迟以提
《御撰资治通鉴纲目三编》是清官方于乾隆年间修纂的一部记载明朝史事的断代纲目体史籍。该书在修纂时经历了初修和重修两个阶段,形成了初修本和重修本两个版本。初修本遭官方查缴,重修本实为官方钦定的版本。该书在史料来源上以《明史》为主,以《明实录》为补充并杂取其他私人史著。在史料运用上具有善于剪裁,注重考证的特点。该书在思想上则具有传统纲目体史著义理史学的影子,一方面注重通过谨严的书法对历史人物、历史事件进
苏东41-33区块位于鄂尔多斯盆地伊陕斜坡东北部,长期沉积间断的风化壳不整合面形成复杂的岩溶古地貌,属苏里格气田奥陶系碳酸盐岩气藏的重要勘探区。本文以马五段风化壳储层为研究对象,基于最新的钻井、测井、地震及生产动态资料,综合采用地球物理法、残厚法和印模法对古地貌进行精细刻画,通过岩心观察、薄片鉴定、压汞实验等分析手段完成储层地质特征、气藏开发特征和含气系统的研究,系统总结了气藏分布特征及主控因素,
装配式混凝土结构具有施工速度快、节能环保、劳动力需求少等优点,是我国建筑业发展的方向。目前装配式预制板的应用主要是基于不同连接方式的叠合板,湿作业量较大且施工质量不宜保证。为此课题组提出一种暗梁式全预制板连接方法,暗梁式全预制板连接是基于全预制板的一种新型连接方式。该连接方式在连接处传力连续、整体性好,减少了大量的湿作业,在保证承载力的同时还具有施工便捷、节能环保等优势,具有较高的应用前景。基于A
最近,由于基于地理位置的社会网(LBSNs)的不断应用,许多基于此开发的app(比如美团、百度地图、大众点评等)的不断兴起,POI(Point-of-Interest)推荐的问题越来越引起人们的兴趣。用户需要POI推荐来解决他们“下一步去哪”的问题,同时,POI推荐也广泛的被应用到2B、2C等领域。本文主要解决的问题是基于时空信息和社会网的POI推荐问题,包括如下三个子问题:首先,本文根据POI推
中立帮助行为是外观上表现为无害、中立,但实际上却为正犯行为提供了便利,且主观上对他人犯罪有所认识的行为,理论上对其可罚性颇多争议。混合惹起说主张共犯处罚依据在于共犯的不法独立性和不法连带性,在否认“无正犯的共犯”的同时肯定“无共犯的正犯”,为中立帮助行为出罪提供了理论依据。由于客观归责论与混合惹起说相契合,能够对帮助行为进行价值判断从而解释帮助犯自身的不法,从因果关系的角度解释帮助犯因促进犯罪结果
留守儿童在我国现阶段是一个极为重要的群体,在经济高速发展的今天,他们可能因为家庭和区域的原因没有享受到该有的经济发展下的红利,所以,教育界一直致力于研究如何去关爱农
基于位置的社交网络(Location-Based Social Network,LBSN)规模日渐扩大,人们乐于在LBSN上进行签到,同时分享自己的位置信息和社交关系。LBSN上的签到行为生成大量的位置社交数据,其对用户提供个性化服务具有重要价值。为了让用户更易获得符合其偏好的位置信息,兴趣点(Point of Interest,POI)推荐应运而生。兴趣点推荐面临着数据稀疏、个性化不足等问题,在