基于XGBoost的信用评分预测模型

被引量 : 0次 | 上传用户:zdnumber
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2017年央行将防范金融风险作为今年的第三大任务,在此背景下,作为一个金融市场发展尚未成熟的国家,做好信用评估势在必得。信用评分模型在传统金融业已经较为成熟,但是随着大数据时代的到来和互联网金融的转型,大数据思维下的信用评分模型也要随之改变。平安集团下的前海征信企业有着大量的用户个人信用相关信息。对其提供的4万条脱敏数据,本文使用大数据技术进行分析和研究。由于数据量庞大、缺失值多、稀疏度和维度高等特点,本文首先采用个案剔除和均值填充的组合方法处理缺失值,然后利用Boruta特征选择法来降维。接着运用XGBoost算法集成CART弱学习器,建立信用评分模型,期间选择AUC值作为评优准则,设定目标函数为logistic函数,并对样本进行子采样和对目标函数加入正则化系数来防止模型过拟合。最终通过对比传统Logistic回归法和GBDT算法,发现XGBoost的测试AUC最好(AUC=0.7040),训练耗时最短(Time=18.59s),体现该模型的优越性。此外模型得到了各变量的相对重要性排序,User Inofo130,User Inofo113和User Inofo197等特征变量相对重要性最高,需要进行重点业务分析。本文为前海征信企业提供了大数据技术下的信用评分模型,并且选取了重要业务变量,具有较强的实用性和推广性。
其他文献
<正>蚕沙首载于《名医别录》,别名:原蚕屎、晚蚕沙、蚕砂、原蚕沙、马鸣肝、二蚕沙。收载于卫生部药品标准《中药材》第一册,为蚕蛾科昆虫家蚕蛾幼虫Banbyx mori Linnaeus的
Information systems have been increasingly used in all aspects of organization&#39;s business activities. These systems will inevitably evolve over time. The sy
在山区修筑高等级公路不可避免地进行深挖高填,会形成大量的高陡路基边坡或者路堤边坡。由于岩土体原有的地质环境平衡被打破,客观上为这些边坡的坍塌、滑动等地质灾害创造了
期刊
目的:探讨系统性红斑狼疮(SLE)药物治疗及预后。方法:54例系统性红斑狼疮的主要临床表现、实验室检查、诊断、药物疗效及预后。结果:患SLE者女性明显高于男性。蝶形红斑、光
<正>位于中国深圳城市中心区域的南头古城有着始于晋代的1 700余年建城史,近百年间古城不断消退而村庄不断膨胀,随着深圳城市化的加剧,最终形成城市包围村庄,而村庄又包含古
文章基于"公示语圭臬"之作——《常用标志英文译法手册》中的公示语文本类型分析,探讨公示语译者要遵循的翻译原则和方法,并详细阐述翻译伦理规约下公示语译者的职责,以促使
建立高效液相色谱法测定葡萄酒中白藜芦醇的方法,考察直接进样法的检测波长、洗脱强度、流动相pH值、柱温、样品pH值等因素对酒样分离的影响,建立HPLC检测葡萄酒中白藜芦醇的
神秘哲学是叶芝的三大兴趣之一。他在对东西方种种秘密法术亲身实验的基础上 ,构造了自己的信仰体系。其内容涉及个人秉性类型、人类历史发展规律和死后灵魂的存在状况。这些