基于互联网金融下的信贷逾期预测的研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:zl52182
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网金融的迅速发展,信贷风险预测越来越重要,风险控制是当下的热点之一。随着信息化建设的不断完善,海量数据被沉淀和积累。需要更多的大数据技术去分析并获取更有价值的信息,为实现自动化提供原理支持,从而节省成本,提高效率。本文通过对近6万用户贷款信息数据进行分析,提取有价值信息,建立多个信贷逾期预测模型,优化并对比分析各模型,为实现自动化逾期预测提供原理支持。首先对数据进行预处理,主要是对缺失值和重复值的处理。其次是特征工程,包括特征衍生、特征选择和特征编码。特征工程尤为重要,直接决定了预测模型的好坏。在建模之前,需对离散特征编码,原因是部分模型对离散特征不识别,会把离散特征作为连续值处理,则会导致错误,但是少数模型却能够识别离散变量,比如随机森林。接着进行建模,本文主要用了Logistic回归、决策树DT和Xgboost模型建模。每个模型经过多次调整优化,使得预测模型最优,预测结果效果更加显著。建立的模型需要一定的指标去评估,文中模型的评估指标主要有:AUC、精确率、准确率、召回率和KS值。从整体来看,逻辑回归和决策树训练出的模型,预测效果几乎相同,但逻辑回归的预测效果更好,而训练决策树的模型的效率会更高。调整前后的Xgboost模型的预测效果没有得到显著的优化,但调整后的模型预测效果更优。在建立Logistic回归模型时,模型中加入了L2正则项,由于本文数据的特征比较多,L2正则项的加入可以有效防止模型过拟合。本文把缺失值当做一种特征处理,并且缺失值占比特征对模型有较显著的重要性。综上,通过对比各个模型的评估指标,Xgboost模型预测效果是最优的,而Logistic回归和决策树的预测效果次之。通过本文的研究可以为信贷逾期风险预测模型的建立提供以下参考:第一,特征工程是整个建模过程中的关键,其中特征衍生最为重要,通过对数据的提取分析,从而对用户精准画像,挖掘有价值的特征,进而做好特征工程,有效提高预测模型的准确度和性能。第二,在做相关信贷逾期预测模型时,即使有缺失值,不要直接删除缺失值,而是把它当做一种特征来处理。第三,缺失值对模型的精度影响很大,互联网金融平台要不断健全和完善用户信息系统,减少用户信息缺失。第四,在实际建立信贷逾期预测模型时,可以首先考虑Xgboost模型。可以以此模型为基础,进行模型的融合,建立更加准确的模型。
其他文献
随着社会的发展和科学管理观念的深入,薪酬管理研究受到越来越多企业的关注,薪酬体系及其实施效果成为人力资源管理实践的重大课题,也是人力资源管理研究的一个热点。企业支
“晚霞工程”就是为解决老年问题而寻求的一条新的途径。我国人口老化的现状及发展趋势都极不容乐观.老年问题很多.仅靠家庭无法解决.这就必须动员全社会的力量.构建一个“晚霞工
5月23日,新加坡交易所执行副总裁兼上市部主任黄良颖一行到达重庆,为当地企业到新加坡上市做培训。黄良颖表示,目前内地企业赴新加坡上市与赴香港上市无异,内地证监会对于两
<正>话题背景:长期以来,一把手体制下的中国企业,重大决策实际上是一个人说了算。即便不少建立董事会制度效果尚可的国有企业,在很多人看来,董事会制度也仅是帮助一把手避免
期刊
政府必须随经济、社会、科技发展的客观需要而进行改革,滞后的或超前的政府职能转变都不利于经济和社会的发展,任何国家都不能违反这个客观规律。我国的行政改革和政府职能转
<正>2014年到2015年的第一季度,银行业存贷比一直在64%-65%上下徘徊,并未用足75%,其中的差距实质上通过表外业务规避了。如果取消存贷比限制,很多表外业务将会正常回归表内在
20世纪90年代以来,城镇居民的医疗保障水平大幅下降,城镇居民医疗负担沉重。党中央、国务院高度重视解决城镇居民群体的医疗保障问题。2007年国务院颁布《关于开展城镇居民基
Toll样受体(Toll-like receptor,TLR)不仅与肿瘤的生长和免疫抑制有关,还与细胞凋亡及免疫系统的激活相关。TLR可以诱导细胞凋亡并激活固有和适应性免疫应答,这些功能都有可
为研究扣件弹条在高速列车运行下的性能及频响特性,以某型扣件SKL15弹条为研究对象,采用软件Solidworks和ABAQUS建立详细的扣件系统模型。首先分析弹条在自由状态下及组装下
石墨烯是由单层碳原子紧密堆积形成的一种碳质新材料,具有优良的电学、光学、热学及力学等性质。在众多的石墨烯制备方法中,化学气相沉积(Chemical vapor deposition,CVD)最有