基于集成学习的混合模型在个人信用评估中的应用研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:lydr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,我国居民的消费贷款规模一直保持在20%以上的高速增长,各互联网巨头都已先后发力,瞄准了消费金融市场潜力。精准高效是各大金融机构风控系统的核心竞争优势,维系这一优势的则是以大数据为代表的新金融科技技术。建立精准高效的个人信用评估系统,高风险控制能力,是金融机构的迫切需求。本文在国内外相关研究的基础上,出了基于集成学习的混合模型:选择弹性网-Logistic回归、随机森林和XGboost三个模型作为基学习器,通过Super Leaner算法进行融合得到混合模型用于个人信用评估。实证部分采用来自某互联网金融智选平台的近6万贷款用户的基本身份信息、消费行为、银行还款等数据信息。以对模型原理和实际业务背景的理解为基础,建立科学合理有效的特征工程框架,进行特征取、缺失值处理和数据标准化,最大程度上获取数据中的样本信息。最后得到特征维度均为343维,样本长度为38917的训练集和样本长度为16679的测试集用以建立个人信用评估模型。基于训练集建立弹性网-Logistic回归、随机森林和XGboost三个单模型和通过Super Learner算法得到的混合模型,通过其KS值和AUC值综合评价模型在测试集上的表现,并进行了对比研究,混合模型在两个评价指标上均优于单模型。最后,从特征工程的重要性以及混合模型的优越性两个角度对全文进行总结,并对就本文的不足之处出了后续研究建议。
其他文献
教科书插图是指将照片、图片、图表等插附在生物教科书中,是一种对教科书中知识呈现的方式,与教科书文本内容相互联系相互补充,是教科书中的一部分。本研究中对插图的定义是
目的:探讨叙事疗法对车祸创伤事件暴露者罹患创伤后应激障碍(Post-traumatic Stress Disorder,PTSD)的防治效果。方法:纳入经历车祸创伤事件的创伤暴露者120例,按入组奇偶顺序分为干预组与对照组,各60例。创伤事件发生后第2d行一般情况调查问卷、艾森克个性问卷(EPQ)、社会支持评定量表(SSRS)、简易应对方式问卷(SCSQ)、韦氏记忆量表中文修订版(WMS-RC)、
测定了京杭运河台儿庄段槐叶萍不同部位中的重金属含量,并运用单因子污染指数和内梅罗综合污染指数相结合的方法评价了京杭运河台儿庄段槐叶萍重金属含量特征.结果显示:槐叶
<正> 五台山、恒山与霍山是山西省的三座名山。五台山,又称清凉山,它与四川峨嵋山、浙江普陀山、安徽九华山同为佛教四大名山,而其寺院规模则堪称首位。北岳恒山乃道家圣地,
等温锻造技术是国际上一种先进的近成形/近净成形工艺,本文重点介绍了钛合金等温锻造技术的特点、工艺设计、模具设计与制造以及钛合金等温锻造技术的应用现状和发展前景。
悬臂梁是自升式钻井平台的关键设备,悬臂梁性能的好坏直接影响平台的钻井能力。因此开展悬臂梁的结构设计与优化具有重要意义。本文针对某作业深度为400ft的自升式钻井平台进
<正> 叶剑英同志既是伟大的革命家、杰出的军事家,又是著名的诗人。就是在那战火纷飞的年代,他既能以军事家的刚毅、机智,果敢的胆略,指挥千军万马冲锋陷阵,夺取一个又一个的
我国已步入老龄化阶段,老年群体的健康状况一直备受重视.阿尔兹海默病(Alzheimer’s disease,AD)是最常见的老年痴呆类型,主要以β-淀粉样蛋白异常沉积形成老年斑(Senile Pla
针对少样本学习问题,提出基于自适应特征比较的算法.通过元学习的策略,在训练集中以基于自适应特征比较的方式学习到可用于直接判断查询图像与每一张训练图像类别相似度分数的知识;利用学习到的知识,在测试过程中将所有支撑图像与查询图像经过一遍前向计算,选取与查询图像经特征比较最相似的一幅支撑图像的类别作为查询图像的类别.算法由特征提取和特征比较两个卷积神经网络子模型组成,分别实现图像空间到特征空间的转换和比
本文通过对西藏医药制造业上市公司环境会计信息披露数量与质量的分析,探讨其披露现状及存在的问题,发现披露状况逐步提升但依然存在披露载体有待统一、定性信息披露形式有待