基于不平衡数据的混合模型在信贷预测的研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:hbffff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网金融领域的快速发展给人们生活带来极大便利的同时,也暴露着巨大的信用风险。在金融领域中如何预测信用卡申请者是否具有欺诈行为已经成为当今金融机构需要解决的一大问题。金融风险防控正是在这样的背景下应运而生,金融机构可以对申请者建立风险评估模型,借助申请者的个人信息与社会活动轨迹来发现其潜在风险,从而减少自身的损失。然而,信贷预测是一个典型的数据不平衡的二分类问题,数据具有类别不平衡、特征维度较高的特征,目前现有的传统机器学习方法无法处理不平衡数据问题。因此,本文重点针对数据不平衡问题,从数据层面和算法层面进行改进,通过使用数据平衡方法与Stacking融合模型进行组合,构建信贷预测模型,本文主要研究内容如下:(1)构建信贷预测模型的预测特征。好的预测特征是算法获得出色预测结果的重要步骤之一,本文首先借助数据挖掘技术对信贷预测模型中的数据进行数据预处理操作,然后利用统计学知识从预处理后的数据中提取特征,最后通过使用随机森林算法对特征进行重要性排序来去除无关特征。(2)在数据层面提出了一种改进的SMOTE-ENN数据平衡方法。为了解决SMOTE算法在处理非平衡数据集时所产生分布边缘化的缺陷,本文在SMOTE算法的基础上进行改进,引入Borderline SMOTE算法与KNN算法进行有效结合,形成了一种SMOTE-ENN重采样方法来处理数据集不平衡的问题。本文已使用SMOTE-ENN重采样数据平衡方法与现有的采样方法进行横向对比,证明了SMOTE-ENN重采样方法具有更好的效果。(3)在算法层面提出了一种基于Stacking模型的多异质算法融合的信贷预测模型。本文主要挑选了KNN、支持向量机、Ada Boost、随机森林、XGBoost、朴素贝叶斯、Catboost、决策树、Light GBM九种机器学习分类算法,通过使用网格搜索的方法对九种分类模型进行超参数调优之后,择优从中挑选出分类效果较好的三种算法即随机森林算法、XGBoost算法和Light GBM算法三种算法。通过Stacking集成学习算法将这三种算法与逻辑回归算法进行融合形成Stacking融合模型,然后使用Stacking融合模型与SMOTE-ENN数据平衡方法进行组合构建信贷预测模型。最后本文使用信贷预测模型与其他单一机器学习算法进行对比来验证信贷预测模型的有效性,实验结果证明信贷预测模型的F1值比其他的机器学习算法都要高,因此信贷预测模型相比其他算法,其泛化能力更高,对欺诈用户识别更加准确。
其他文献
计算机视觉技术是人工智能研究领域的核心技术之一,而关键点检测技术则是计算机视觉领域的一项前沿技术。人脸关键点检测的目标就是自动定位人脸关键点区域,之后对人脸进行对齐校正,本质属于人脸识别前的预处理过程;而人体关键点检测的目标是自动定位人体关键点区域,之后对人体进行对齐校正,本质属于人体姿态估计前的预处理过程。关键点检测是计算机视觉中一个比较基础的研究课题,在许多计算机视觉任务中起着重要的作用,被广
学位
现阶段的教育培训系统大多采用单体应用的方式,随着学员的报名人数不断攀升,同一时间报名人数出现爆发式增长时,服务器可支持的并发量不够,导致一旦系统中某一部分出现问题,整个应用都会崩溃,若问题反复出现可能会导致学员流失的情况。同时在具体教育培训应用的场景中,可能会出现在某一时间段,并发量剧增或某一业务较为复杂,服务器处理时间较长的情况,如果采用普通的负载均衡轮询策略,会导致部分请求阻塞在某一台服务器,
学位
遥感技术兴起于上世纪六十年代,随着时代的发展遥感技术也在逐步发展和完善。卫星所获取的数据也在不断的更新,现今遥感卫星数据有着很高的精准度,这高精度的数据使得遥感技术能够在农业、水域、环境、资源保护、水文、气候、地质等领域开花,进一步的推动着我国的发展。粮食是一个国家的重要资源,纵观我国历史,我国从古自今一直是一个农业大国。我国南部有着世界三大流域之一的长江,得天独厚的地理条件是国的粮食种植生产的良
学位
近年来,网络文学繁荣发展,极大地丰富了网民的业余生活。但用户寻找喜爱的小说需要花费大量的时间,而推荐技术是解决这一问题的有效方案。目前许多中小型小说阅读网站尚未具备令人满意的推荐能力,因此针对中小型小说阅读网站进行的小说推荐研究具有一定意义。传统推荐技术需要应对数据稀疏、冷启动问题的困扰,而社区发现与推荐技术进行结合对降低上述问题的影响有着优良的效果。本文结合NOCD模型和评分预测推荐技术,提出了
学位
传统的客流统计主要通过对客流中的每个人体目标进行特征检测、目标追踪等方法实现,目前该技术已经取得了一些研究成果,这些方法在景点客流量统计情景下,会因为景点环境游客高峰期客流密度大,身体显著遮挡,人体会伴随人流的快速移动等情况的存在,人体分割存在很大的误差,在获取人体运动信息方面不够精准,使得景区客流统计在技术层面仍存在较大提升空间。采用传统神经网络可以对输入的监控视频生成对应的客流量统计数据,借助
学位
近年来,炎症性肠病(IBD)的发病率逐步升高,该病有难治愈、易反复、致残率高等特点。我国对该病的全程化管理和治疗还处于探讨和优化阶段。福建中医药大学附属第二人民医院脾胃病科炎症性肠病专病团队在国医大师杨春波的带领下,在长期的临床实践中形成了具有中西医结合特色、以疾病诊疗指南为指导、多学科共建的全病程化管理模式。现将福建中医药大学附属第二人民医院脾胃病科在该疾病管理中的多学科建设、质量控制、规范化管
期刊
背景炎症性肠病(IBD)患者报告结局水平受到关注,目前少有成熟且具有我国文化特点的IBD患者报告结局量表,已开发出的量表需要经过严格的考评。目的 对炎症性肠病患者报告结局测定量表[PROISCD-IBD(V1.0)]的测量学特性进行分析评价,为科学测评IBD患者报告结局提供依据。方法 使用PROISCD-IBD (V1.0)对2020年10月—2022年1月在昆明医科大学第一附属医院和广东医科大学
期刊
中国书法举世闻名,在中国历史上出现过很多知名的书法家,并留下了许多非常珍贵的书法作品。如今为了更好的保护这些书法作品,将它们进行了数字化处理。通过这种方式,可以利用机器学习和模式识别技术来促进书法相关问题的研究,例如书法图像去噪、书法合成和书法分类与识别等。本文主要研究内容是中国书法分类,其中包含字体分类和风格分类。本文提出了一种新颖的多损失孪生卷积神经网络,能同时解决中国书法字体以及风格分类问题
学位
实例分割是计算机视觉的重要分支,它在无人驾驶、卫星导航、医疗影像等领域有着广泛的应用。实例分割的主要目的是将输入图像中的目标检测出来,并对每个目标的像素分配不同的标签。随着深度学习技术的发展,人们纷纷开始转向使用卷积神经网络实现实例分割任务。例如比较经典的Mask R-CNN模型,该模型首先利用残差网络和特征值金字塔进行特征提取,并生成推荐区域,其次使用全连接网络对推荐区域中的目标物体进行分类和定
学位
智能信息时代的来临,引发了科技的不断革新,使人们的生活方式发生改变,产生了日新月异的变化。在信息化的环境下,手机的拍摄功能为人们获取文档的相关内容提供了便捷的途径,有利于实现文档材料的检索与查阅,提高文档的分析与识别效率。在这个过程中,文种识别任务作为文档分析与识别的首要工作,占据着无比重要的地位,对后续的文本检索与文字识别等任务发挥着至关重要的作用。然而在文种识别的研究中,基于手机拍摄文档图像的
学位