基于改进的SMOTE下Boosting算法在个人信用评估中的应用研究

来源 :上海师范大学 | 被引量 : 2次 | 上传用户:sailordong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国信贷业务的逐年增加,金融机构和地方经济得以蓬勃发展,但也伴随着信用风险的不断增长。为了有效规避风险,减少客户误判导致的银行亏损,我们需要探讨更优的方法来对个人信用进行评估。本文选取Lending Club公司2018年的贷款数据作为原始数据,结合国内外文献和信用评估构建准则,建立指标体系并据此确定了50个变量。研究内容主要包括两方面:第一,针对指标体系中特征选取的问题,本文创新性的将主成分分析法和Relief F法相结合,用于个人信用评估的特征降维问题,既解决了变量的信息冗余,又考虑了每个特征对类标签的识别能力,有效提高模型的分类精度。运用PCA-Relief F法将变量维度降至20,在一定程度上降低了模型的复杂度。第二,针对信用评估数据的不平衡问题,本文创新性的对经典的SMOTE算法进行改进,提出新的过采样算法,本文称之为MS-SMOTE(Synthetic Minority Oversampling Technique in Multiple Situation)。该算法用核距离替代欧几里得距离,使线性插值更加合理,并根据少数类样本的分布情况,采用不同的插值规则,合成新的少数类样本来改变数据集的不平衡度,有效提高少数类的分类精度。本文采用Xgboost、Light GBM和Catboost三种Boosting算法,验证MS-SMOTE算法的优势和有效性。结果表明,MS-SMOTE算法不仅可以提高少数类的分类精度,还有效的降低了模型的过拟合现象,体现了该算法的可行性及推广价值。在MS-SMOTE算法下,本文还验证了PCA-Relief F在分类问题中的优势所在。结果表明,PCA-Relief F可以提高模型的分类性能,体现了该方法在分类问题中的使用价值。
其他文献
在自然界中,许多系统状态的变化不仅与当前状态相关,而且也与过去某个时刻或某个时间段相关,对于这类系统方程,我们一般建立时滞微分方程模型较为合适。另一方面,多进化过程的特征是它们在某些时刻经历状态的突然变化,这些过程受短期扰动,其持续时间与过程的持续时间相比可以忽略不计。相应地,容易假定这些扰动是瞬时地,也就是说,是以脉冲地形式出现地。这时,系统将不是连续的,而是半连续的,此时我们建立脉冲微分方程来
如何缓解由所有权和经营权的两权分离引起的委托代理问题是现代公司治理领域的重要课题。现有研究对代理问题的治理主要从激励和约束两个角度展开,前者主要通过实施管理层激励如设计股票期权、绩效奖励等提高股东和代理人之间利益的一致程度以降低代理人的自利倾向;后者则通过完善公司治理结构、健全内部控制等方法降低信息不对称程度。在金融经济学研究领域中,越来越多的学者关注到社会关系对经济主体行为决策产生的影响,为公司
中国股票市场历经20余年的发展,逐步演变为能够推动经济快速发展的催化剂,但由于市场法律制度的不成熟和上市公司治理体系的不完善,导致投资者的价值观念发生扭曲,信息不对称问题和代理冲突凸显,股票市场沦为政策和圈钱的工具,分红乱象诸多,引发了市场参与者与众多学者的分析与讨论。现金股利政策是资本市场研究和公司金融领域一直关注的热门课题,中外学者将其他经济理论加以融合,衍生出丰富的股利政策理论和假说。近年来
无线传感器网络应用十分广泛,极大地改变了人类的生活方式,该技术有非常好的发展前景。目前,无线传感器网络中关于择优路径的路由算法主要是基于动态传感器网络的,研究主要集
在无线电的发展进程中,各种电子产品的广泛使用,使得电磁环境日益复杂,所需的无线电往往是混有大量噪声的混合信号,一些有用信号甚至淹没在噪声中,导致人们难以获得并利用它
关键蛋白质对于生命的维持至关重要,其缺失会使生物体致病甚至死亡。识别关键蛋白质有助于对细胞功能和生物学机制的研究和探索。近年来,大量基于蛋白质相互作用网络(PPI网络)识别关键蛋白质的算法被提出,传统PPI网络基于生物实验测得的蛋白质相互作用数据(PPI数据)搭建,但这种PPI数据中有很多假阳性问题,如何有效过滤假阳性数据有待深入研究。PPI网络中,一个蛋白质重要程度并不仅仅取决于他的局部邻居的相
塔里木油田库车山前地区中浅层普遍分布的巨厚砾石层是制约该地区丰富油气资源有效勘探开发的关键性难题之一。该地区地质条件极其复杂,砾石层最大厚度达5000m以上,且纵横向
改革开放40年间,我国政府不断推进扶贫开发进程,已取得了巨大的成就。但我国贫困问题仍然存在,解决贫困问题已到了攻坚克难的关键时期。而外商投资作为有效缓解贫困的方式之一,通过对资本强有力的补充,可以推动教育、医疗等多方面的发展。因此,文章从发展的视角出发,分析我国FDI与贫困的区域性,研究FDI减贫的空间效应。论文首先梳理了 FDI与贫困的相关文献和理论,并分析FDI减贫的传导机制。其次界定贫困的概
40年来的改革开放,使中国在经济持续高增长的同时,科技实力和创新能力也取得了长足进步,中国专利数量出现“爆炸式”的增长。然而对于中国取得的令人睹目的创新成就,即中国专利申请数量的激增,却可能并非是中国研究者的创新灵感翻倍的结果,而是政府创新发展战略和补贴政策推动的结果。2014年,国家产权局特别指出,中国目前高质量专利占比不高。据国家产权局数据,2016年中国有超过一半的企业接受过政府补贴。此外,
电化学DNA生物传感器具有灵敏度高、特异性好、携带方便、耗能少等优点,与各种信号放大策略和可再生策略相结合,可以实现对检测目标的痕量分析,受到了研究者们的广泛关注,目前已成为当今生物学、医学领域的前沿性课题。然而,开发高灵敏度的电化学DNA生物传感器仍然面临很多挑战。在电极与溶液的界面上,传质速率的减小和拥挤效应的增加,使得DNA的识别与杂交受到很大影响。DNA纳米技术的出现,为电化学DNA生物传