基于半监督学习的信用评分拒绝样本违约推断

来源 :厦门大学 | 被引量 : 0次 | 上传用户:ccw629
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
金融征信机构无法获取被拒绝贷款的申请者的违约标签,故只能用接受样本搭建信用评分模型,再应用于全局的申请者。实际上接受样本违约率会低于全局样本,这就形成了样本偏差,导致模型在多次迭代后出现严重偏误。拒绝推断(Reject Inference)通过在模型中加入推断的拒绝样本信息,修正在有偏样本上估计参数的偏差。大量实证研究显示,传统和统计的拒绝推断方法在非随机数据缺失机制(MNAR)下的效果非常有限。本文提出了“基于匹配的拒绝推断(psmRI)”和“基于匹配、迭代聚类和自主学习的拒绝推断(psmCSL)”2个半监督拒绝推断方法。首先,基于变量特征和违约倾向得分进行最近邻匹配,筛选出匹配到接受样本的部分拒绝样本。直接用匹配到接受样本的违约标签作为拒绝样本标签,就得到了psmRI方法。其次,将半监督聚类加入自主学习的框架中进行迭代聚类,进一步筛选拒绝样本。最后,将筛选后的无标签的拒绝样本加入有标签的接受样本共同训练,搭建半监督自主学习迭代模型,得到最终的方法psmCSL。模拟部分通过设计不同的数据生成、缺失机制构建人造数据集,设计6组实验,模拟多种可能的借贷场景,对比包含模型各个阶段的5种拒绝推断方法和不进行拒绝推断模型的效果,证明了:拒绝推断适用于样本数据积累较少的新信贷产品;psmCSL方法的有效性;得分匹配普遍优于基于特征的样本匹配。我们采用美国最大的借贷平台Lending Club公开的贷款数据集作实证分析,我们发现基于违约概率进行匹配推断的psmRI取得了最高的AUC、KS,证明了得分匹配的有效性,而基于违约概率和特征的psmCSL取得了最高的准确度和更低的第二类错误率,并通过显著性检验,证明了两个最优方法均显著优于不进行拒绝推断。本文将因果推断中的倾向性得分匹配应用到拒绝推断上,并用自主学习迭代法改进了现有的半监督聚类,模拟和实证均表明我们提出的半监督方法是解决拒绝推断问题的一个有效工具,能帮助银行和其他金融信贷机构进行科学和有效的信用风险管理,提高风险控制能力,对信用评分行业的发展具有一定的参考价值。
其他文献
锌金属负极具有较低的氧化还原电势(-0.76 V vs.SHE)、较高的理论容量(820 mAhg-1和5855mAhcm-3)、较好的水溶液相容性、高安全性和环境友好等优点,被认为是下一代储能系统最有希望的负极候选材料。但是,水系锌离子电池(AZIBs)在充放电过程中存在的锌负极枝晶生长和与电解液间的副反应严重等问题,这导致了 AZIBs库伦效率低、循环寿命短,给其商业化应用带来了严峻的挑战。然
学位
硅原子由于电子结构和成键模式不同于碳原子,吸引着人们广泛关注。例如,二硅烯和乙烯就有显著的结构差异,乙烯呈平面结构,而二硅烯的取代基呈反式弯曲构型。且与碳原子易形成π键不同,硅原子不倾向参与共轭而形成π键。硅宾(R2Si:)的基态通常为单线态,而卡宾(R2C:)受取代基影响,基态有单线态也有三线态。此外,芳香性是化学中最重要的概念之一。本论文中,我们通过理论计算,研究了含硅体系的稳定性和自适应芳香
学位
甲烷是天然气的主要成分,是一种出色的化工原料,较为稳定不易转化;二氧化碳广泛存在于空气中,是人类大部分活动的产物。两者都是温室气体分子,如果能以两种气体为反应原料产生高价值化学品,将有助于缓解温室效应同时带来一定的经济价值。近年来,研究表明甲烷和二氧化碳能够反应直接合成乙酸,其中铜基和锌基催化剂受到关注,但是催化剂活性中心本质和反应机理还不是很明确。为此,我们采取密度泛函理论(DFT)方法,对氧化
学位
磷化学与生命科学息息相关,随着有机膦化学的不断发展,化学家们合成了很多结构多样的有机膦化合物。这些有机膦化合物在生物医药、有机合成、光电材料和阻燃剂等方面有着巨大应用前景。因此,寻找有价值的底物来高效构建结构多样的有机膦化合物一直是有机膦化学领域的研究热点。近年来,联烯化学发展迅速,联烯的合成方法也更加简便,其中,2,3-联烯醇由于其独特的反应特性,开始作为一种有效的反应前体进入科学家们的视线。本
学位
选择性加氢在精细化工中有着举足轻重的地位,常用于制备胺类化合物和烯烃类化合物等重要基础化工产品。随着社会对环境问题的日益关注和废弃物处理成本的提高,发展环境友好又具有原子经济性的绿色催化剂已成为催化学科的重要研究热点。鉴于揭示选择性加氢反应过程中的微观“构-效”关系是理性设计高性能催化剂的关键环节,本论文在构筑不同类型的表界面改性模型催化剂的基础上,探索催化金属的电子结构和局部配位环境对改性催化剂
学位
以高能量密度著称的锂硫电池(LSBs)受到多硫化物(PSs)穿梭效应、硫(S)导电性差和循环过程中体积膨胀的影响,这些问题在高S含量和高S载量下更为严峻。针对这些问题,本论文从正极载体设计和隔膜修饰两方面开展研究,主要内容如下:(1)将微米S球封装在厚度可调的多层V/V2O5纳米壳(S@V/V2O5)中作为高硫含量的LSBs正极材料。极性的V2O5可以化学吸附PSs,金属V可以保证有效的电子转移,
学位
后疫情时代需要以内需作为我国经济发展的主要动力,2020年7月底召开的中共中央政治局会议提出了建设双循环新发展格局的发展战略,这要为我国经济可持续、高质量发展找到相匹配的内源型动力。但是我国农村家庭高储蓄率问题成为制约我国内需进一步扩大的重要因素,本文从家庭外出务工视角出发来研究农村家庭高储蓄率问题,这可以为理解我国家庭储蓄行为提供新的视角和证据,也可以为进一步扩大内需提供相应的政策参考。本文利用
学位
在电动汽车和小型化电子设备迅猛发展的今天,随着锂离子电池性能的提高,电动汽车的行驶里程在不断增加。然而,由于电极材料比容量的限制,当前商品化锂离子电池的能量密度很难大幅度提升。高能量密度的电化学储能系统引起了人们广泛关注。锂氧气(Li-O2)电池负极采用金属锂,正极反应的活性物质来自空气中的氧气,能量密度可高达3505 Wh g-1。近年来对Li-O2电池的研究在很大程度上推进了 Li-O2电池的
学位
蛋白质在生命活动中起着十分重要的作用,其丰富的二级结构诸如α-螺旋、β-折叠、β-转角等,为生物体中各项功能的实施提供了充足的保障。近年来,被称作“脊梁”的α-螺旋与β-折叠已受到了广泛的研究关注,而β-转角作为最常见的转角结构,为蛋白质提供了丰富的结合位点,亦受到了研究者们青睐。本论文以肽基N-酰胺基硫脲提供的β-转角结构为构筑模板,于双边N-酰胺基硫脲的末端引入芘荧光团,成功构建了基于双重β-
学位
经济特区取得巨大成功,为我国改革开放事业作出了重大贡献。为了探索特区成功经验,本文利用索洛余值(SR)法、数据包络(DEA)法和随机前沿分析(SFA)法,对1980-2017年深圳、珠海、汕头、厦门四个经济特区的全要素生产率进行测算,比较测算结果并分析特区发展原因及其差异原因,利用主成分回归法讨论影响特区全要素生产率的因素,探寻成功经验,希冀为我国未来经济增长和转型提供新的理念与思路。结果表明:(
学位