信用评分中的拒绝推断——基于半监督学习方法

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:honeysword
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对信用风险进行管理是目前信用消费的一个重要课题,信用风险模型则是一个管理信用风险的重要工具。而之前对信用评分模型的研究大多集中在对信用评分指标体系以及信用评分模型上,较少有人关注信用评分的样本集对模型表现的影响,但用于建立模型的样本集是信用评分模型的基础,所以样本集对于模型的准确性也是至关重要的。本文将重点放在信用评分的样本集上,讨论在信用评分中样本数据集的特征,并分析在此类样本集上建立的模型可能出现的模型参数估计有偏的问题。为了解决样本有偏缺失导致的模型参数估计有偏的问题,本文试图将被拒绝的样本中缺失的部分补充出来,得到样本信息相对完整的数据集后再进行建模,其中将样本中被拒绝的部分的违约情况推断出来的方法也就是拒绝推断方法。
  本文首先对数据的缺失情况进行了概述,简要阐述了不同的样本缺失机制,并且指出信用评分问题中的样本缺失机制是不完全随机缺失。对样本出现有偏缺失的情况进行了数理刻画,同时也从数理方向的角度证明了当样本量出现有偏缺失的情况时,模型参数的估计也会出现有偏,从而会影响模型的准确性。这也证明样本的有偏缺失问题是不能被忽略的,并且对被拒绝的样本进行推断,将缺失的信息填充出来是有必要的。
  之前对拒绝推断方法的研究主要是统计方法和及其学习的方法,但是对于缺失数据的处理,也有部分研究结合了机器学习方法和迭代的思想,本文在前人研究的基础上提出了一个新的半监督学习法——CBIL法。本文将分类方法与迭代思想进行结合,利用类的先验信息提出CBIL法对拒绝样本进行推断,并且对CBIL方法的分类思想以及迭代条件分别进行了阐述。
  本文对真实的数据进行仿真,模拟出实际中各种数据分布类型和特征,进而对本文提出的CBIL法进行评价。另外,由于前人对拒绝推断方法的评价基本都没有将不同的推断方法在同一数据上进行比较,本文不仅讨论CBIL的表现,同时也通过将CBIL与其他拒绝推断方法进行比较对CBIL方法进行评价。通过对CBIL进行的仿真实验的比较,本文能够得到以下结论:第一,随着样本量的增大各模型之间的差异逐渐减小,同时CBIL方法推断的有效性以及相对于前人提出的推断方法的优势也并不会因为样本量的增加而消失。第二,CBIL方法的在不同的缺失样本情况下都能有效的进行拒绝推断,而外推法和扩张法分别需要数据满足其优势条件。第三,不同的数据分布也会影响模型的效果。并且本文指出当数据分布是单峰右偏的时候,CBIL方法推断的效果最为明显。最后,无论数据呈现何种分布,CBIL的方法都能有效的进行拒绝推断,从而提高模型的预测的准确性。
  最后利用美国LendingClub借贷平台上的数据对CBIL的推断效果进行分析,说明CBIL的推断方法能够用于对被拒绝的处于模糊地带的信贷数据进行推断,从而提高信用评分模型的精确度,最后介绍了拒绝推断在实际中的应用。进而帮助银行或其他金融机构进行科学和有效的信用风险管理。
其他文献
目的:国家重视基层的卫生健康发展,基层是健康中国建设重要的阵地,实现健康中国战略需要依托健康社区、健康基层的建设及人民群众的参与。社区健康资源开发利用工作是社区健康建设的重要内容。本研究通过以合肥市为例开展社区健康资源开发利用现状研究,了解健康资源工作的存在的问题。  目的社区健康资源是健康社区建设重要的支持条件。目前中国存在哪些社区健康资源?社区健康资源开发利用程度如何?在社区资源开发利用过程中
学位
目的:(1)设计一套基于跨理论模型和AI的高血压患者运动干预初步方案;(2)对所设计的高血压患者运动干预方案进行初步评价。  方法:(1)从界首市已发放智能家庭血压计的行政村中选择3个行政村作为现场调查地点,调查所有已确诊的高血压患者;通过自主设计的结构化问卷进行现场入户调查,问卷内容主要包括一般人口学特征,血压及运动情况,对48条运动干预材料的初步评价。在调查地点选择40名高血压患者进行定性访谈
学位
目的:以合肥市为例了解生命早期1000天内包括孕产妇和0-2岁儿童的保健现状;基于胚胎起源学说和预防为主的观念重视生命早期,探索此阶段更有效,成本效益更高的管理策略;立足当今社会普遍的健康问题,尤其是慢性非传染性疾病严峻的流行现状,探索一条新的事半功倍的健康促进和疾病防治路径;同时促进妇幼保健资源的合理配置,缓解生命早期保健资源不足和资源浪费并存的问题。  方法:本研究采用方法如下:1)文献分析法
学位
目的:基于需方的角度出发,对长期护理保险运行现状进行评价,通过量化研究和质性研究了解参保人对长期护理保险服务知晓情况、需求与利用情况、满意度情况、政策期望等,探索影响参保人知晓度和满意度的影响因素,并根据研究结果提出针对性的优化策略,以期为政策的完善提供参考,促进我国老龄化事业健康发展。  方法:本文采用了量化分析与质性分析相结合的研究方式。通过政策研读和文献梳理,编制调查表,以试点地区自填的方式
概念虽然是一个很小的单位,但不管在文本写作还是口头表达中的都有着非常重要的意义。校长在日常工作中都会涉及到概念,那么这些常常使用的概念他们是如何理解、运用的呢?是否具有科学性、严谨性?是否系统地构建概念体系?是否创新出新的概念?正是出于这种疑虑,本研究主要聚焦高中校长概念素养的实然考察,了解其现状,发现其中存在的问题,进而提出相应的提升建议。  作为校长专业素养结构中的一种较为微观的要素,本文所研
学位
近年来,我国老龄化进程不断加快。全国老龄委公布的数据显示,未来在我国的大中城市,老年人空巢家庭率将高达70%。“老有所养、老有所医”已成为全国人民对美好晚年生活的共同期盼。传统的家庭养老和机构养老中提供的养老服务,大多是为老年人提供衣、食、住、行等方面的基本生活服务,养老服务产品和形式较为单一,服务的品质不高,缺乏专业的医疗服务。面对越来越严峻的老龄化形势,我国的养老服务发展仍处于初级阶段,对于“
学位
区域协同离不开产业间互动配合,优化产业结构是经济发展的永恒主题,也是中国未来一段时间内经济发展的“新常态”。长三角作为中国跨省域合作的先锋,在省域竞争愈演愈烈的局势下,迫切地需要协调省域间产业合理分工与布局,而省域产业联动则是其打破“调整与优化”双重困扰的发力点与重要保障。故探索长三角产业结构优化对策合力打造现代产业新体系,对促进长三角跨省域协同高质量发展具有重要作用。本文在对产业结构、产业关联形
本文以中国高潜水位煤炭资源型城市淮北市为研究对象,在构建煤炭开采对生态系统服务胁迫阈值模型的基础上,从土地破坏、地下水资源破坏、大气污染3个维度测算了淮北市煤炭开采对生态系统服务的胁迫阈值,并揭示了1990-2016年淮北市煤炭开采对生态系统服务胁迫作用变化规律,继而基于灰色关联分析的关联度模型和耦合度模型揭示了1990-2016年淮北市煤炭开采与生态系统服务耦合度时序变化规律。研究结果表明:  
学位
滨海旅游业是能够彰显沿海城市综合竞争力,促进“一带一路”沿线国家之间民心相通和不同文明互学互鉴的重要载体,在促使国家战略得以推进的过程中具有举足轻重的作用,而消费环境是影响滨海旅游业发展的一个关键因素,因而对其消费环境综合竞争力进行系统、全面的评价以便找准问题、进行改进是极其重要的。  东海区三省一市的沿海城市具有经济基础好,人口密度高,城市服务功能完备,基础设施优良,以及海洋文化资源丰富等诸多显
学位
中国海水养殖产业自养殖产量超过捕捞量以来,取得了一系列令人瞩目的成就,但是随着国际性的食品安全问题的出现,我国海水养殖产品的安全问题也同样需要重视,特别是海水鱼养殖产业在发展过程中存在的,如大菱鲆养殖产业出现的两次“多宝鱼事件”等恶性问题更需要养殖生产者及政府规制者的关注。为解决我国海水鱼养殖产品的食用安全问题,促进海水鱼养殖产业的健康可持续发展,需要加强政府规制者对海水鱼养殖产业的规制,而其所依