论文部分内容阅读
对信用风险进行管理是目前信用消费的一个重要课题,信用风险模型则是一个管理信用风险的重要工具。而之前对信用评分模型的研究大多集中在对信用评分指标体系以及信用评分模型上,较少有人关注信用评分的样本集对模型表现的影响,但用于建立模型的样本集是信用评分模型的基础,所以样本集对于模型的准确性也是至关重要的。本文将重点放在信用评分的样本集上,讨论在信用评分中样本数据集的特征,并分析在此类样本集上建立的模型可能出现的模型参数估计有偏的问题。为了解决样本有偏缺失导致的模型参数估计有偏的问题,本文试图将被拒绝的样本中缺失的部分补充出来,得到样本信息相对完整的数据集后再进行建模,其中将样本中被拒绝的部分的违约情况推断出来的方法也就是拒绝推断方法。
本文首先对数据的缺失情况进行了概述,简要阐述了不同的样本缺失机制,并且指出信用评分问题中的样本缺失机制是不完全随机缺失。对样本出现有偏缺失的情况进行了数理刻画,同时也从数理方向的角度证明了当样本量出现有偏缺失的情况时,模型参数的估计也会出现有偏,从而会影响模型的准确性。这也证明样本的有偏缺失问题是不能被忽略的,并且对被拒绝的样本进行推断,将缺失的信息填充出来是有必要的。
之前对拒绝推断方法的研究主要是统计方法和及其学习的方法,但是对于缺失数据的处理,也有部分研究结合了机器学习方法和迭代的思想,本文在前人研究的基础上提出了一个新的半监督学习法——CBIL法。本文将分类方法与迭代思想进行结合,利用类的先验信息提出CBIL法对拒绝样本进行推断,并且对CBIL方法的分类思想以及迭代条件分别进行了阐述。
本文对真实的数据进行仿真,模拟出实际中各种数据分布类型和特征,进而对本文提出的CBIL法进行评价。另外,由于前人对拒绝推断方法的评价基本都没有将不同的推断方法在同一数据上进行比较,本文不仅讨论CBIL的表现,同时也通过将CBIL与其他拒绝推断方法进行比较对CBIL方法进行评价。通过对CBIL进行的仿真实验的比较,本文能够得到以下结论:第一,随着样本量的增大各模型之间的差异逐渐减小,同时CBIL方法推断的有效性以及相对于前人提出的推断方法的优势也并不会因为样本量的增加而消失。第二,CBIL方法的在不同的缺失样本情况下都能有效的进行拒绝推断,而外推法和扩张法分别需要数据满足其优势条件。第三,不同的数据分布也会影响模型的效果。并且本文指出当数据分布是单峰右偏的时候,CBIL方法推断的效果最为明显。最后,无论数据呈现何种分布,CBIL的方法都能有效的进行拒绝推断,从而提高模型的预测的准确性。
最后利用美国LendingClub借贷平台上的数据对CBIL的推断效果进行分析,说明CBIL的推断方法能够用于对被拒绝的处于模糊地带的信贷数据进行推断,从而提高信用评分模型的精确度,最后介绍了拒绝推断在实际中的应用。进而帮助银行或其他金融机构进行科学和有效的信用风险管理。
本文首先对数据的缺失情况进行了概述,简要阐述了不同的样本缺失机制,并且指出信用评分问题中的样本缺失机制是不完全随机缺失。对样本出现有偏缺失的情况进行了数理刻画,同时也从数理方向的角度证明了当样本量出现有偏缺失的情况时,模型参数的估计也会出现有偏,从而会影响模型的准确性。这也证明样本的有偏缺失问题是不能被忽略的,并且对被拒绝的样本进行推断,将缺失的信息填充出来是有必要的。
之前对拒绝推断方法的研究主要是统计方法和及其学习的方法,但是对于缺失数据的处理,也有部分研究结合了机器学习方法和迭代的思想,本文在前人研究的基础上提出了一个新的半监督学习法——CBIL法。本文将分类方法与迭代思想进行结合,利用类的先验信息提出CBIL法对拒绝样本进行推断,并且对CBIL方法的分类思想以及迭代条件分别进行了阐述。
本文对真实的数据进行仿真,模拟出实际中各种数据分布类型和特征,进而对本文提出的CBIL法进行评价。另外,由于前人对拒绝推断方法的评价基本都没有将不同的推断方法在同一数据上进行比较,本文不仅讨论CBIL的表现,同时也通过将CBIL与其他拒绝推断方法进行比较对CBIL方法进行评价。通过对CBIL进行的仿真实验的比较,本文能够得到以下结论:第一,随着样本量的增大各模型之间的差异逐渐减小,同时CBIL方法推断的有效性以及相对于前人提出的推断方法的优势也并不会因为样本量的增加而消失。第二,CBIL方法的在不同的缺失样本情况下都能有效的进行拒绝推断,而外推法和扩张法分别需要数据满足其优势条件。第三,不同的数据分布也会影响模型的效果。并且本文指出当数据分布是单峰右偏的时候,CBIL方法推断的效果最为明显。最后,无论数据呈现何种分布,CBIL的方法都能有效的进行拒绝推断,从而提高模型的预测的准确性。
最后利用美国LendingClub借贷平台上的数据对CBIL的推断效果进行分析,说明CBIL的推断方法能够用于对被拒绝的处于模糊地带的信贷数据进行推断,从而提高信用评分模型的精确度,最后介绍了拒绝推断在实际中的应用。进而帮助银行或其他金融机构进行科学和有效的信用风险管理。