基于机器学习算法的中小企业信用评估研究

来源 :无线互联科技 | 被引量 : 0次 | 上传用户:dairyboy126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:采用大数据方法预测企业违约风险具有重大的现实意义。传统的信用评估模型主要是统计分析模型、判别分析模型等,预测能力有限。因此,文章建立了基于随机森林和支持向量机两种机器学习算法的信用预测模型,并引入ACC、AUC以及FNR评价指标来衡量模型预测的效果。对比实验表明,基于随机森林的信用预测模型较支持向量机模型具有更好的预测效果,证实了模型的优越性。
  关键词:随机森林;支持向量机(SVM);信用评估模型;中小企业
  0 引言
  中小微企业在吸收社会就业和促进经济发展方面逐渐发挥着越来越重要的作用[1],而中小企业本身内外部的局限性也使其始终面临着严重的融资缺口。在此背景下,各金融企业放宽了对其贷款力度,但信贷危机问题也随之而来,需要建立全面客观的信用评价模型实现对中小企业违约判别预测,最大化规避不良信贷风险,实现中小企业与贷款行业博弈双方的平稳运行和合作共赢。评估体系建立的关键在于科学指标体系的选取和学习算法的选择。
  通过大数据和机器学习建模的思路针对中小企业融资问题分别建立了随机森林和支持向量机信用评估模型,克服了传统方法信息挖掘不足等局限性,健全了融资风险评估体系,进一步提高金融机构降低风险的能力[2]。
  1 数据处理及评价指标建立
  采用中小企业贷款及各项企业特征数据集,包括企业规模在内的170个特征值。建立原始指标体系之前,应用多重插补法和六西格玛原则对缺失和异常值进行了预处理操作。根据企业是否违约划分数据集,由于统计分析可知样本集存在“统计性歧视”的不平衡分类情况,会对模型产生负面影响,故通过重采样法加以纠正。
  考虑到评价指标体系的全面性、系统科学性等原则,将信用评估指标从财务因素指标和非财务因素指标角度划分为企业规模、偿债能力、盈利能力、发展能力4方面共10个指标。
  2 两种机器学习模型对比实验研究
  2.1 基于随机森林的信用评估模型
  为评价相同数据样本下不同模型的准确程度,本文引入林成德等人提出的精度评估方法来评价模型评估精度[3]。经过数据处理的指标数据打包为训练数据,以企业是否存在失信行为作为标签向量建立随机森林回归模型。基本步骤如下:
  使用Bagging方法形成个体训练集,从原始训练集中随机选择一定比例的样本组成新的训练集进一步生成分类树;
  从M个指标作选出最具分类能力的指标作为节点的拆分属性并遴选最佳分割方法的分割节点;
  每棵分类树可在不修剪情况下生长演化;
  按照前3个步骤建立大量的决策树形成随机森林,选取决策树投票最多的一株为最终分类结果。
  2.2 应用网格搜索法选取最佳参数
  2.2.1 决策树编号的参数确定
  将n作为决策树的数量的估计值,以10~100为搜索空间,以10为步长进行搜索和调整。当子模型增加时,模型的标准差减小,模型泛化能力增强。进一步观察其精度变化可知:当子模型数量增加到70个左右时,模型精度不再有显著的提高。因此将70作为决策树的数量参数。
  2.2.2 结点和叶的参数确定
  本文定义了将内部节点重分配所需要的最小样本数min_s和叶节点的最小样本量定义min_l。当节点的样本数小于min_s,则停止分割。通过调参观察可知min_s和min_l分别为40和100时,模型取到最高精度83.7%。通过比较基尼系数和熵指数可观察到模型的精度基本保持不变,决策树的最大深度为9。
  2.3  基于支持向量機的信用评估模型
  如果信用评估问题是线性可分的,那么SVM模型的决定边界就是对训练集找到的最优超平面
  D(x)=wTx+b(1)
  其中:w是个特征值的权值,b是常数。
  其决策函数为f(x)=sgn(wT+b)(2)
  式中:sgn为符号函数,当D(x)>0时,sgn(D(x))=1,反之为0。
  在此模型的求解过程中,需要使用核函数进行非线性映射处理到高维特征空间从而转化为线性可分的问题。因此,核函数和参数的选择对SVM回归效果影响显著,本文选择的是径向基核函数。此外,还引入了惩罚参数C,在训练集样本上采用网格遍历方法,通过遗传算法对参数进行优化并通过交叉验证检验。观察可知,当C值为4时,模型精度达到最大值,即82.5%。
  2.4 对比实验结果分析
  通过实验得到两种模型预测结果对比如下图。将使用提取的特征样本集对测试集上的2 311个数据进行了预测,随机森林模型中对数据模糊推理和不确定度分别为0%和88.4%,AUC=76%,预测结果的准确率为98.3%;在支持向量机模型中,FNR仅为3.06%,AUC为73%,预测的准确率为96.94%,表明两种模型都具有良好的效果且随机森林模型的评估效果优于支持向量机模型。模型在对企业不违约的概率判别中显示出了很好的效果,但对企业违约概率的判别由于数据的不均衡使得实验结果较差。随机森林模型ROC图如图1所示,SVM模型ROC图如图2所示。
  3 结语
  本文在兼顾原始数据可获得性原则的基础上,综合考虑了包含企业规模、盈利能力和偿债能力等在内的财务及非财务指标建立了一套合理且能较好反映企业信用状态的综合评价指标体系,并进一步考虑到数据特征采用了适合小样本数据集训练的支持向量机回归集成模型和具有良好的噪声容限和高稳定性的随机森林模型。实验结果显示,两种机器学习方法较传统方法预测精度好、学习效率高。其中,随机森林信用评估模型的分类准确率更是高达98.3%,表明机器学习方法在进行中小企业信用评估中能更好地进行数据有效信息的挖掘和具有更好的可行性及有效性。
  [参考文献]
  [1]杨元泽.中国中小企业信贷风险评估研究[J].金融论坛,2009(3):69-73.
  [2]薛霏霏.科技型中小企业信用风险评价模型及实证研究[D].大连:东北财经大学,2019.
  [3]林成德,彭国兰.随机森林在企业信用评估指标体系确定中的应用[J].厦门大学学报(自然科学版),2007(2):199-203.
  (编辑 傅金睿)
其他文献
摘 要:临时性建筑的运用有着长远的发展历史,并且使用范围广,随着社会迅速发展,轻型结构在临时性建筑中的应用逐渐广泛。同时,轻型结构本身具有的结构特点也促进了临时性建筑建造的发展。文章通过对临时性建筑和轻型结构概念描述及其分类梳理,对轻型结构在临时性建筑中从设计到建造进行分析研究,希望对轻型结构在未来临时性建筑中的实际运用与发展起到一定帮助作用。  关键词:轻型结构;临时性建筑;快速建造  1
摘 要:随着科技的快速发展,每个行业都在不断地更新,在技术、设计等方面也逐渐完善,其中计算机领域中的人工智能、云计算等这些高科技发展也越来越迅速,前景也越来越广阔。文章探讨了云计算技术在计算机数据处理中的应用,以及对云计算技术未来的展望。  关键词:云计算技术;数据处理;技术应用  1 云计算技术概述  1.1 云计算概念  云计算在虚拟动态化连接方面为计算机提供了巨大的资源,云计算的首字“云”主
摘 要:近几年,国内人工智能的电子产品如雨后春笋般涌现,智能电子产品给人们带来很多便捷,同时也给电子产品生产制造企业带来更多的发展机会。应用智能技术设计电子产品,需要充分了解消费者对产品的使用需求,以此引领产品设计和研发的新方向。  关键词:智能技术;产品设计;电子产品;工业设计  1 人工智能概述  人工智能是通过将多种学科相互渗透融合而发展起来的新型交叉学科,其核心就是将现有人工智能技术相
摘 要:机械制造技术水平不断提升,在机械设计和加工制造中均已推广应用自动化技术,以提高机械制造效率。但是在电气自动化控制技术的实际应用中还面临很多风险因素,可能会影响电气自动化控制可靠性。对此,文章首先对电气自动化控制可靠性进行介绍,然后对研究电气自动化控制可靠性的重要意义进行分析,并对机械制造行业中电气自动化控制影响因素以及优化对策进行详细探究,以期促进电气自动化控制水平的提升。  关键词:机械
摘 要:变电站综合自动控制系统是“计算机”与“通信技术”的结合,预示着新时期电力系统发展走向。当前,关于变电站综合自动控制系统的设计与应用,仍然存在一些不足。文章主要围绕“变电站综合自动控制系统的优势”“变电站综合自动控制系统中存在的问题”“改进变电站综合自动控制系统设计与应用的措施”这几个方面展开论述,重点针对变电站综合自动控制系统设计与应用中存在的不足,提出改进措施,希望进一步完善变电站综合自
摘 要:幕墙设计是现代建筑重要组成部分,在复杂幕墙工程设计中需要借助BIM工具实现,利用BIM技术的可视化、协同化以及虚拟化等优势技术完成复杂幕墙设计。文章首先分析BIM技术的概念,然后探析BIM技术在复杂幕墙工程设计中的应用优势,最后提出BIM技术在幕墙设计中的应用方案。  关键词:BIM技术;幕墙设计;应用  0 引言  幕墙是现代建筑空间及表皮特征的重要表现方式,随着高层建筑的普及,幕墙工
摘 要:现代交通运输在经济社会发展中占据着重要的地位,也是我国基础设施建设的重要组成部分。当前一些新的技术和工艺被应用于现代交通建设中,促进了交通工程的发展,其中机电技术的应用,能实现机械、通信和电气等多种技术的融合,在提升交通系统运作效率的同时,也确保了其安全性。文章主要分析了机电技术在现代交通中的具体运用。  关键词:现代交通;机电技术;应用  0 引言  机电技术是机械技术和电子技术的有效
摘 要:随着科学技术的进步,PLC技术在中国取得了巨大的进步,并已广泛应用于机械制造中。 PLC本质上是一台用于工业控制的计算机,由中央处理器、电源、存储介质和输入/输出端口組成,具有操作简单、通用性强、体积小、能耗低、抗干扰功能强的优点,广泛用于机械制造业。在机械制造的生产过程中,PLC自动化技术可以通过远程控制和通信网络,数据处理和开关控制功能来实现物料供应和运输自动化、生产自动化、设备组装自
摘 要:智慧校园按照“以数据为基础、以应用为驱动”的教育理念,深度融合教学、科研、管理和生活四大领域,有效整合教学相关资源,为学习者提供灵活和个性化的学习方案,充分发挥智慧教育的应用效果。文章从智慧校园建设现状出发,分析了大数据在当前智慧校园的发展前景,并从学生综合画像、学生轨迹管理、校情管理分析和人才培养4个领域探讨了大数据在智慧校园建设中的应用。  关键词:大数据;智慧校园;教育管理  0 引
摘 要:民办高等教育不断地发展,与科学技术之间的联系越来越紧密。大数据技术作为新兴的科学技术,已经逐渐地应用到民办高校的教育管理中,对民办高校未来的发展产生了积极而深远的影响。文章阐述了大数据的内涵,及大数据环境对民办高校教育管理的内在价值和面临的挑战,论述了大数据在民办高校教育管理中的积极意义。最后,文章针对在大数据环境下民办高校教育管理提出有效策略。  关键词:大数据; 教育管理;民办高校