论文部分内容阅读
摘 要:本文根据财务危机预警实证研究中的实验样本的选取方法的不同,将从基于平衡数据的财务危机预警模型研究和基于非平衡数据的财务危机预警研究两个方面进行文献综述,并指出国内外学者在财务危机预警模型研究中存在的不足。通过财务危机预警的研究现状的梳理,以期为财务危机预警模型的研究提供新的思路和理论指导。
关键词:财务危机预警 非平衡 模型
企业财务困境预测模型是指基于一定的分类方法从历史数据中学习得到分类模型,并以得到的分类模型为基础对新样本未来的财务状况进行预测评估。在财务困境预测实证研究中,实证样本数据的选取已从平衡数据集发展到非平衡数据集。因此本文将从基于平衡数据集的财务困境研究现状和基于非平衡数据集的财務困境预测研究现状两个方面对国内外财务困境预测研究的理论成果进行文献综述。
一、基于平衡数据的困境预测模型研究现状
平衡数据是指实证样本中财务困境样本的数量与非财务困境样本的数量相同。在传统财务困境预测研究中一般采用财务困境样本和非财务困境样本配对样本方法来保证实证样本数据的平衡,进而对分类模型进行训练学习。企业财务困境预测的模型从单分类器模型发展到多分类器模型。单分类器模型包括统计模型发展和人工智能模型,多分类器模型包括混合多分类器集成和多个同类分类器集成。
1.单分类器财务困境预测模型。
1.1统计模型。最早Beaver提出了单变量财务困境预测模型,开创了财务困境预测研究的先河,但单变量预警模型在预测评估时只能使用单个财务指标,单一指标预测的有效性很难扩展到其他样本空间,极大地限制其进一步的发展。Beaver之后,为克服单一变量预测的不足,Altman首次利用多元判别分析进行财务困境预测研究,将财务危机预警领域从单变量预测阶段发展到多变量预测阶段。但多变量分析模型要求指标符合正态分布假设,而现实中财务指标并不符合这一特性。后续的研究对多元判别分析模型提出了改进,也取得一定的成果。20世纪80年代,Ohlson首次将Logistic回归分析模型引用到引入财务困境预测领域,有效的解决了多元判别分析的指标必须符合正态分布假设的这一限制问题,推动了财务危机预警领域的进一步发展。
1.2人工智能模型。随着计算机和信息技术的发展,20世纪90年代初,神经网络方法开始被引入到财务危机的预测研究,并以MAD和Logit模型为基准,取得了良好的预测效果,如Odom和Sharda。1998年,Vapnik提出了支持向量机模型,而它最早被应用于求解模式识别问题。Shin等将SVM模型引入韩国企业破产预测,结果表明SVM的预测性能要优于MDA,Logit和NNs的结论。遗传算法是一种根据生物遗传进化的规律,在复杂空间内的通过有效搜索,以实现最优解的方法。该方法一般用来搜索决策规则和系统参数。陈强和薛华针对倒传神经网络算法无法迭代到最优解的问题,运用遗传算法来协助倒传神经网络算法进行最优解的搜索。作为机器学习方法之一的决策树也被广泛应用于财务危机预警领域。Li、Sun等也证明了See5.0的财务危机预警效果优于MDA。
2.多分类器财务困境预测模型。多分类器集成是指在处理分类问题时,把多个分类器通过某种集成机制组合在一起,然后综合各分类器的预测结果得到最终的分类结果。当前分类器集成模型大体可以分为两类:多个同一分类器集成模型和混合分类器集成模型。
2.1多个同类分类器集成模型。对于多个同类分类器的集成可以通过以下两类方法来实现:一是利用不同的训练样本子集获得基本分类器,如 Bagging方法和boosting方法;二是利用数据集的不同特征子空间构建基本分类器,如随机特征子空间法。Tsai等利用bagging和boosting对svm,DT和MLP三种分类器分别集成,通过对中国,澳大利亚,日本三国的企业进行信用评估表明:boosting和DT的集成模型的预测表现最好。Sun和Li提出了对同一数据样本集进行不同的财务指标特征子集的选取从而生成核函数各不相同的多SVM的集成模型,与单一的SVM模型相比预测性能更好。
2.2混合多分类器集成模型。混合多分类类器集成模型是指融合两种以上的统计方法或人工智能方法而构建的分类模型。Cho等先通过神经网络算法分别赋予每个基本分类器不同的权重,然后将各个基分类器组合在一起构建集成分类器。经过实验得到了与前人一致的结论:集成分类器比单个分类器具有更高的预测精度和稳定性。孙洁等提出了多分类器混合组合模型,实现了并联组合和串联组合的优势互补,统计分析表明:该模型显著优于现有的单分类器财务困境预测模型。
二、基于非平衡数据的困境预测模型研究现状
当前,有少数研究者意识到财务困境预测中的非平衡数据的问题,即类别非平衡问题。样本中某类样本的数量远大于另一类样本的数量的类间不平衡现象称之为类别非平衡。最近越来越多的学者投入到基于类别非平衡的企业财务危机预警研究中,取得一定的研究成果。有部分学者研究了类别非平衡对分类器的性能影响。Louzada等研究发现违约样本和非违约样本的比例取值不同对Logit回归的预测效果有影响,尤其是当非平衡度很高(如1:9)时预测的性能显著下降。Crone和Finlay也探讨了样本非平衡对分类器性能的影响,包括Logit回归、线性DA、决策树和神经网络,研究结论表明类别非平衡的确很影响分类器的性能,但所采用的四种分类器中Logit回归分析方法受类别非平衡的影响最小。还有部分的学者致力对不平衡数据处理方面的研究。如Li和Sun提出了一种新的过抽样方法产生更多少数类样本来平衡数据集,构建基于近邻支持向量机为基本分类器的财务困境模型,与原始的非平衡数据集相比,新构建的模型预测性能更好。Ligang Zhou比较了过抽样和欠抽样方法对基于非平衡数据的企业破产预测表现的影响,研究结果表明,合适的处理非平衡的方法的选择主要取决于训练集中财务困境企业的数量,当训练集中财务困境企业的数量较少时适合采用smote过抽样的方法,而当训练集中财务困境企业的数量较多时适合采用欠抽样的方法。 三、财务危机预警模型未来的研究方向
通过以上文献的阅读和归纳,发现当前研究存在以下几点不足:(1)绝大部分的研究集中于平衡数据的财务困境预测模型研究,而在基于非平衡数据的财务困境预测模型研究较少,基于非平衡数据的研究财务困境预测模型研究还处于初步探索阶段,应在非平衡数据处理方法成面和分类器算法层面进一步拓展,以提高对财务困境类样本的准确率。(2)绝大部分的研究还处于静态建模阶段,只针对某一特定时间段类的数据集建模,而随着时间的推移,已建立的模型将对存在于财务困境中的概念漂移现象无法有效适应以及对新概念样本无法有效评估。因此,需加强企业财务危机预警动态模型的研究,以实现财务困境预测模型的动态更新机制。(3)绝大部分的财务困境预测模型时都采用财务指标进行研究,而对影响财务困境的非财务指标因素考虑较少,只利用财务指标的数据进行实证研究,无疑会影响到模型的科学性。因此,在未来的财务危机预警模型的构建中应考虑纳入非财务指标。
四、结语
本文从基于平衡数据的财务危机预警模型研究和基于非平衡数据的财务危机预警研究两个方面对当前国内外财务危机预警模型研究现状进行概述,旨在了解相关研究,找出其中的规律,为以后的发展提供一些借鉴和线索。改善财务危机预测模型,提高模型对财务困境公司和财务正常公司预测的准确率,是财务困境预测模型研究的重心。今后财务危机预警模型的研究应基于非平衡数据的基础上,在构建指标体系、建立动态模型方面深入拓展。
参考文献:
[1]C.F.Tsai,Y.F.Hsu,D.C.Yen.A comparative study of classifier ensembles for bankruptcy prediction.Applied Soft Computing 24(2014)977–984
[2]J. Sun, H. Li. Financial distress prediction using support vector machines: Ensemble vs. Individual .Applied Soft Computing, 12 (2012)2254–2265
[3]Cho S, Kim J, Bae J K.An Integrative Model withSubject Weight Based on Neural Network Learning for BankruptcyPrediction[J]. Expert System with Applications. 2009, 36(1): 403-410.
[4]孫洁, 李辉, ZHANG Meng.企业财务困境的多分类器混合组合预测[J]. 系统工程理论与实践. 2009, 29(2): 78-86.
[5]F. Louzada,P.H. Ferreira-Silva , C.A.R.Diniz.On the impact of disproportional samples in credit scoring models: An application to a Brazilian bank data.Expert Systems with Applications 39 (2012) 8071–8078.
[6]I.Brown, C.Mues. An experimental comparison of classification algorithms for imbalanced credit scoring data sets.Expert Systems with Applications 39 (2012) 3446–3453
[7]H. Li, J. Sun, Forecasting business failure: the use of nearest-neighbour support vectors and correcting imbalanced samples: evidence from the Chinese hotel industry, Tourism Manage. (2012).
[8]Ligang Zhou. Performance of corporate bankruptcy prediction models on imbalanced dataset:The effect of sampling methods.Knowledge-Based Systems 41 (2013) 16–25.
关键词:财务危机预警 非平衡 模型
企业财务困境预测模型是指基于一定的分类方法从历史数据中学习得到分类模型,并以得到的分类模型为基础对新样本未来的财务状况进行预测评估。在财务困境预测实证研究中,实证样本数据的选取已从平衡数据集发展到非平衡数据集。因此本文将从基于平衡数据集的财务困境研究现状和基于非平衡数据集的财務困境预测研究现状两个方面对国内外财务困境预测研究的理论成果进行文献综述。
一、基于平衡数据的困境预测模型研究现状
平衡数据是指实证样本中财务困境样本的数量与非财务困境样本的数量相同。在传统财务困境预测研究中一般采用财务困境样本和非财务困境样本配对样本方法来保证实证样本数据的平衡,进而对分类模型进行训练学习。企业财务困境预测的模型从单分类器模型发展到多分类器模型。单分类器模型包括统计模型发展和人工智能模型,多分类器模型包括混合多分类器集成和多个同类分类器集成。
1.单分类器财务困境预测模型。
1.1统计模型。最早Beaver提出了单变量财务困境预测模型,开创了财务困境预测研究的先河,但单变量预警模型在预测评估时只能使用单个财务指标,单一指标预测的有效性很难扩展到其他样本空间,极大地限制其进一步的发展。Beaver之后,为克服单一变量预测的不足,Altman首次利用多元判别分析进行财务困境预测研究,将财务危机预警领域从单变量预测阶段发展到多变量预测阶段。但多变量分析模型要求指标符合正态分布假设,而现实中财务指标并不符合这一特性。后续的研究对多元判别分析模型提出了改进,也取得一定的成果。20世纪80年代,Ohlson首次将Logistic回归分析模型引用到引入财务困境预测领域,有效的解决了多元判别分析的指标必须符合正态分布假设的这一限制问题,推动了财务危机预警领域的进一步发展。
1.2人工智能模型。随着计算机和信息技术的发展,20世纪90年代初,神经网络方法开始被引入到财务危机的预测研究,并以MAD和Logit模型为基准,取得了良好的预测效果,如Odom和Sharda。1998年,Vapnik提出了支持向量机模型,而它最早被应用于求解模式识别问题。Shin等将SVM模型引入韩国企业破产预测,结果表明SVM的预测性能要优于MDA,Logit和NNs的结论。遗传算法是一种根据生物遗传进化的规律,在复杂空间内的通过有效搜索,以实现最优解的方法。该方法一般用来搜索决策规则和系统参数。陈强和薛华针对倒传神经网络算法无法迭代到最优解的问题,运用遗传算法来协助倒传神经网络算法进行最优解的搜索。作为机器学习方法之一的决策树也被广泛应用于财务危机预警领域。Li、Sun等也证明了See5.0的财务危机预警效果优于MDA。
2.多分类器财务困境预测模型。多分类器集成是指在处理分类问题时,把多个分类器通过某种集成机制组合在一起,然后综合各分类器的预测结果得到最终的分类结果。当前分类器集成模型大体可以分为两类:多个同一分类器集成模型和混合分类器集成模型。
2.1多个同类分类器集成模型。对于多个同类分类器的集成可以通过以下两类方法来实现:一是利用不同的训练样本子集获得基本分类器,如 Bagging方法和boosting方法;二是利用数据集的不同特征子空间构建基本分类器,如随机特征子空间法。Tsai等利用bagging和boosting对svm,DT和MLP三种分类器分别集成,通过对中国,澳大利亚,日本三国的企业进行信用评估表明:boosting和DT的集成模型的预测表现最好。Sun和Li提出了对同一数据样本集进行不同的财务指标特征子集的选取从而生成核函数各不相同的多SVM的集成模型,与单一的SVM模型相比预测性能更好。
2.2混合多分类器集成模型。混合多分类类器集成模型是指融合两种以上的统计方法或人工智能方法而构建的分类模型。Cho等先通过神经网络算法分别赋予每个基本分类器不同的权重,然后将各个基分类器组合在一起构建集成分类器。经过实验得到了与前人一致的结论:集成分类器比单个分类器具有更高的预测精度和稳定性。孙洁等提出了多分类器混合组合模型,实现了并联组合和串联组合的优势互补,统计分析表明:该模型显著优于现有的单分类器财务困境预测模型。
二、基于非平衡数据的困境预测模型研究现状
当前,有少数研究者意识到财务困境预测中的非平衡数据的问题,即类别非平衡问题。样本中某类样本的数量远大于另一类样本的数量的类间不平衡现象称之为类别非平衡。最近越来越多的学者投入到基于类别非平衡的企业财务危机预警研究中,取得一定的研究成果。有部分学者研究了类别非平衡对分类器的性能影响。Louzada等研究发现违约样本和非违约样本的比例取值不同对Logit回归的预测效果有影响,尤其是当非平衡度很高(如1:9)时预测的性能显著下降。Crone和Finlay也探讨了样本非平衡对分类器性能的影响,包括Logit回归、线性DA、决策树和神经网络,研究结论表明类别非平衡的确很影响分类器的性能,但所采用的四种分类器中Logit回归分析方法受类别非平衡的影响最小。还有部分的学者致力对不平衡数据处理方面的研究。如Li和Sun提出了一种新的过抽样方法产生更多少数类样本来平衡数据集,构建基于近邻支持向量机为基本分类器的财务困境模型,与原始的非平衡数据集相比,新构建的模型预测性能更好。Ligang Zhou比较了过抽样和欠抽样方法对基于非平衡数据的企业破产预测表现的影响,研究结果表明,合适的处理非平衡的方法的选择主要取决于训练集中财务困境企业的数量,当训练集中财务困境企业的数量较少时适合采用smote过抽样的方法,而当训练集中财务困境企业的数量较多时适合采用欠抽样的方法。 三、财务危机预警模型未来的研究方向
通过以上文献的阅读和归纳,发现当前研究存在以下几点不足:(1)绝大部分的研究集中于平衡数据的财务困境预测模型研究,而在基于非平衡数据的财务困境预测模型研究较少,基于非平衡数据的研究财务困境预测模型研究还处于初步探索阶段,应在非平衡数据处理方法成面和分类器算法层面进一步拓展,以提高对财务困境类样本的准确率。(2)绝大部分的研究还处于静态建模阶段,只针对某一特定时间段类的数据集建模,而随着时间的推移,已建立的模型将对存在于财务困境中的概念漂移现象无法有效适应以及对新概念样本无法有效评估。因此,需加强企业财务危机预警动态模型的研究,以实现财务困境预测模型的动态更新机制。(3)绝大部分的财务困境预测模型时都采用财务指标进行研究,而对影响财务困境的非财务指标因素考虑较少,只利用财务指标的数据进行实证研究,无疑会影响到模型的科学性。因此,在未来的财务危机预警模型的构建中应考虑纳入非财务指标。
四、结语
本文从基于平衡数据的财务危机预警模型研究和基于非平衡数据的财务危机预警研究两个方面对当前国内外财务危机预警模型研究现状进行概述,旨在了解相关研究,找出其中的规律,为以后的发展提供一些借鉴和线索。改善财务危机预测模型,提高模型对财务困境公司和财务正常公司预测的准确率,是财务困境预测模型研究的重心。今后财务危机预警模型的研究应基于非平衡数据的基础上,在构建指标体系、建立动态模型方面深入拓展。
参考文献:
[1]C.F.Tsai,Y.F.Hsu,D.C.Yen.A comparative study of classifier ensembles for bankruptcy prediction.Applied Soft Computing 24(2014)977–984
[2]J. Sun, H. Li. Financial distress prediction using support vector machines: Ensemble vs. Individual .Applied Soft Computing, 12 (2012)2254–2265
[3]Cho S, Kim J, Bae J K.An Integrative Model withSubject Weight Based on Neural Network Learning for BankruptcyPrediction[J]. Expert System with Applications. 2009, 36(1): 403-410.
[4]孫洁, 李辉, ZHANG Meng.企业财务困境的多分类器混合组合预测[J]. 系统工程理论与实践. 2009, 29(2): 78-86.
[5]F. Louzada,P.H. Ferreira-Silva , C.A.R.Diniz.On the impact of disproportional samples in credit scoring models: An application to a Brazilian bank data.Expert Systems with Applications 39 (2012) 8071–8078.
[6]I.Brown, C.Mues. An experimental comparison of classification algorithms for imbalanced credit scoring data sets.Expert Systems with Applications 39 (2012) 3446–3453
[7]H. Li, J. Sun, Forecasting business failure: the use of nearest-neighbour support vectors and correcting imbalanced samples: evidence from the Chinese hotel industry, Tourism Manage. (2012).
[8]Ligang Zhou. Performance of corporate bankruptcy prediction models on imbalanced dataset:The effect of sampling methods.Knowledge-Based Systems 41 (2013) 16–25.