非平衡数据模式分类中的若干问题研究及其在金融中的应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:xxx555xxx777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业财务困境预测是金融界的一个长期研究热点,由于其复杂性,人们从不同角度进行了建模研究,主要包括以下两类方法:1)以企业财务比率为基础的模式识别方法,包括多元线性判别、Logistic回归、神经网络等;2)以资本市场理论为基础的非模式识别方法,包括期权定价模型,债券违约率模型,混沌模型等。其中,基于线性判别和Logistic回归的预测模型在实际中应用最有效,也是国际金融业和学术界公认的主流方法。 但是,当应用这些主流方法进行财务困境预测时,仍存在许多实际问题。例如,由于陷入财务困境的公司个数占公司总数的比例很小,建模时必然涉及抽样标准问题——如何从实际数据中抽取样本?也就是说,如何确定建模样本中的两类比例,以使所建模型最优。从模式识别角度讲,这是一个非平衡数据模式分类问题。非平衡数据模式分类也是目前机器学习领域的一个研究热点,本文即以此为研究对象,对其中的几个基本问题进行了重点研究,主要工作及结论如下: 1.分析了非平衡数据对Fisher判别的投影向量、及分类性能的影响,提出一种加权Fisher线性判别——WFLD。Fisher判别的核心是求解满足Fisher准则的最优投影向量,因此,分析非平衡数据对投影向量的影响十分必要。本文通过理论分析指出:当两类样本协方差阵相同时,非平衡数据对投影向量没有作用,从而也不会影响Fisher判别的分类性能;反之亦然。在此基础上,提出了一种加权Fisher线性判别——WFLD,它本质上是一种特殊的上抽样,即同时对两类样本进行不同倍数的简单复制,使变换后的两类样本个数之比为1∶1。实验证明了理论分析的正确性以及WFLD的有效性。 2.针对Fisher判别,提出了一种基于Bootstrap技术的BFLD算法,该算法可生成较为连续和稳定的ROC曲线,由此选取阈值可以减小总的判别风险。阈值的选取对判决结果影响甚大,而Fisher判别却未提供规定选取阈值的原则。ROC曲线非常适用于非平衡数据分类中的阈值选取,然而,样本数目有限会导致ROC曲线呈明显的台阶状,从而使基于ROC曲线选取的阈值偏离了理论最优值。针对Fisher判别,本文提出了一种基于Bootstrap技术的BFLD算法,该算法具有多个优点:首先,与一般的非参数方法相比,该算法生成的ROC曲线更加连续和稳定;其次,与预留法(Hold-out)生成的ROC曲线相比,基于由BFLD生成的ROC曲线选取出的判决阈值可以使总的判决风险更小;最后,与留一法(Leave-one-out)相比,利用BFLD算法可以更加准确地估计预测集的类别概率——预测集的类别概率是基于ROC曲线选取阈值的必要条件。 3.提出了一种基于正态分布的Fisher判别值概率校准方法。在模式分类中,如果知道样本属于各个类别的概率,会有许多益处,如可以实现最优判决、便于进一步的融合决策等。为此,本文进行了两方面的工作:1)首先假设样本的Fisher判别值在两类中均服从正态分布,然后利用判别值的经验分布估计出未知参数,从而可以求解出判别值的类条件概率密度,将其与先验概率一起代入贝叶斯公式可计算出后验概率,此概率即为判别值的校准概率。实验表明,Fisher判别值的校准概率比LR模型概率能更准确地逼近真实概率。2)混合隐变量模型是高维样本概率密度估计的新方法,本文分别采用因子分析与概率主成分分析来估计类条件概率密度,然后构造出相应的贝叶斯分类器。实验表明,对于上市公司财务困境的提前3年预测情况,该方法略优于线性判别和Logistic回归。 4.作为课题组成员,合作设计、开发了一个财务分析系统,并已将本论文财务困境预测研究成果嵌入其中,使系统不仅实现了基本的财务分析功能,而且具有了“智能化”预测的功能。此外,该系统采用了模块化设计,我们可以在此基础上测试和验证各种预测模型的准确性和稳定性,为将理论研究工作应用于实际奠定了坚实基础。
其他文献
随着图像技术的快速发展,对图像内容的修改变得非常容易且不留痕迹,当图像包含有政治、军事、商业及法庭证据等敏感的和重要的信息时,其真实性必须得到确认。数字签名和数字水印
随着通信网络数字化的迅速发展,近几年来,通信技术和计算机技术相互渗透的进程明显加快,出现了各种通信网与计算机网的集成方案,这些集成方案不但体现在技术方面,而且在业务方面也
Ad hoc网络是由移动设备间通过无线链接构成的自组织网络。Ad hoc网络分簇算法是一种有效的网络资源管理技术,它可以控制网络开销、管理移动节点、控制信道接入、提高无线资源
信息隐藏是信息安全领域中的一项新兴技术,主要有数字水印和数字密写两大分支,分别用于多媒体数据的版权保护和隐蔽通信。信息隐藏技术的研究内容主要是寻求向载体对象中添加