基于双层Stacking算法的财务欺诈问题研究

来源 :南京审计大学 | 被引量 : 0次 | 上传用户:chc1102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
财务欺诈问题由来已久且屡禁不止。对我们国家而言,财务欺诈这种行为严重背离社会主义核心价值观,容易破坏社会和谐稳定,同时会给实施财务欺诈的公司自身、给投资者都带来负面的影响。而财务欺诈往往又具有一定的隐蔽性,因此能够有效识别财务欺诈对当下我们的社会生活具有无比重要的意义。本文以2011至2020年我国全部A股上市公司作为目标对象,选取财务欺诈样本与非财务欺诈样本,其中财务欺诈样本符合虚构利润、虚列资产、虚假记载、重大遗漏等特征。之后,尽可能全面地筛选财务指标与非财务指标,前者包括盈利能力、偿债能力、现金流量、营运能力与成长能力,后者包括三会基本信息,即:董事会会议次数、监事会会议次数与股东大会召开次数。这些指标共计37个,本文会对这些指标分别采用MIC特征选择、Logistic特征选择与GBDT特征选择,三种特征选择方法分别保留了17、13与11个指标。本文对上述经过特征选择保留下来的指标进行建模分析。首先基于混淆矩阵确定模型评价方法,评价指标包括总体预测准确度、第一类错误率、第二类错误率与AUC值;其次采用单分类器实现分类,包括朴素贝叶斯、决策树与支持向量机;再次采用集成分类器实现分类,包括随机森林、Ada Boost与XGBoost;然后,本文也会对财务欺诈样本与非财务欺诈样本按照制造业与非制造业的行业划分分别进行集成分类器的建模;最后,本文着重分析了以上模型建立存在两方面缺陷,不分行业建模忽视了来自不同行业的数据可能存在分布不同,而划分行业分别建模又使得样本量减少导致过拟合的问题。本文最终选择采用双层Stacking算法以弥补上述缺陷。采用双层Stacking算法建模可以使用全部样本而无需区分行业,可以充分开发数据内在的相似结构,从而提升学习效率。特别地,Stacking算法的第一层可以起到提取共同有效特征的作用,第二层实现分类任务,缓解样本分布不同带来的负面影响。实证表明:基于双层Stacking算法的模型融合后发现,一方面,选择GBDT特征选择方法可以最大限度地精简指标同时不会有太多信息的损失;另一方面,选择随机森林与XGBoost作为第一层算法,Logistic回归作为第二层算法,实现基于双层Stacking算法的模型融合,无需分行业建模,可以使最终模型的表现效果达到最好,总体预测准确度达到了94%,AUC值达到0.98,第一类错误率与第二类错误率也都控制在6%以下。
其他文献
当前,我国经济形势进入新常态,处于增长动能转换的关键时期,产业转型升级的需要日益迫切。与此同时,“一带一路”建设正如火如荼。作为我国新时期“走出去”战略的重大工程,“一带一路”倡议紧密地联系了我国同沿线各国的关系,有力的拉动了我国的对外贸易和对外投资,同时对我国的技术发展产生了积极影响。验证“一带一路”倡议对我国产业升级的影响并且探求其中的作用机理,对我国推动经济高质量发展有重要的理论意义和政策意
学位
中国经济快速增长的同时,能源消耗也不断增加,碳排放量急剧上升。电力行业作为我国碳排放量最多的行业,其碳减排效果对实现碳达峰和碳中和目标至关重要。同时,在数字经济时代下,数字化技术从信息技术产业广泛渗透到能源消费和环境保护领域,具有改善生态环境的巨大潜力。探索数字经济对节能减排的贡献有利于实现“经济发展-环境优化”的共赢。本文在借鉴数字经济与碳排放相关文献的基础上,从以下几个方面进行研究和分析:第一
学位
股指期货是以股票指数作为标的的金融期货产品,是我国金融市场重要的产品,股指期货双向交易的特点为投资者提供了更大的操作空间,且股指期货采用交易保证金制度,提供了巨大杠杆,投资者通过杠杆操作更多资金。金融序列预测一直是量化市场研究讨论的主题,但是金融序列存在高噪声、非线性的特点,导致其预测研究并不容易,预测滞后问题很大程度阻碍着策略构建,且单纯依靠模型结果建立的策略存在模型可能失效的问题。在众多国外成
学位
近年来,机器学习理论在互联网科技公司的应用发展迅速,推荐算法、语音识别、自动驾驶等都是基于机器学习和深度学习的应用。数据量爆炸式增长推动机器学习模型的发展。保险行业是一个基于数据的行业,保险产品价格是通过分析风险事故主客体数据来确定。保险行业拥有高质量的规范数据,但是由于机器学习模型可解释性差的缺点,其在保险行业应用不够充分。数据建模在保险行业的应用主要包括三个方向:识别保险欺诈、保险公司运营和保
学位
金融资产收益与波动,一直都是金融领域关注的焦点。进入“十四五”规划的第二年,在这新的发展阶段,为了稳定大局,我国正在落实积极且稳健的宏观政策。总体上国内新冠疫情得到较好控制,但是当前国际环境依然严峻、局部地区疫情反复,整体经济大环境存在诸多不稳定因素。所以,对金融市场保持关注与研究是十分必要的。在过去的研究中,由于宏观经济数据频率通常为月度、年度这一限制,与日度类股票市场等的金融数据不同频率,在研
学位
近些年来,我国互联网技术飞速地发展。电子商务平台借助于这一股东风也迅速成长,逐渐成为拉动我国的消费水平,帮助传统企业进行改革与升级,实现脱胎换骨,发展现代化服务行业的一个重要核心组成部分。所有人生活最简单的方式都发生了翻天覆地的变化。本文采用和鲸社区大数据竞赛平台所提供的亚马逊平台电子产品销售数据,这是已经经过脱敏处理的真实交易数据,对消费者的行为进行统计分析,对交易价格进行挖掘预测,预测未售出产
学位
改革开放以来,我国经济得到了快速发展,房地产产业也得到迅速发展,国家统计局2020年数据显示,房地产行业投资占GDP比例是7.2%,房地产行业在国民经济中具有重要地位。二手房价格对房地产业发展具有重要影响,也对居民的消费、生活满意度等具有重要影响。不同城市间经济结构、居民收入、居民消费等都具有不同的特征。当前针对对北京、上海等一线城市以及部分省会城市二手房价格研究较多,而对于非省会的一部分“新一线
学位
2020年,我国向世界做出承诺:争取在2030年前实现碳达峰,在2060年前实现碳中和。作为二氧化碳排放大国,要兑现碳达峰、碳中和的承诺,仍然承受着很大的压力,面临较大的困难。在此背景下,碳排放权交易这一市场机制可以发挥重要作用。我国碳排放权交易市场从2011年试点以来,到2020年,碳排放市场的配额成交量规模跃居全球第二。2021年,全国性的碳排放权交易市场启动,至此,中国碳排放权交易市场覆盖范
学位
近年来,随着互联网金融服务与产品的提升,金融市场的挑战日趋激烈,紧张的竞争环境导致我国银行业面临着客户忠诚度降低、业务损失过多等问题。分析研究流失客户的显著特征,同时对客户流失的概率进行预测,进而提供个性化且高水平服务,将对降低银行客户流失,减少资金损失,维持银行自身的经济效益与发展前景具有重要的意义。本文在系统梳理有关银行客户流失特征研究与预测的文献基础上,针对银行客户数据集中用户特征高维稀疏及
学位
随着人民生活水平的不断提高和信息时代的不断发展,越来越多的个人投资者参与到股票市场中。股市的变化与投资者们的投资盈亏情况息息相关,然而股市的走势是不确定的,如何把握股票的价格走势、形成有效的投资组合以及获取更多的投资收益成为投资者们关心的问题。上市公司的财务信息是投资者进行投资的主要依据,它能让投资者直观地了解到上市公司的经营业绩情况,在投资者做出投资决策时具有重要的参考价值。财务指标作为评判公司
学位