论文部分内容阅读
财务欺诈行为会给一个组织的长期可持续发展带来严重后果,也会对其雇员、投资者以及整体经济产生不利影响。美国历史上几起大的破产案件均涉及参与大型欺诈行为的公司。此外,这个问题似乎有全球影响力。注册舞弊稽核师协会估计,世界范围内每年的财务欺诈损失超过1万亿美元。这一估计是基于记录的数百个每年发生在欧洲、亚洲、非洲、南北美洲和大洋洲的财务欺诈案例以及许多未发现的欺诈(和由此造成的损失)事实。因此,促进检测财务欺诈行为的自动化方法的发展越来越受重视。然而,大多数方法产生的效果并不理想。因此,继续检测财务欺诈是商业智能技术面临的一项重要挑战。
现有的财务欺诈检测方法无法提供足够的欺诈检测功能,大多数对美国公司的研究发现检出率小于70% 。此外,许多之前的研究利用内部(即非公用的)数据,获取时成本高且耗时,而且通常对很多利益相关者来说不可用。
最近商业智能(BI)技术的发展已经提升了与复杂问题域相关的发现模式的潜力,例如欺诈。因为BI工具有助于更好地了解组织的内外部环境,强有力的财务欺诈检测方法可使利益相关者群体获益:投资者、审计公司和监管机构。
为实现这一目标,我们采用设计科学范式来指导IT项目,元欺诈框架的开发 。在这样做的过程中,我们选择了元学习作为内核理论来指导IT项目的设计。元学习是一种特殊的机器学习形式,能够了解学习过程本身,以增强获取结果的质量。元欺诈框架包括四部分,提倡使用源于公开可获取的财务报表和强有力的分类机制的一套丰富的措施。
先前的研究使用来自美国公司的数据普遍获得不充分的结果,典型地,欺诈检出率低于70%。这些结果导致有人提出,基于财务报告的数据不能准确识别财务欺诈(至少在美国公司这一环境中)。普华永道的研究人员最近做了一项研究获得64%或更低的欺诈检出率 。这些研究和之前的其他研究局限性的结果表明使用财务方法和分类方法不够。
设计科学是一种强有力的范式,对IT项目的开发提供了具体的指示,包括构造、模型、方法和实例 。在设计科学范式中,方法定义过程。它们为如何解决问题提供了指南,那就是,如何搜索答案空间 。先前的几个研究已经利用设计科学方法开发BI 技术包括方法和实例。因此,我们受启发开发了一种强有力的财务欺诈检测框架(即,方法)。
在缺乏足够的设计指导方针下创建IT项目,许多研究强调需要设计理论来帮助统领开发进程。我们用元学习作为一种核心理论来指导所提议的财务欺诈检测框架的开发 (Brazdil et al. 2008)。
元学习是一种特殊的机器学习形式,使用通过机器学习或数据挖掘过程获得的专门知识来改善在未来应用中获取的结果的质量 (Brazdil et al. 2008)。尽管机器学习提供了大量的算法来完成一项任务却没有提供有关特定算法的具体应用环境的指南指导,相反,元学习提供了解学习过程本身的方式来获得关于哪些基本功能和算法可以得到最有效应用的知识 (Brazdil et al. 2008)。我们假定一种元学习方法特别适合于财务欺诈检测,由于该问题域的复杂性,动态性和对抗性 (Virdhagriswaran and Dakin 2006)。
20 世纪80年代末 90 年代初大量研究者开发了元学习,他们试图整合几种机器学习策略来提高整體精度(e.g., Wolpert 1992)。元学习术语是由 Chan and Stolfo (1993)创造的,他们提出以自适应方式结合多种机器学习技术的结果来提高精度的方法。 这种方法已演变成在各种各样的应用程序域中研究的活动流 (Brazdil et al.2008; Vilalta and Drissi 2002)。共同地,元学习提供了大量的指南来提高关于特定问题任务的机器学习能力。
在机器学习中,学习偏差指任何偏好选择一种假设,而该假设解释了同样被其他假设所接受的数据 (Mitchell 1997)。从另一个层面看,元学习的两个关键方面是声明性和程序性偏差(Brazdil et al. 2008)。声明性偏差指定表示假设空间,它受所含属性数量和类型的约束(即,特征空间)。程序性偏差属于分类器以某种方式来对归纳假设排序强加限制。
一种有效的元学习策略会为给定的分类任务动态识别声明性和程序性偏差的适当级别(Vilalta and Drissi 2002)。声明性偏差可以通过改变特征空间受到操纵(即,通过扩展或收缩),而程序性偏差可以通过选择合适的预测模型或组合模型来改(Giraud-Carrier et al. 2004; Vilalta and Drissi 2002)。
元欺诈框架是非常有效的,对于不同的利益相关者成本设置,合法的和欺诈召回超过80%。元欺诈显著改善性能胜过现有方法。使用元学习方法增强财务欺诈检测的可行性。(作者单位为山西财经大学会计学院)
现有的财务欺诈检测方法无法提供足够的欺诈检测功能,大多数对美国公司的研究发现检出率小于70% 。此外,许多之前的研究利用内部(即非公用的)数据,获取时成本高且耗时,而且通常对很多利益相关者来说不可用。
最近商业智能(BI)技术的发展已经提升了与复杂问题域相关的发现模式的潜力,例如欺诈。因为BI工具有助于更好地了解组织的内外部环境,强有力的财务欺诈检测方法可使利益相关者群体获益:投资者、审计公司和监管机构。
为实现这一目标,我们采用设计科学范式来指导IT项目,元欺诈框架的开发 。在这样做的过程中,我们选择了元学习作为内核理论来指导IT项目的设计。元学习是一种特殊的机器学习形式,能够了解学习过程本身,以增强获取结果的质量。元欺诈框架包括四部分,提倡使用源于公开可获取的财务报表和强有力的分类机制的一套丰富的措施。
先前的研究使用来自美国公司的数据普遍获得不充分的结果,典型地,欺诈检出率低于70%。这些结果导致有人提出,基于财务报告的数据不能准确识别财务欺诈(至少在美国公司这一环境中)。普华永道的研究人员最近做了一项研究获得64%或更低的欺诈检出率 。这些研究和之前的其他研究局限性的结果表明使用财务方法和分类方法不够。
设计科学是一种强有力的范式,对IT项目的开发提供了具体的指示,包括构造、模型、方法和实例 。在设计科学范式中,方法定义过程。它们为如何解决问题提供了指南,那就是,如何搜索答案空间 。先前的几个研究已经利用设计科学方法开发BI 技术包括方法和实例。因此,我们受启发开发了一种强有力的财务欺诈检测框架(即,方法)。
在缺乏足够的设计指导方针下创建IT项目,许多研究强调需要设计理论来帮助统领开发进程。我们用元学习作为一种核心理论来指导所提议的财务欺诈检测框架的开发 (Brazdil et al. 2008)。
元学习是一种特殊的机器学习形式,使用通过机器学习或数据挖掘过程获得的专门知识来改善在未来应用中获取的结果的质量 (Brazdil et al. 2008)。尽管机器学习提供了大量的算法来完成一项任务却没有提供有关特定算法的具体应用环境的指南指导,相反,元学习提供了解学习过程本身的方式来获得关于哪些基本功能和算法可以得到最有效应用的知识 (Brazdil et al. 2008)。我们假定一种元学习方法特别适合于财务欺诈检测,由于该问题域的复杂性,动态性和对抗性 (Virdhagriswaran and Dakin 2006)。
20 世纪80年代末 90 年代初大量研究者开发了元学习,他们试图整合几种机器学习策略来提高整體精度(e.g., Wolpert 1992)。元学习术语是由 Chan and Stolfo (1993)创造的,他们提出以自适应方式结合多种机器学习技术的结果来提高精度的方法。 这种方法已演变成在各种各样的应用程序域中研究的活动流 (Brazdil et al.2008; Vilalta and Drissi 2002)。共同地,元学习提供了大量的指南来提高关于特定问题任务的机器学习能力。
在机器学习中,学习偏差指任何偏好选择一种假设,而该假设解释了同样被其他假设所接受的数据 (Mitchell 1997)。从另一个层面看,元学习的两个关键方面是声明性和程序性偏差(Brazdil et al. 2008)。声明性偏差指定表示假设空间,它受所含属性数量和类型的约束(即,特征空间)。程序性偏差属于分类器以某种方式来对归纳假设排序强加限制。
一种有效的元学习策略会为给定的分类任务动态识别声明性和程序性偏差的适当级别(Vilalta and Drissi 2002)。声明性偏差可以通过改变特征空间受到操纵(即,通过扩展或收缩),而程序性偏差可以通过选择合适的预测模型或组合模型来改(Giraud-Carrier et al. 2004; Vilalta and Drissi 2002)。
元欺诈框架是非常有效的,对于不同的利益相关者成本设置,合法的和欺诈召回超过80%。元欺诈显著改善性能胜过现有方法。使用元学习方法增强财务欺诈检测的可行性。(作者单位为山西财经大学会计学院)