论文部分内容阅读
【摘要】 文章结合具体企业,从数据挖掘技术实施的角度来诠释数据挖掘技术思想在战略管理会计中的运用方法与效果,以期完善战略管理会计的技术分析方法体系,提升战略管理会计作为信息系统的功能。
【关键词】 数据挖掘; 战略管理会计; 应用; 实例
引言
当人类步入21世纪时,企业的经济管理环境发生了巨大的变化,管理会计研究的焦点从企业内部挖潜(成本、预算、控制)逐渐地转移到对企业外部竞争环境的分析上,这一变化促使管理会计发展到战略管理会计阶段。战略管理会计的形成即是以企业生存环境不确定性的增强为背景的,其特别关注企业外部环境的变化,注重对竞争对手的分析,强调非财务信息的利用。然而企业外部环境是变幻莫测的,其信息(包括财务和非财务的信息)数量庞大,信息结构(半结构化数据、多维数据)复杂,信息传递的知识多是隐含的,这些特点决定了应用原有的技术分析方法(如差量分析、比率分析等)无法实现战略管理会计的思想,在实施战略管理会计的过程中必然会遇到一些技术分析上的障碍。
数据挖掘是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知识的热门技术,其具有集成化、自动化和智能化的特征,在信息的深入加工、充分利用方面具有独到且强大的功能。数据挖掘恰恰适合于处理上述战略管理会计的环境信息,善于对那种数据海量、模式未知、结构复杂、知识隐含的信息的获得和利用,因此数据挖掘能够解决战略管理会计实施中的一些技术障碍问题,其必将成为战略管理会计实施的有力技术支持。
一、数据挖掘及其实施流程
(一)数据挖掘的概念和功能
数据挖掘是一个面向应用的,能够从大量的、不完全的、有噪声的、模糊的、在随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息或知识的技术,提取的知识表示为概念、规律、模式或规则。数据挖掘具有知识发现的功能:能够发现广义知识,并进行概念描述;能够发现关联知识,并进行关联分析;能够发现类知识,并进行分类或聚类;能够发现预测型知识,并进行趋势预测;能够发现特异型知识,并进行偏差检测。
(二)数据挖掘的实施流程
数据挖掘是一个反复的过程,通常包含以下几个相互联系的步骤:1.问题定义与主题分析;2.数据准备;3.建立模型;4.模型评估;5.结果表达与实施。
结合战略管理会计的应用领域,其具体流程如图1所示。
二、数据挖掘在AB公司的应用
本文以AB集团股份有限公司为应用背景进行实证研究,通过此实例探讨企业实施数据挖掘的具体步骤及方法。
(一)主题确定
美国哈佛工商管理学院的迈克尔·波特教授认为企业最关心的应该是它所处行业中的竞争强度。战略管理会计的主要特点之一是其超越了会计主体的限制,可以在与竞争对手对比的基础上提供比较性的管理会计信息。在信息经济的形态下,利用数据挖掘能够将大量看似无关的数据关联起来,发现其中的规则和知识,帮助企业判断其竞争能力和强度。
AB公司是化工行业内的上市公司。上市十年来,公司规模不断扩大。行业内日益激烈的竞争,使高层管理者更加关注公司在行业内的竞争地位,因此本次实证研究将数据挖掘的主题定义为对AB公司行业竞争能力的分析;挖掘任务确定为利用关联规则算法挖掘各项财务指标与企业竞争能力的内在联系,分析和研究财务指标与企业竞争能力之间的关联关系。如果两项或多项属性之间存在关联关系,利用关联算法,其中一项的属性值就可以依据其他属性值进行预测。因此,可以依据关联规则的挖掘结果,通过财务指标确定AB公司在其化工行业内的相对竞争地位,评价其竞争能力。
(二)算法原理及工具软件选择
1.关联规则算法的原理。关联规则是数据挖掘的一种主要形式,最早产生于发现超市交易数据库中隐含的模式。关联规则是寻找在同一事件中出现不同项的相关性。
关联规则挖掘可形式化地定义为:设I={i1,i2,...,im}为项的集合(称作项集),D为全体事件的集合,每个事件T有唯一的TID标识。若项集X?哿T时,称T包含X。关联规则的形式是X?圯Y,其中X?哿T,Y?哿T,且X∩Y=Φ,称X为规则的前件,Y为规则的后件,规则的支持度和可信度是关联规则的重要概念。
支持度Support(X?圯Y)=P(X∪Y)。
可信度Confidence(X?圯Y)=P(Y/X)。
在挖掘过程中,同时满足最小支持度和最小可信度的规则称作强规则。
期望可信度(Expected Confidence),是在全体事件集中,所关注的项集出现的概率,即P(Y)。
挖掘得到的规则未必都是有用的规则,有的可能是正确的,有的可能是错误的,还要通过规则的兴趣度(Interestingness)来判断规则的有效性、新颖性和可靠性。支持度和可信度是兴趣度客观度量的基本框架,应用最广泛。支持度衡量了规则的重要性。支持度越高,说明规则越重要。可信度衡量了规则的准确度、真实度。如果一条规则可信度较低,那么这条规则没有任何意义。当关联规则的可信度很高,支持度却很低时,说明这条规则实用的机会很小,因此也不重要。应用这两个指标,可以过滤掉一些无趣的规则,但是仍然会产生一些对用户而言不感兴趣的规则。作用度Lift(X?圯Y)=P(Y/X)/P(Y)的引入,避免了强规则对用户的误导作用,它是规则的可信度与规则的期望可信度的比值,反映了前件对后件之间的关联影响的强度。作用度等于1,说明前件对后件没有影响,这条规则就失去了关联的意义了。所以,作用度一般得大于1,说明前件的出现对后件的出现有促进作用,而且值越大说明前件对后件的影响程度越高。
对关联规则的客观度量,还可以有多个角度。比如正确率和覆盖率。正确率越高说明规则越可靠。覆盖率高说明规则应用频率较高。
2.工具软件的选择。Magnum Opus是一个专门用来挖掘关联规则的工具软件,本研究将其3.0版本作为挖掘的工具。
(三)数据预处理
1.数据选取。由于AB公司是一家上市公司,为了使数据具有可比性,将研究范围锁定为化工行业内的上市公司,财务指标数据选自于海生证券的大福星行情分析系统。参考中国化工企业管理协会2009年中国化工企业500强名单,最终确定了80家(考虑了选取数据的特征覆盖面问题)化工行业上市公司,将其2008年度的数据作为分析样本。
2.数据清理。由于上市公司会计报表属于强制性公开披露的内容,因此,数据质量较好,错误及缺失数据较少,数据清理工作在此也就意义不大。
3.数据归约。上市公司财务指标比较繁多,并且很多指标彼此相关、信息重叠,因此,有必要从诸多的财务指标中筛选出具有代表性的典型指标,以降低维数。具体方法可结合定性判断采用统计分析方法中的显著性检验法(T检验)或正态分布检验,本研究借鉴了杨兵及刘洪等的研究成果,筛选出表1所列的10个变量。
4.数据变换。对于个别数值变量,需要将其数值进行变换,转换为类别变量,变换方法较多,本研究选择比较简单的方法,即基于数值间的距离进行转换,如,上市年限1-[0,4],2-[5,8],3-[9,12],4
-[13,16];竞争力水平评分也做类似的转换,c-[0,49],e-[50,64],r-[65,79],a-[80,100]。
(四)实施挖掘及结果分析
【关键词】 数据挖掘; 战略管理会计; 应用; 实例
引言
当人类步入21世纪时,企业的经济管理环境发生了巨大的变化,管理会计研究的焦点从企业内部挖潜(成本、预算、控制)逐渐地转移到对企业外部竞争环境的分析上,这一变化促使管理会计发展到战略管理会计阶段。战略管理会计的形成即是以企业生存环境不确定性的增强为背景的,其特别关注企业外部环境的变化,注重对竞争对手的分析,强调非财务信息的利用。然而企业外部环境是变幻莫测的,其信息(包括财务和非财务的信息)数量庞大,信息结构(半结构化数据、多维数据)复杂,信息传递的知识多是隐含的,这些特点决定了应用原有的技术分析方法(如差量分析、比率分析等)无法实现战略管理会计的思想,在实施战略管理会计的过程中必然会遇到一些技术分析上的障碍。
数据挖掘是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知识的热门技术,其具有集成化、自动化和智能化的特征,在信息的深入加工、充分利用方面具有独到且强大的功能。数据挖掘恰恰适合于处理上述战略管理会计的环境信息,善于对那种数据海量、模式未知、结构复杂、知识隐含的信息的获得和利用,因此数据挖掘能够解决战略管理会计实施中的一些技术障碍问题,其必将成为战略管理会计实施的有力技术支持。
一、数据挖掘及其实施流程
(一)数据挖掘的概念和功能
数据挖掘是一个面向应用的,能够从大量的、不完全的、有噪声的、模糊的、在随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息或知识的技术,提取的知识表示为概念、规律、模式或规则。数据挖掘具有知识发现的功能:能够发现广义知识,并进行概念描述;能够发现关联知识,并进行关联分析;能够发现类知识,并进行分类或聚类;能够发现预测型知识,并进行趋势预测;能够发现特异型知识,并进行偏差检测。
(二)数据挖掘的实施流程
数据挖掘是一个反复的过程,通常包含以下几个相互联系的步骤:1.问题定义与主题分析;2.数据准备;3.建立模型;4.模型评估;5.结果表达与实施。
结合战略管理会计的应用领域,其具体流程如图1所示。
二、数据挖掘在AB公司的应用
本文以AB集团股份有限公司为应用背景进行实证研究,通过此实例探讨企业实施数据挖掘的具体步骤及方法。
(一)主题确定
美国哈佛工商管理学院的迈克尔·波特教授认为企业最关心的应该是它所处行业中的竞争强度。战略管理会计的主要特点之一是其超越了会计主体的限制,可以在与竞争对手对比的基础上提供比较性的管理会计信息。在信息经济的形态下,利用数据挖掘能够将大量看似无关的数据关联起来,发现其中的规则和知识,帮助企业判断其竞争能力和强度。
AB公司是化工行业内的上市公司。上市十年来,公司规模不断扩大。行业内日益激烈的竞争,使高层管理者更加关注公司在行业内的竞争地位,因此本次实证研究将数据挖掘的主题定义为对AB公司行业竞争能力的分析;挖掘任务确定为利用关联规则算法挖掘各项财务指标与企业竞争能力的内在联系,分析和研究财务指标与企业竞争能力之间的关联关系。如果两项或多项属性之间存在关联关系,利用关联算法,其中一项的属性值就可以依据其他属性值进行预测。因此,可以依据关联规则的挖掘结果,通过财务指标确定AB公司在其化工行业内的相对竞争地位,评价其竞争能力。
(二)算法原理及工具软件选择
1.关联规则算法的原理。关联规则是数据挖掘的一种主要形式,最早产生于发现超市交易数据库中隐含的模式。关联规则是寻找在同一事件中出现不同项的相关性。
关联规则挖掘可形式化地定义为:设I={i1,i2,...,im}为项的集合(称作项集),D为全体事件的集合,每个事件T有唯一的TID标识。若项集X?哿T时,称T包含X。关联规则的形式是X?圯Y,其中X?哿T,Y?哿T,且X∩Y=Φ,称X为规则的前件,Y为规则的后件,规则的支持度和可信度是关联规则的重要概念。
支持度Support(X?圯Y)=P(X∪Y)。
可信度Confidence(X?圯Y)=P(Y/X)。
在挖掘过程中,同时满足最小支持度和最小可信度的规则称作强规则。
期望可信度(Expected Confidence),是在全体事件集中,所关注的项集出现的概率,即P(Y)。
挖掘得到的规则未必都是有用的规则,有的可能是正确的,有的可能是错误的,还要通过规则的兴趣度(Interestingness)来判断规则的有效性、新颖性和可靠性。支持度和可信度是兴趣度客观度量的基本框架,应用最广泛。支持度衡量了规则的重要性。支持度越高,说明规则越重要。可信度衡量了规则的准确度、真实度。如果一条规则可信度较低,那么这条规则没有任何意义。当关联规则的可信度很高,支持度却很低时,说明这条规则实用的机会很小,因此也不重要。应用这两个指标,可以过滤掉一些无趣的规则,但是仍然会产生一些对用户而言不感兴趣的规则。作用度Lift(X?圯Y)=P(Y/X)/P(Y)的引入,避免了强规则对用户的误导作用,它是规则的可信度与规则的期望可信度的比值,反映了前件对后件之间的关联影响的强度。作用度等于1,说明前件对后件没有影响,这条规则就失去了关联的意义了。所以,作用度一般得大于1,说明前件的出现对后件的出现有促进作用,而且值越大说明前件对后件的影响程度越高。
对关联规则的客观度量,还可以有多个角度。比如正确率和覆盖率。正确率越高说明规则越可靠。覆盖率高说明规则应用频率较高。
2.工具软件的选择。Magnum Opus是一个专门用来挖掘关联规则的工具软件,本研究将其3.0版本作为挖掘的工具。
(三)数据预处理
1.数据选取。由于AB公司是一家上市公司,为了使数据具有可比性,将研究范围锁定为化工行业内的上市公司,财务指标数据选自于海生证券的大福星行情分析系统。参考中国化工企业管理协会2009年中国化工企业500强名单,最终确定了80家(考虑了选取数据的特征覆盖面问题)化工行业上市公司,将其2008年度的数据作为分析样本。
2.数据清理。由于上市公司会计报表属于强制性公开披露的内容,因此,数据质量较好,错误及缺失数据较少,数据清理工作在此也就意义不大。
3.数据归约。上市公司财务指标比较繁多,并且很多指标彼此相关、信息重叠,因此,有必要从诸多的财务指标中筛选出具有代表性的典型指标,以降低维数。具体方法可结合定性判断采用统计分析方法中的显著性检验法(T检验)或正态分布检验,本研究借鉴了杨兵及刘洪等的研究成果,筛选出表1所列的10个变量。
4.数据变换。对于个别数值变量,需要将其数值进行变换,转换为类别变量,变换方法较多,本研究选择比较简单的方法,即基于数值间的距离进行转换,如,上市年限1-[0,4],2-[5,8],3-[9,12],4
-[13,16];竞争力水平评分也做类似的转换,c-[0,49],e-[50,64],r-[65,79],a-[80,100]。
(四)实施挖掘及结果分析