论文部分内容阅读
随着税务部门信息化建设水平的不断提高,各级税务部门积累了大量的业务数据,但是这些数据却成了“信息孤岛”,缺乏有效的集成,使得数据库中积累了大量的历史数据,然而不断又有新的数据甚至是与原有数据相重复的数据不断的进入数据库,这既增加了税务工作人员的工作量,又使得纳税户重复填写资料,造成纳税户的不满,这就使得大量的数据得不到运用而只能浪费。如何充分利用这些宝贵的数据,从中总结出税收工作的发展规律,为税收管理、政策制定提供依据,是税收信息化发展过程中面临的一个重大课题。同时,税务管理任务从粗放型管理向精细型管理的转变也必须采用一些先进的分析手段,为管理者和决策者提供统一的应用服务系统。建设税务分析系统对实现税务信息现代化有着重要的意义。然而目前的税务分析系统只局限于数据库的管理,如何分析多年来积累的海量数据为税务决策提供事实依据,至今在税务分析系统中没有实现。针对这一问题,本文以柳州市国税局的数据为研究对象,重点讨论税务数据仓库系统的建设,并与数据挖掘技术相结合,获取税源管理的一般规律,提高税源管理的水平。本文主要研究工作如下:⑴在充分研究税收业务和现有税务管理信息系统的基础上,研究了建设税务数据仓库的方法和步骤,设计了税务数据仓库的数据模型和体系结构。⑵研究各种建立数据仓库时数据预处理中的数据清理、转换和加载的方法和策略,规范了业务的日常操作,实现了在一个数据平台上获取数据。⑶分析研究了数据仓库的逻辑设计和物理设计,建立了税务数据仓库系统。并在已建立的税务数据仓库基础上建立OLAP立方体,系统提供了多角度、多层次查询分析数据的功能,可以实现制作动态报表,减轻了以往人工统计分析的工作量。⑷利用关联规则算法对税务数据仓库中数据进行挖掘,获得与税负率有关的重要参数,找到不符合挖掘出的关联规则的纳税户,对其进行重点监控,得出供税务各级领导分析和决策的信息,从而指导税收工作。针对目前采用的关联规则算法主要使用Apriori算法计算量大,所需时间长的特点,使用改进的FP-growth算法。本研究初步建立了柳州市税务系统的数据仓库,并对其进行了统计分析,挖掘了与税负数据有关的关联规则,同时指出税务数据仓库的下一步工作以及本文的不足之处。