论文部分内容阅读
从国家实行金税工程以来,国家税务管理不断加强,也形成了多项国家标准和规范。从2007年开始,我校税控系统项目组为国家税务局开发针对大型商场的税控系统,并编写了国标七规范,但系统的机制还不是很完善,只是为税收管理提供了技术支持,并不能为国家税务局的提供决策支持。本文针对国税部门在国税征管、监控工作中的实际需要,对数据仓库技术、数据挖掘技术在国税总局网络税控系统中的应用进行了较为系统、深入的研究。本文的研究内容和成果主要有以下四个方面:
(1)介绍了税控系统技术、数据仓库技术、数据挖掘技术、联机分析处理(On-LineAnalysisProcessing,OLAP)等相关技术及数据挖掘技术在国税总局网络税控系统中的应用。
(2)对单属性变化的增量关联规则更新算法的改进。
对关联规则数据挖掘算法进行了重点研究,详细分析了单属性变化的增量关联规则更新算法的不足和性能瓶颈,并在此基础上,结合国税总局税源数据量巨大的特点,提出了相应的改进算法——多属性变化的增量关联规则更新MACA算法,借助属性矩阵和原有的关联规则的频繁项集,通过对新增各项频繁项集和原有频繁项集构造矩阵,然后按列做与运算,解决了多属性变化关联规则快速更新问题和大大减少了运算的时间复杂度。
(3)对决策树挖掘进行了研究本文对决策树算法了研究和总结,结合国家税务部门需要从海量的税源数据中提取有用信息进行决策支持的需要,重点分析了经典决策树算法ID3的优势和不足,并研究了其改进算法C4.5。
(4)设计了网络税控系统数据仓模型和数据挖掘子系统模型。
本文还探讨了网络税控系统数据仓库模型的设计,详细论述了设计国税总局网络税控系统数据仓库的整个过程、构建网络税控系统数据仓库的目的。本文设计了网络税控系统数据仓库的体系结构、概念模型、逻辑模型和物理模型。最后,本文利用在网络税控系统数据仓库的基础上,将多属性变化增量关联规则更新挖掘应用于网络税控系统中,构建了网络税控系统数据挖掘子模型,详细阐述了多属性变化增量关联规则更新和决策树挖掘在税控系统中的应用,包括挖掘目标,算法的实现和挖掘过程等。