论文部分内容阅读
当前,数据挖掘研究发展十分迅速,税务系统的信息化建设也正由扩张走向集成和数据管理阶段。但是,数据挖掘在税务系统的应用尚处于起步阶段。因此,研究数据挖掘技术在税务系统的应用,具有重要的理论意义和现实价值。 本文主要工作是:(1)讨论了数据挖掘中的数据预处理和数据集成技术,研究了关联规则的挖掘方法。(2)结合税收征管数据,给出了数据预处理和数据集成的实例方法。(3)针对国家税务局的征管软件等多个管理信息系统产生的实际数据,进行了关联分析算法的应用研究和实例计算,并分析了Apriori挖掘算法的计算效率。 本文主要进行了以下的研究: 第一章:介绍了税收业务的背景知识和数据仓库及数据挖掘技术在税务系统研究和应用的现状,分析了数据挖掘在税收系统的应用前景,讨论了如何在税务系统应用数据仓库和数据挖掘技术。 第二章:阐述了对数据挖掘理论知识的认识,分析了数据挖掘技术的定义、研究内容和本质、功能、常用技术和流程以及当前数据挖掘的研究方向。 第三章:分析了数据预处理方法,讨论了如何将多个关系数据库的数据集中,并在集中过程中实施清洗、集成、转换、消减等数据预处理,并给出了实例分析。 第四章:讨论了关联分析关系方法,研究了Apriori算法及其优化途径,对上一章生成的数据集进行了实例计算,并进行了性能分析。通过对挖掘出来的关联规则的分析,证实了可以使用数据挖掘技术提升税收征管决策水平。 第五章:归纳总结,提出进一步的研究方向。 本文的工作的主要特色如下: (1) 通过对数据挖掘有关理论比较分析,讨论了相关数据挖掘算法和工数据挖掘技术在税收征管决策中的应用程技术理论,实际分析了一个数据挖掘关联分析(知riori算法)全过程的案例,为税收行业如何有效开展数据挖掘工作提供了新思路和新方法。 (2)本文以数据挖掘中关联规则的挖掘方法为主要研究内容,讨论了税务系统,如何结合现有的管理信息系统,利用关系数据库的所提供的数据操作、关系运算的能力对大数据集实施数据预处理,实现数据集成,并给出了一个关系数据库数据预处理的一个实例分析。关键词:数据挖掘,关联规则,数据预处理,数据仓库,税务系统