论文部分内容阅读
“大数据”已经成为了当下流行的新词之一,商务大数据、医疗大数据、政务大数据……。如何能在大数据背景下,利用掌握的数据和相关技术手段,区别和筛选不同类别的税源,可以为税源管理提供极大的借鉴意义,也能为加强税源管理所需要面临和解决的问题提供决策参考。本文运用大数据分析的K-means数据挖掘技术,对以沪市上市的制造业公司的财务数据进行了分析,从相关性分析出发在经过主成分分析,这两个分析都是为了去除数据中相关性比较高的自变量,筛选有利于进行聚类分析的财务数据,最终得到了企业所得税、经营性现金流量净额、总资产、应交税费四个维度变量。这四个变量相互之间影响较小适合进行聚类分析。在实际聚类分析后,通过结果可以看到对433家上市公司准确的分成了三类,相互之间几乎没有重合,拟合效果较好。然而,对于具体分类的特征得到的结果,远远没有得到应有的解读。对于聚类结果的有效解读,才能更为合理的服务于税源管理。本文主要由六个部分构成:第一部分是引言,通过对当前大数据背景下数据挖掘技术在税源管理中的应用分析,提出了聚类分析应用于税源管理的构想。第二部分介绍了数据挖掘的的概念和聚类分析的原理,为后续的写作做一个理论铺垫。第三部分介绍了税源管理的现状和作用等基础理论。第四部分进行了相关性分析、主成分分析和聚类分析,提出了应用于税源管理的数据挖掘技术的实际应用。第五部分是基于第四部分基础上得到的变量的进一步讨论,分别从财务视角的企业所得税、经营性现金流量净额、总资产、应交税费四个维度变量分析了进行税源管理的方法以及可能存在的问题。第六部分是结论。主要结论有以下四个方面:第一、找到了一种监管企业税收的方法;第二、简化了税源管理的指标;第三、提供一种税源管理的思路;第四、建立完善的税务数据库非常必要。本文的一个可能的创新在于可以通过选取较少的财务数据实现聚类分析的目的,省去了研究繁琐财务数据的麻烦。另一个可能的创新在于找到了一种监管企业税收的方法,既将目标企业加入样本集合中,通过检查异常值的方法判断企业是否正常纳税。