论文部分内容阅读
税收是国家财政收入的主要来源与国家宏观调控的重要工具。但伴随着我国经济的快速发展,税收流失现象也越来越突出,已经影响了税收职能的正常发挥。造成税收流失现象的根本原因是税务部门与纳税人征纳双方之间的信息不对称,如何利用各种手段缓解税收征管过程中的信息不对称问题一直以来都是税务研究的重点。随着信息技术的飞速发展,互联网已经渗入我们的日常工作生活之中,互联网上的信息呈爆炸式增长,而各种纳税人的税源信息也都潜在其中。如果税务部门能够将互联网上的税源信息加以采集利用,就能够在一定程度上缓解税务部门与纳税人之间的信息不对称问题。与此同时,基于主题的互联网信息采集技术的不断发展,可以帮助我们更快更准确地采集所需的税源信息。利用基于主题的互联网信息采集技术实现税源信息的采集,就是本文研究的主要内容。首先,本文介绍了信息不对称理论的主要内容要点,再对税收征管中的信息不对称从表现、危害、征纳双方的博弈行为等方面进行分析,最后在总结了当前解决税收征管中的信息不对称问题的主要解决方案基础上,提出了一种新的解决方法:建立基于主题的互联网税源信息采集系统。这部分内容是本文的理论基础,阐释了建立该系统的原因。然后,本文在综述了国内外互联网信息采集系统以及主题爬虫算法的研究发展状况的基础上,深入研究了本文所涉及的基于主题的互联网信息采集的关键技术。包括:主题爬虫技术、主题表示技术、网页信息抽取技术、主题相关性判断技术。这部分内容是本文的技术基础,保证了该系统建立的技术可行性。最后,分析设计了一个基于主题的互联网税源信息采集系统,能够准确快速地实时采集互联网上与税源主题相关的所有信息,并将这些税源信息按照一定的表结构保存下载到本地数据库中,为税务部门的用户提供了本地的数据查询等功能服务。在系统设计中不仅采用了多线程采集技术进行采集,而且采用了空间向量模型与基于超链接的文本内容分析的PageRank算法分别计算网页内容与URL链接的主题相关度。