论文部分内容阅读
近年来全球经济增长明显放缓,中国经济也进入到由政府提供更优惠更细致的政策来进一步促进经济发展的新阶段。企业作为国民经济主的最小组成单元,面临压力与挑战更大,如何实施一系列精准和科学的政策引导产业进步,从而大力推动本地企业的发展,达到促进经济与产业的提升的目的,成为政策制定的关键。在当前互联网飞速发展的大数据时代,各行业的企业数据越来越多的出现在网络中。企业经营活动所产生的海量数据蕴含的价值也越来越受到重视。如何通过有效技术手段将各行业中企业相关数据获取,然后将取得的企业各维度数据进行数据透视和有效分析,来促进科学化制定决策和精细化监控管理,推动企业的高质量发展成为摆在决策者面前的严肃课题。针对上述问题,本文提出构建一个网络数据监测采集与分析系统来完成对互联网中企业经营活动数据的采集与分析,为制定相关政策时提供有效的数据依据。本文利用网络爬虫技术在网页数据采集方面的优势,基于网络爬虫技术设计实现的数据采集模块可以完成对特定行业中企业数据的抓取与存储,然后通过数据清洗、文本分词、特征提取等技术完成数据预处理工作,接着利用Spark大数据分析平台以及其中的机器学习算法库完成数据分析工作。在考虑技术实现的同时,考虑到不同用户对数据可视化的不同需求,在数据可视化部分完成了各类数据分析图表制作,方便用户对数据的使用。本文主要实现模块包括数据采集、数据转换、数据预处理、数据分析、数据可视化。其中数据采集模块是通过分布式网络爬虫来完成网络数据的采集。数据转换模块功能依赖Sqoop工具,实现了关系型数据库系统与分布式文件数据库之间的数据转换工作。在数据预处理模块通过数据清洗、中文分词、特征提取等技术,实现了文本数据的分词以及特征向量提取等工作。数据分析模块通过Spark大数据框架与MLlib机器学习库,采用聚类分析等算法完成对企业数据的聚类分析。数据可视化模块利用Pyecharts库实现了各类数据可视化图表的生成。本文最后对系统的功能和性能分别进行了测试并给出测试结果,验证了系统能够实现网络中企业数据的采集,能够通过有效技术手段完成对获取数据的有效分析与展示,实现为相关管理部门在政策制定时提供数据支撑的目标。