某网络信息监测采集与分析系统的设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:superdai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来全球经济增长明显放缓,中国经济也进入到由政府提供更优惠更细致的政策来进一步促进经济发展的新阶段。企业作为国民经济主的最小组成单元,面临压力与挑战更大,如何实施一系列精准和科学的政策引导产业进步,从而大力推动本地企业的发展,达到促进经济与产业的提升的目的,成为政策制定的关键。在当前互联网飞速发展的大数据时代,各行业的企业数据越来越多的出现在网络中。企业经营活动所产生的海量数据蕴含的价值也越来越受到重视。如何通过有效技术手段将各行业中企业相关数据获取,然后将取得的企业各维度数据进行数据透视和有效分析,来促进科学化制定决策和精细化监控管理,推动企业的高质量发展成为摆在决策者面前的严肃课题。针对上述问题,本文提出构建一个网络数据监测采集与分析系统来完成对互联网中企业经营活动数据的采集与分析,为制定相关政策时提供有效的数据依据。本文利用网络爬虫技术在网页数据采集方面的优势,基于网络爬虫技术设计实现的数据采集模块可以完成对特定行业中企业数据的抓取与存储,然后通过数据清洗、文本分词、特征提取等技术完成数据预处理工作,接着利用Spark大数据分析平台以及其中的机器学习算法库完成数据分析工作。在考虑技术实现的同时,考虑到不同用户对数据可视化的不同需求,在数据可视化部分完成了各类数据分析图表制作,方便用户对数据的使用。本文主要实现模块包括数据采集、数据转换、数据预处理、数据分析、数据可视化。其中数据采集模块是通过分布式网络爬虫来完成网络数据的采集。数据转换模块功能依赖Sqoop工具,实现了关系型数据库系统与分布式文件数据库之间的数据转换工作。在数据预处理模块通过数据清洗、中文分词、特征提取等技术,实现了文本数据的分词以及特征向量提取等工作。数据分析模块通过Spark大数据框架与MLlib机器学习库,采用聚类分析等算法完成对企业数据的聚类分析。数据可视化模块利用Pyecharts库实现了各类数据可视化图表的生成。本文最后对系统的功能和性能分别进行了测试并给出测试结果,验证了系统能够实现网络中企业数据的采集,能够通过有效技术手段完成对获取数据的有效分析与展示,实现为相关管理部门在政策制定时提供数据支撑的目标。
其他文献
当人均国民收入跨过1000美元以后,一个国家或地区大体有三种发展路径:第一种继续靠卖资源;第二种靠出口拉动逐渐依附外向市场;第三种成为像美日这样的创新型国家。在创新型国家中
金属材料的旋压成形具有材料利用率高、近终成形、适用范围广等优点,在薄壁回转体类构件成形领域有广泛应用。当前在先进制造技术快速发展的背景下,工业领域对旋压零件的成形
<正>2015年10月24—25日,由中国社会科学院世界宗教研究所与中国宗教学会共同主办的第四届东南亚宗教研究高端论坛在北京召开,本次论坛的主题是"东南亚宗教的转型与创新"。来
隐性否定是中国人日常交际中使用频率非常高的一种语言现象,使用隐性否定来表达自己的观点可以起到更委婉、更直接、语气更强烈的效果从而遵循面子、礼貌、合作的原则,顺利的完成交际活动。但由于隐性否定是一种形式肯定但意义否定的特殊否定范畴,所以它不仅需要运用语言知识,理解上下文语境甚至需要适当的推理来实现对隐性否定的正确理解,这就给以英语为母语的汉语学习者造成了困扰。隐性否定是留学生汉语学习中的难点,所以一