基于Spark框架的政府公文聚类方法研究

来源 :电脑知识与技术:学术版 | 被引量 : 0次 | 上传用户:apple41900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
政府网站中的政府公文数目巨大,对政府公文进行快速有效的分类,可以提供更好的用户体验。本文提出基于spark分布式计算框架采用K-means算法对政府公文进行分类的方法。首先从政府网站爬取足量的政府公文数据,对其进行数据预处理,再通过TF-IDF将处理后的政府文本信息转换成二维矩阵,然后在Spark计算框架中使用K-means算计进行聚类。最后分别在单机和使用spark框架的分布式计算环境下进行测试,三组实验结果表明,使用spark分布式计算框架进行聚类有着更高的计算效率。
其他文献
STEAM教育继承了美国教育哲学的实用主义导向,成为近些年来教育研究的热门话题。自2016年起,这一热潮也拓展到了中国学术界,然而如火如荼的STEAM教育中国化进程中也面临着诸
在基础教育中,相较于其他课程,信息技术是一门比较特殊的课程,它不仅有逻辑知识体系还有大量的实际操作,随着技术的发展和社会需求的变化,传统的信息技术教学模式的缺点慢慢
安宁疗护的顺利推进需强大的群众基础,群众基础是实施安宁疗护的基石。基于此,该研究着眼于安宁疗护与微信小程序,采用MINA框架,基于XML,WXSS和JavaScript,利用基础组件和API
在“互联网+教育”不断发展的情况下,人们提出网络教学的思想。该文以《数据库原理》双语课程为例,通过针对课程特点,分析其网络教学的优劣势;并阐述如何基于一个网络教学平
该研究以安全标志为教育内容进行教学设计,基于心流理论提出了安全教育游戏设计理论框架,本着教育性和娱乐性相平衡的原则,经过需求分析、教学设计、游戏开发与测试,开发了一
在越来越多的大学生离不开手机,学习效率日益下降的背景下,采用设计实现了一种基于Android系统开发的一个时间管理应用软件,可以用于帮助学生控制使用手机的时间。该系统一共
本文从教学过程设计、实践项目设计、创客空间建设三个方面构建了面向大数据的创新创业教育体系。我们充分结合前沿教育理念,依托校企合作优势,整合慕课资源并将其与翻转课堂
“易职客”作为一款基于微信公众号的大学生生活服务平台,主要向大学生提供便利的生活服务。依托团队现有线下校内创业园,将相关线下业务与互联网进行整合,并进行服务拓展打
随着人工智能技术的兴起,机器人技术这门课在很多本科高校开授,但在教学过程中存在理论内容抽象,实验设备不足,学生兴趣不高等问题。滁州学院作为一所地方应用型本科院校,在
如何使现代化教育技术在电化教育中发挥更大的功效,降低电教管理工作人员的任务量是当前电教管理所面临的最大问题。该文通过介绍笔者在日常电教管理工作中自主开发相应管理