基于Spark计算框架的分布式文本分类方法研究

来源 :数据挖掘 | 被引量 : 0次 | 上传用户:shijiatiedaoxueyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统文本分类算法在面对日益增多的海量文本数据时效率低下的问题,论文在Spark计算框架上设计并实现了一种并行化朴素贝叶斯文本分类器,并着重介绍了基于Spark计算框架的文本分类实现过程。实验阶段,分别在单机、Map Reduce和Spark三种不同的计算框架下测试了文本分类的效率,并使用控制变量的方法在Spark计算框架下设计对照实验。实验证明,Spark计算框架下的朴素贝叶斯算法在面对海量文本分类时有着较高的处理效率。
其他文献
化学反应工程经过50多年的发展,已成为一门相对较为成熟的工程学科。本文将从化学反应工程理论体系的进一步完善, 新型反应装置开发的个性化,化学反应工程应用范围的进一步拓
随着经济的发展和可供开发土地的减少,二手房价一路飙高。截止到2016年5月底,北京城内六区二手房均价已超6万。对二手房价格进行评估预测将对居民生活产生重要影响,也可以给
在油田污水处理过程中,斜板(或斜管)除油器用于强化油水分离、去除污水中的细小油滴,斜板(管)工艺结构尺寸的设计与优化是影响斜板(管)除油效率的关键。本文运用沉降理论,通
目的观察牛珀至宝微丸对肺损伤早期纤维化大鼠转化生长因子β1(TGF-β1)的影响。方法48只sD大鼠随机均分为4组:对照组(C组)、内毒素组(LPS组)、低剂量牛珀至宝微丸预处理组(LD组)、高
本文构建了五个评价指标,用于评价小区开放对周边道路通行能力的影响,并通过可达性指标对比了不同类型小区开放前后的通行情况。首先利用Floyd最短路方法以及相应公式对道路
目的探讨硫酸酯化茯苓多糖(S-PCS3-II)对裸鼠胃腺癌的抑制作用。方法无菌抽取人低分化胃腺癌细胞MKN-45,接种于裸鼠右侧腹股沟皮下,形成皮下移植瘤。将裸鼠随机分成5组:正常饮水
航空汽油的发展始于20世纪初,距今已经超过100年了。无铅航空汽油的发展也已经接近80年历史。本文论述了无铅航空汽油的发展历程,指明无铅航空汽油蜕变于车用汽油,主要从低辛
她曾经为了一个老大妈被儿女虐待致死案,冒着风险坐拖拉机入村,一整天调查取证,饭都没顾上吃,终使3个不孝儿女被绳之以法;她曾经用自己的存折为前铺村杨桂梅、韦子峪村裴玉芬
镉污染是当今重金属污染中面积最广、危害最大的重金属元素之一,对水体镉污染处理方法的研究也一直是热点研究课题。本文研究了依据Mannich反应,以聚丙烯酰胺凝胶(PAM-Gel)为
目的观察吗啡控缓释片与芬太尼贴剂经不同给药途径治疗中重度癌性疼痛的疗效及不良反应。方法回顾分析吗啡类控缓释片和芬太尼贴剂经不同给药途径治疗中重度疼痛327例患者的