基于Spark文本挖掘技术的研究与应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:starylove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息大数据时代的来临,在海量数据存储与海量数据运算需求的推动下,大数据存储与大数据运算平台得到了飞速的发展。传统单服务期环境下的文本挖掘算法对文本特征提取以及分类需要耗费大量的时间,而MapReduce计算框架需要将运算中间数据存储在文件系统,伴随着用户对运算性能需求的提升,这种运算模式已经远远不能满足用户的需求。在Spark计算框架下提出并实现一种FEBLTL文本特征提取算法,该算法在LDA对特征进行初步筛选的基础上,综合考虑特征词的词性、位置以及特征重要性权重,通过逻辑回归对关键特征进行有监督学习提升了关键特征提取的准确率。在Spark环境下改进并实现了最大熵文本分类算法,通过TextRank特征权重值重新定义最大熵的二值函数,将改进的最大熵算法与K近邻、支持向量机和朴素贝叶斯算法在文本分类的准确率上进行对比,改进的最大熵分类算法在分类准确率上优于朴素贝叶斯且与K近邻和支持向量机算法不相上下。研究并实现通过SparkStreaming加载离线模型,准实时的批量对文本进行挖掘分析。研究的成果应用至点评文本挖掘分析,设计并实现了基于Spark的点评文本特征提取和点评文本分类,在Spark分布式计算框架下对点评文本的语料进行爬取,抽取了点评文本的语义标签并对点评文本实现了情感分类。基于Spark的点评文本的语义标签的抽取和情感分类可以快速的对文本信息进行挖掘分析。在文本挖掘领域,Spark并行式计算框架可以快速和实时对文本数据进行挖掘分析,改进的文本特征提取算法和文本分类算法能够更精准的提取文本关键特征,更准确的对文本进行分类。
其他文献
支持向量机分类算法是处理数据分类问题的应用最广泛的算法之一.而且该算法还在图像处理领域以及与图像识别相关的领域(如图像分割),地理遥感系统中的遥感图像分析中具有优良
随着社会的不断进步,科学技术的飞速发展,互联网技术的应用领域也在不断拓展。互联网技术也开始被应用于传统的金融行业当中,各大互联网企业纷纷入主金融行业,同时老牌金融企
荧光化学传感器由于其高选择性、高灵敏度,在识别金属离子方面很受重视。相比于荧光淬灭或增强型传感器(一个波长上的荧光强度变化是他们唯一的检测信号),比率荧光传感器由于
许多非线性切换系统在一定条件下可以转化成非线性级联系统.因此,非线性切换系统的控制问题是控制领域的一个重要课题.在过去20年里,非线性切换系统作为一类重要切换系统受到
随着我国经济不断发展,人们对公共医疗卫生领域的服务质量要求越来越高,尤其是随着公共医疗卫生服务改革不断深化,构建一个新型医疗卫生服务体系备受关注。为了不断满足人们对公共医疗卫生服务的需求、解决资源配置不合理的问题,我国提出了分级诊疗政策,分级诊疗政策提出目的主要是为了提高医疗卫生服务质量,缓解就医难的问题。近年来,我国的分级诊疗政策实践取得了一定成果,并且基层医疗服务能力稳步提升、基层首诊、双向转
需要是人类社会发展的原初动力,也是自古以来哲人们高度关注的重要命题,形成了多种多样的需要理论,其中,马克思以历史唯物主义为逻辑起点,以资本主义社会主要矛盾关系为现实依据,以人的全面自由发展为奋斗目标,对人的需要进行了科学阐述,成为无产阶级政党认识和解决人们日益增长的需要的理论基础。党的十九大报告指出:中国特色社会主义进入了新时代,我国社会主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分发
我国的铝土矿资源主要以高铝、高硅、低铁、难溶的一水硬铝石型铝土矿为主,约占98%。针对我国铝土矿资源特性采用微生物技术进行脱硅,提高铝硅比使之适合拜耳法生产工艺具有
南宁可谓人文风情热溢之城,又称风光古迹满怀之地。古称为邕州,已有1700多年的历史。人文基础已像融入血液般,在城市的新陈代谢中衍生各色新鲜。南宁现代文化,不管是文学、民歌或者是影视都带着民族地方文化的英姿焕发新彩。鉴于此,笔者希望通过译介《文化南宁之山水沉香》,展现南宁绿城如诗如画的同时,也能传播南宁地方人文风情。在翻译该书时,深刻体会到语篇意识的重要性。本文从汉英翻译中的语篇连贯为切入点,在文体
目的:更年期综合征指妇女绝经前后出现的性激素波动或减少所致的一系列以自主神经系统功能紊乱为主,并伴有神经心理症状的一组症候群,影响了女性的身心健康,降低了患者的生活质量,严重者可导致焦虑、抑郁等倾向,因此寻求一套有效而安全的治疗方法及其重要。本研究旨在观察庄氏调神针刺联合六味地黄丸加减治疗更年期综合征中的作用,通过庄氏调神针刺联合六味地黄丸加减与六味地黄丸加减两组对照治疗肝肾阴虚型更年期综合征的临
随着三维模型在人们生活中的广泛应用,三维模型的需求呈现井喷式的增长。对三维模型设计师来说设计全新的三维模型需要花费大量的时间,因此从图片库中检索出类似的三维模型进