基于并行化技术的web文本分类算法研究

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:duan01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,网络上每时每刻都会产生大量的文本数据,传统的人工管理方法已无法满足社会的需求,所以快速高效的自动文本分类技术成为人们研究的热点。虽然文本分类技术被广泛应用在垃圾邮件过滤、搜索引擎和信息管理等方面并获得快速发展,但是实际的分类性能还比较低,在分类准确率和效率上仍然有很大的改进空间。本文主要针对特征选择和文本分类模型的构建两方面展开深入的分析研究,并取得如下成果:1.提出一种优化的加权朴素贝叶斯并行化分类模型。在利用信息增益构建特征集的过程中加入词频调节因子,剔除特征集中高频的冗余特征,选择具有强区分度的特征构建特征集;使用蚁群算法对权值进行迭代优化,找到全局最优解,构建IA-WNB分类模型;分别在特征选择、模型训练、模型验证三方面结合MapReduce框架,设计并行化作业完成对web文本数据的分类任务。通过设计实验验证,IA-WNB分类模型能够有效提高对web文本的分类效率,并且在并行化设计中既能保证准确率又能够缩短运行时间。2.提出一种基于语义扩展的卷积神经网络并行化分类模型。由于web短文本数据集具有语义模糊和特征稀疏的特点,因此通过构建{主题-特征}二元组的方法对文本特征达到语义扩展的目的,将二元组作为CNN分类模型的输入数据,利用卷积神经网络分类模型进一步优化数据特征,使用Softmax函数进行分类;然后将构建特征二元组和参数训练的过程中分别结合MapReduce框架,在数据预处理和分类模型的参数调优两部分完成并行化设计。通过设计实验验证,基于语义扩展的卷积神经网络分类模型在处理web短文本数据时,分类模型的准确率和分类效率均有所提高。
其他文献
目的:探讨艾灸改善血管性痴呆大鼠认知功能的作用机制。方法:实验共设正常组、假手术组、模型组、艾灸组、西药组。结果:与模型组比较,艾灸组大鼠逃避潜伏期缩短(P
近年来,随着科学技术的飞速发展,数据量的不断膨胀,如何有效地分析这些海量数据已经成为了目前研究的热点和难点。聚类分析方法发展至今,已被广泛应用于生物信息学、计算机视
由于人类社会的不断进步和互联网的快速发展,人们的日常生活和工作都离不开互联网。互联网为人们带来的便捷性使得人们可以直接通过互联网做很多日常生活中的事,如支付、购物
随着移动智能终端与互联网的高速发展,在移动智能终端上实现的功能越来越多。采用生物识别实现移动智能终端的身份认证是当下的研究热点之一。其中,虹膜识别由于其良好的活性
近几年来虚拟现实技术不断进步,计算机模拟出的虚拟环境近乎真实,其中虚拟人作为虚拟现实技术的重要组成部分,受到了广泛的关注。人们在体验内容和场景不断真实的同时,也开始
BGA(Ball Grid Array球栅阵列结构)射线图像具有低信噪比、对比度低的特征,对BGA射线图像的增强处理为后续的图像分割以及缺陷识别奠定了基础,是BGA缺陷检测过程中的重要环节
随着通信技术的发展和计算机技术的进步以及控制系统的复杂化,网络化控制系统应运而生。网络控制系统用网络来传输信号,相较于传统的控制系统,这一特点让网络控制系统具有了
互联网技术的发展,在提高人们消费水平的同时,带动着物流行业的发展。物流行业的发展情况标志着一个国家的现代化水平。物流行业的主要竞争体现在物流网络规划的优劣上,构成
角蛋白是一类来源广泛,具有优异的生物相容性、生物降解性的天然高分子材料,它在可再生新材料、组织工程以及生物医药等领域具有广阔的应用前景。然而,再生角蛋白材料在提取过程中,受到还原剂、溶胀剂等的作用,分子间氢键、二硫键等被破坏,导致再生角蛋白材料力学性能较差,这已成为阻碍其应用的瓶颈问题。与再生蛋白质材料相比,天然存在的蛋白质材料,如蜘蛛丝、蚕丝、羊毛,均具有优异的力学强度。这些蛋白质材料具有相似的
目的:本研究旨在通过动物模型复制显微血管吻合术后血管修复过程,探讨丹红注射液对促进吻合口血管修复、抗凝、抑制血栓形成方面的作用并分析可能参与此过程的机制。方法:选择健康6~8周龄的SD(Sprague-Dawley)雌性大鼠30只,体重为250~300g,随机分为对照组和实验组,每大组各15只。构建模型:在大鼠腹股沟处做切口,游离双侧股动脉,切断股动脉后于20倍显微镜下采用血管两定点缝合法行股动脉