基于大数据平台技术的资讯文本自动分类研究

来源 :新疆师范大学 | 被引量 : 0次 | 上传用户:gongchp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的进步,新闻媒体开始使用网络技术来提供实时的、丰富的、专业的新闻资讯,网络新闻资讯逐渐成为人们了解社会时事、国际动态或追踪科技热点的重要来源。随着信息来源的多样化、信息内容的丰富化,海量文本数据爆炸式增长,给数据的安全存储和分析利用带来很大的挑战。对文本资源进行分类管理也是数据集成和科学分析利用的基础和前提,例如可以构建专业领域的知识目录、提升搜索引擎的精度、提升热点趋势分析的效率等。大数据平台的出现为数据存储、分类处理提供了更好的解决方案,文本数据可以统一存储,文本分类过程更智能,产生的结果更可靠。当前,各个行业存储了海量的文本数据,这些数据蕴含着宝贵的价值,使用更高效快捷的工具挖掘其中的价值对于企业和社会都具有重要的意义。为应对海量数据的挑战,论文将文本分类和大数据处理技术相结合,对资讯类文本进行分类模型的研究,研究内容如下:首先,研究了文本分类中涉及的重要技术,包括文本预处理、文本表示和分类器等,对Hadoop大数据平台的两大核心组件分布式文件系统HDFS、分布式计算模型Map Reduce,从构成要素和运行原理方面进行了深入研究。其次,对文本分类中的关键内容,文本特征提取TF-IDF算法进行改进,根据资讯文本的特点,通过对标题特征词赋予更高权重,正文特征词适当降低权重,实现特征提取算法的优化,以Map Reduce并行方式获取了模型数据,并结合Mahout机器学习框架,构建了分布式环境下的文本分类模型。最后,利用虚拟机组建了完全分布式环境,部署了一套Hadoop大数据平台,进行并行加速比实验和特征权重的优化实验,使用机器学习框架中的朴素贝叶斯分类算法完成分类模型的训练和验证,实验结果显示,使用大数据平台技术可以大大缩短训练模型所需要的时间,优化特征词权重后的模型在分类效果上有了一定的提升。
其他文献
I群禽腺病毒(FAd V-Ⅰ)属于禽腺病毒属,分为A~E 5个种,1~7、8a、8b、9~11共12个血清型,主要引起包含体肝炎(IBH)、心包积水-肝炎综合征(HHS)等疾病。近年来,IBH和HHS在我国的发病率呈上升趋势,该病主要侵害3~7周龄肉鸡,其中血清4型可造成严重心包积水,死亡率高达30%~80%。所有血清型均可引发IBH,特征为肝脏肿大,呈现不同程度的出血点和出血斑,死亡率可达10%
学位
根据2021年第七次全国人口普查数据中显示,60岁及以上人口已达2.64亿,占总人口的18.7%,其中65岁以上占13.5%有1.9亿人,“未富先老”为我国社会保障体系建设带来了诸多挑战,政府和监管机构从制度和政策方面逐步加大对养老金融体系建设的支持力度,金融行业也在积极探索和发展养老金融业务。在此机遇背景下,发展养老金融业务是银行寻找新的利润增长点的有效途径。社区银行作为一种创新型的银行模式,一
学位
关于历史的理解是多维的,一方面历史是客观存在的过去,不以人的意志为转移;而另一方面历史的传承有赖于人们对于历史这一课题本身的记录与书写。历史的记载方式从口耳相传到文字、影像记载,大量的历史故事在这一过程中不断地产生、发展。与此同时,随着中学课程改革的深入,高中历史课程更加注重对学生学科核心素养的培育,而历史故事具有通俗易懂、生动有趣的特点有利于促进高中历史教学的情境构建、问题探究等方面的优化,并以
学位
以景德镇制瓷非物质文化遗产保护和传承研究为视角,深入分析了景德镇传统陶瓷制作工艺的保护和传承的必要性、面临的严峻形势和当下亟需采取的措施。在景德镇陶瓷文化国家传承创新试验区建设的大背景下,保护和传承景德镇传统制瓷工艺仍具有十分重要的价值。为了扭转当下景德镇传统制瓷工艺保护和传承面临的局面,应该从以下三个方面采取措施:一是发挥政府的引导、支持作用;二是创新传统制瓷工艺非遗文化传承的媒介形式与传播路径
随着量子计算技术的高速发展,使得大整数分解和离散对数问题在多项式时间内完成求解成为可能。导致基于这些经典复杂性理论的加密算法(如RSA、DSS、El Gamal等)的安全壁垒大大降低。因此,信息安全学术界亟需探寻一些新的抗量子密码算法,用于保障未来量子计算环境下的网络空间安全。在量子计算环境下,基于非交换代数结构的计算困难问题尚无有效的量子算法。由于矩阵运算的非交换代数属性,所以基于矩阵分解的公钥
学位