基于深度学习的新闻文本分类问题研究

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:mengyan902
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的快速发展,浅层机器学习已跟不上大数据时代的发展需求,为此,大家都在不断的探索新方法。近几年深度学习在自然语言处理(NLP)、图像处理(CV)、语音识别(ASR)等几大领域中的运用取得了重大突破。在自然语言处理领域中有个基础且非常经典的研究方向就是文本分类。传统文本分类先对文本进行预处理(清洗、分词等),然后手动提取文本特征,选取训练学习的分类器,再将文本特征输入到浅层机器学习分类器中完成分类。深度学习相比此,具有简化分类过程的优势,同时减少文本信息流失,解决高维度、高稀疏性问题,提高分类精度与预测性能。本文研究对象是新闻,通过对新闻文本进行分类,能为喜爱观看各类新闻的朋友提供更精准有效的文本,也能为了解教育水平、金融发展状况、政府政策等信息提供快捷并完整的获取方式等等。本文利用深度学习领域中的几大重要模型分析其在文本分类中的应用与效果。主要研究工作如下:1)由于使用传统的文本表示(one-hot等)时容易出现高维稀疏性问题,同时也疏忽了词与词之间的语义联系。本文通过使用word2vec将文本表示转化为低维稠密的数值型词向量,不但能获取词与词的相关性,也能减少分词错误对分类结果的影响,提升分类精度。2)在特征提取上,若使用传统机器学习,则需先提前手动提取特征,但由于人的主观能动性较强,特征提取效果不稳定,所以导致分类精度不高。本文使用三种深度学习网络结构对特征进行自动提取,分别是:(1)基于卷积神经网络(CNN)模型,其能捕获文本的局部相关特征;(2)基于循环神经网络(RNN)模型,双向循环神经网络能获取前向序列和后向序列信息,能对文本整体序列信息很好的把握;(3)基于注意力机制(Attention),给予不同特征不同的权重,然后进行加权求和,有利于重点特征突出,提高分类精度。3)上述三种模型各有各的优点,但也存在不足。因此,本文提出将三种模型组合在一起的RCNN-Attention混合模型,将三个模型的优点集聚一身,比较其与单个模型在文本分类中的表现,经四个模型对同一个新闻文本进行分类实验,得出混合模型的准确率为为97.9%,召回率为98%,F值为97.8%,验证了混合模型的高精准度。最后,对本文进行了总结,并提出新的展望。
其他文献
天然气水合物具有能量密度高、储量丰富、清洁无污染等优点,被视为未来替代传统化石能源的新型能源,已经成为各国学者研究的重要对象。我国南海、东海的近海大陆架边缘和青藏
我国东海海域西湖凹陷开发历程较短,自20世纪70年代起陆续发现以平湖组为主要目的层系的多个构造背景优越、圈闭类型好的油气藏。在此背景下,为深化西湖凹陷平湖组储层认识,
药物靶标是指细胞内与药物直接结合并赋予药物效应的特定分子,98%以上的药物靶标都属于蛋白质。药物与靶蛋白结合所产生的作用体现在复杂生物过程之中。目前大多数对于药物靶
我国是世界上钢铁消耗量最大的国家,国家的基建、道路、铁路、桥梁等都需要大量的钢材,长期以来大量的优质铁矿石资源依赖于从国外进口,但是随着国际铁矿石价格的逐年上涨,铁矿石的进口成本升高,钢铁企业的成本压力加大。如何有效利用品位较低的铁矿石成为钢铁企业和科研工作者面临的问题。我国高磷赤铁矿的分布较广,这类铁矿石的使用导致铁水中磷含量的升高。为了解决中高磷铁水的脱磷问题,本文研究了CaO-SiO_2-A
随着风电并网规模的增大,我国风电并网标准规定,风电场有功功率必须跟踪电网给定值。然而,风力技术不断进步,风电开发建设条件变得更为复杂,难度更大,风电场对风电机组的要求
在当今社会,人们对能源的需求和争夺与日俱增,其中石油资源在未来相当一段时间里仍扮演者举足轻重的作用。经过多年的陆上石油资源开采,人们逐渐把目光投向了海洋石油资源。
飞行器飞行时,外部环境的不确定性会造成其外部流场不断发生改变,例如,气流的突变会造成飞机的颠簸,影响飞机的操控,因而需要某些具有感知外部流场变化功能的传感器来实现流
随着新能源产业、电力电工行业等领域的快速发展,为了实现国家低碳节能和绿色环保的发展战略理念,对电工钢板材的精密剪切加工技术提出了越来越高的要求。电工钢板材的加工质量直接影响后续电机和变压器铁芯等电工元件的使用性能和能耗水平,对于电工钢板材剪切加工机理的深入研究具有重要意义。本文为了深入仿真分析电工钢剪切加工过程,首先针对35WW300无取向电工钢板材,设计了不同应力状态下的缺口拉伸试样,通过电子万
近几年,深层复杂储层的油气储量在新增探明储量中的比重逐年上升,已经达到60%以上。随着勘探技术的进步与勘探开发程度的提高,预计深层复杂储层储量的比例将进一步增加,深层
民用飞机吊挂应急断离保险销是连接发动机吊挂接头和飞机机翼接头的应急断离连接件,飞机吊挂通过接头和保险销结构传递发动机推力载荷。应急断离保险销需要保证在正常工作时