基于词向量表示的深度学习方法在文本分类中的研究

来源 :中国民航大学 | 被引量 : 0次 | 上传用户:a5592306
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网科技在人类日常生活的普及和提升,出现了大量的社交媒体、移动智能等产业,人类的生活和思维方式也发生了巨大改变。其中,文本分类技术作为帮助人们高效、快捷地管理和使用文本数据的关键技术之一,一直以来都是自然语言处理领域研究热点。本文对基于词向量表示的深度学习方法解决文本分类问题进行了研究,系统总结了常用词向量表示技术和深度学习模型,提出了两种分类方法。主要研究工作如下:1、针对以文本词向量作为输入的神经网络无法充分利用文本语义结构特征信息以及难以有效表示每个词语在句子中的重要程度等问题,本文提出一种基于自注意力机制的双向分层语义模型。通过双层双向LSTM将文本词向量进行训练得到文本上下文表示;其次通过自注意力机制从多个视角有效获取每个词语在句子中的重要程度,减少噪音词语权重并获取更多隐藏信息,进而提高了分类器的性能。2、针对主流模型缺乏对文本语义信息和主题特征的有效关注以及仅使用词语级注意力机制对词加权生成文本表示会损失大量信息等问题,提出一种结合主题增强的卷积神经网络和局部化双向长短记忆网络的双通道模型用于文本分类任务中。该模型通过多尺度并行CNN提取离散主题短语序列的特征表示同时利用一个局部化分层语义网络获取句子内部短语之间的相互联系,解决长距离依赖问题。通过短语注意力机制有效突出关键短语以优化特征提取过程。最终将得到主题特征和文本特征进行特征融合,并将其作为分类器的输入,减少了特征向量提取过程中的信息丢失和信息冗余。
其他文献
介绍了啤酒中蛋白质沉淀形成的机理,蛋白质稳定技巧,硅胶的种类、特性及其在啤酒稳定方面的应用。
运城是山西的农业大市和三大农业示范园之一,具有发展农业的得天独厚的条件,并且随着近些年对现代农业发展的重视,运城现代农业得到一定的发展,但其发展水平不高,仍存在一些
截肢会突然切断控制肢体的所有传入传出神经,从而引起了大脑一系列适应性(adaptive)和适应不良(maladaptive)的重塑(reorganization)。同时,脑重塑也被认为与截肢后的异常感
本报陇西讯(通讯员王智平)日前,陇西县政协组织部分政协委员,通过实地察看、走访座谈、问卷调查、赴外学习考察等方式,专题调研全县中医药企业发展情况。$$ 调研认为,全县中医
报纸
传统教师一般不善于发挥创造力,因为当我们成年以后,学习过程都是按部就班,很少会创新。学生爱学习的秘诀是鼓励他们发挥创造力,同时在他们学习的过程中给予必要的协助。全球
以广东Z学院教师学习共同体为个案研究对象,运用社会网络分析方法,剖析高校教师学习共同体的社会网络形成机制与知识分享的关系。研究发现,高校教师学习共同体中的工作咨询网
通过对李时珍《本草纲目》、有关历史文献记载、有关文博物品和有关专家学者研究等方面进行查考,探讨李时珍的生卒时间。认为李时珍生于明正德十三年春夏之交,(1518),卒于明
陕西西微测控工程有限公司(以下简称"陕西西微")是一家具有独立法人资格的高科技产业实体,专门从事测控系统的研发、应用、工程服务及成果推广工作。公司前身为陕西科技大学微机
背景与目的:结直肠迁延迂曲且位置不固定,肠管自身蠕动造成肠壁厚度变化。结直肠自身葡萄糖代谢不稳定,平滑肌蠕动、腺体分泌活动、痉挛、炎症等均可造成代谢异常。这些解剖
电子商务的发展,不仅对于消费者的购买习惯产生了影响,同时也影响到百货商场的运营模式及营销方法,百货商场不得不针对消费者信息接受习惯的变化,调整营销方式,实现线上线下