基于Attention-Based C-GRU模型的文本分类研究

来源 :北京交通大学 | 被引量 : 9次 | 上传用户:Sophie_LGH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,信息技术的广泛应用,当今时代产生了海量的文本数据,如何对这些数据进行有效的管理,并从中发掘有价值的信息成为大数据时代面临的挑战。文本分类作为文本信息处理的关键技术以及自然语言处理的经典任务,一直是人们关注的焦点。随着深度学习在图像处理,语音识别等领域取得了显著的成果,它也被证明在自然语言处理任务中拥有提取句子或文本更高层次表示的能力,然而单一深度学习模型存在忽略上下文语序或关键词区分化影响等语义缺失问题。因此,设计基于深度学习混合模型的文本分类算法,通过混合模型综合各个模型的优势,提取语义丰富的高层特征已成为研究热点。本文在分析文本分类技术及深度学习模型的基础上,对如何合理设计深度学习混合模型,并利用该模型提取高层特征,解决文本分类问题进行了深入研究。本文的主要研究工作如下:(1)针对单一模型的语义缺失问题,通过探究多种深度学习模型的组合可能和提升效果,本文设计并实现了 Attention-Based C-GRU混合模型用于文本分类。该模型由输入层,C-GRU特征提取模块,Attenton机制加权模块和Softmax分类器模块组成。模型将改进后的卷积层结构和GRU模型以统一的架构进行组合,构成提取高级特征的二层网络,利用CNN和GRU的模型优势,提高了文本分类的分类效果。(2)针对传统CNN模型忽略文本上下文语序,导致文本语义缺失的问题,本文提出了卷积层改进算法。将卷积层从CNN模型中抽离出来,并对卷积层结构进行改进,通过定义不同尺寸的区域序列向量RSV,产生对不同位置词向量的抽象特征表示,该表示方式通过结合多个局部特征,形成更为准确的特征表示,并且抽象特征序列保持了文本的语序关系,丰富了语义,提高了特征提取的效率。(3)Local-Attention窗口维度的选取随机性造成了关键词丢失或语义冗余等问题,针对该问题,本文通过探究提出了窗口最佳维度的选取策略。利用该策略合理的选取Local-Attention计算范围,提升了 Local-Attention的优化效率,提高了关键词区分化对文本分类的影响作用。为了证明Attention-Based C-GRU模型的有效性,验证卷积层改进算法及Local-Attention机制优化策略对文本分类的提升效果。本文在中英文语料集上设置多组对比实验,通过与对比模型和语料集上表现最优的算法做比较,证明了本文模型在文本分类的有效性,以及改进算法的提升效率。
其他文献
新课改后高中历史课程分为必修和选修两大模块,选修课起着拓展高中生历史知识和能力的重要作用,是高中历史学科体系的重要组成部分。如何在中学课堂上有效的进行历史选修课教学
回旋行波管器件是一种具有功率高、宽频带的电子回旋脉塞器件,其在雷达探测、电子通讯和电磁干扰等领域具有重要的作用,并且在国际上受到广泛重视。二十世纪七十年代,美国、
权力应何去何从?苦难辉煌的中国应怎样走向复兴?权力集散观如何建言中国外交战略构设?东亚地区秩序能否和平转型?无政府状态下的国际体系并非无序,而是各权力主体在不同层级上发生
森林作为陆地生态系统最重要的组成部分,既是功能比较完善的资源库,在维护生态平衡、保护生态环境方面发挥着决定作用;又是人类实现自身发展所必不可少的自然资源。所以,林业
分析了预应力预制构件的现状,根据我国建筑市场的变化及建筑技术发展所提供的条件,提出了发展高效预应力预制构件的设想。文中还介绍了近年在这方面所取得的进展并对今后的发展
目的探究学龄前儿童发生龋齿与母亲孕期相关因素的关系。方法全市范围内选取21所幼儿园中的2168名学龄前儿童进行研究,对照组1084例儿童均未患龋齿,观察组1084例儿童均患有龋
随着器件设计理论的完善及制备工艺技术的飞速发展,光电器件的微型化已经成为发展的重要趋势。低损耗微纳光纤的成功制备使得构造微米乃至纳米量级的光子器件成为可能。其中,
二十一世纪作为光信息时代,光通信的飞速发展有力地推动了光器件的工艺完善和性能优化的不断突破。光纤分路器广泛应用于光纤通信、光纤传感等系统中。在应用中,光分路器件的
目的探讨超声引导下椎旁神经阻滞对肺叶切除患者术后镇痛效果,并观察其对炎性反应的影响。方法选择本院2014-01-2014-12择期肺叶切除术患者90例作为研究对象,90例患者随机分