基于双向LSTM的文本分类方法研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:junfeng_19860313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与多媒体技术的不断发展,大量的文本数据不断更新交替。文本分类作为分析和处理大量文本数据的关键技术得以快速发展与应用。文本分类任务具体又可分为主题分类、问题分类和情感分析等。每一种分类有其各自的分类基准与特性,所以很难找到一种方法能通用的处理所有类型的文本分类问题。很多已有的传统的文本分类方法忽略了词语之间的关联关系,没有充分地提取隐藏在文本上下文中的语义信息。深度学习已经被广泛应用于自然语言处理领域的众多领域。对于自然语言这样的时序序列来说,深度神经网络模型有其独特优势。本文在传统文本特征提取和分类方法的基础上,深入研究了深度神经网络模型在文本分类任务中的应用,提出结合卷积层(Convolutional layer),注意力机制(Attention Mechanism)和长短时记忆网络(Long-short Term Memory,LSTM)的神经网络结构。针对以上问题,本文具体工作如下:(1)对词嵌入技术与卷积操作展开研究。词嵌入技术能够通过神经网络将自然语言中的单词映射到一个低维度的实数向量,有效避免了传统词向量缺乏上下文语义信息的不足。之后加入的卷积层能够平行提取语义特征,降低数据向量维度,减少后续结构的输入参数。(2)在LSTM的序列信息编码解码模型基础上,提出通过注意力机制与双向LSTM模型相结合的策略,解决文本信息特征提取的问题,进一步提升分类模型的性能。融合注意力机制的双向LSTM模型对每一时刻的状态加以不同的权重,能够在保留有效信息的基础的同时,最大程度减少信息的冗余,通过优化文本特征向量提升文本分类的效果。(3)为了验证本文提出的深度学习模型的有效性,在7个通用的标准数据集上进行了对比试验。实验结果表明,针对以上改进方法设计的模型相对于原有模型均有一定提高。
其他文献
泵反转作液力透平作为一种回收再利用液体余压能的设备,凭借其成本低、运行稳定和结构简单等优势广泛应用于流程工业,具有非常重要的经济价值和深远的社会意义。目前泵反转作
改革开放40年来,我国经济增长的成就举世瞩目,GDP年均增长率高达9.5%,并已成为世界第二大经济体和第一大工业国与货物贸易国。然而,在我国经济高速增长的同时,农业发展的一系
随着移动互联网的发展,使用智能手机的用户越来越多,移动应用也得到了快速的发展。据统计,目前在Google Play和App Store的移动应用数量已经超过了一百五十万,微信小程序也已
近几年共享经济崛起,共享电动车这一跨界产品应运而生,在资本的支持下,各家企业纷纷入局,电动车产品的供应链开始重组。A企业作为生产电动车控制器的厂商,近两年也成为了共享
近年来,随着集成电路技术的快速兴起和数字信号处理技术的高速发展。生物医疗中的生物电子信号、生活中的音频信号和精密仪表检测的信号等模拟信号需要先转换成可靠的数字信号再做进一步处理。由于这些信号幅度波动范围较大、频率低,因此一般前端需要一个可控增益放大器,再级联高精度模数转化器(Analog to Digital Converter,ADC)来对信号进行信息采集。由于离散时间ΣΔADC的过采样、噪声整
碳点(CDs)是一种尺寸小于10 nm,高度单分散的新兴荧光纳米材料。具有强的化学稳定性,可调光致发光和优异的生物安全性。基于上述优异的性质,CDs在药物载体,传感,生物成像和催
我国是一个河流大国,崩岸现象频发,作为一种普遍存在的河流自然灾害,崩岸严重威胁河流防洪工程和两岸百姓生命财产安全,严重制约沿岸城市的社会经济发展。而河道水位变化是导
随着深度学习的不断发展,应用场景从计算机视觉、医疗诊断到自动驾驶等不断扩展。无人机领域中也逐渐开始使用机器学习对无人机实现精准的控制,最初使用神经网络是为了调节内
类金刚石纳米材料是指具有金刚石立方晶体结构的纳米材料,类金刚石纳米材料具有比表面积大、高强度、耐高温等不同于宏观材料的独特性能,可被用于复合材料增强增韧中,改善复
牙本质涎磷蛋白(DSPP),由成牙本质细胞合成,合成后很快就被酶切为C端的牙本质磷蛋白(DPP)和N端的牙本质涎蛋白(DSP),且此酶切过程对其生物学功能的获得十分重要。牙本质涎蛋白,可被