基于深度学习的文本分类研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:haohailinbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的飞速发展,网络上产生了越来越多的数据,其中大部分数据为文本信息。面对这些海量的数据,如何利用机器学习技术从中挖掘出对用户有价值的信息一直是研究的热点,而自然语言处理中的文本分类技术使得人们分析、组织和管理大量文本信息成为可能。文本分类在情感分析、垃圾邮件检测、关系抽取和信息过滤等领域有着广泛的应用,因此,对文本分类技术的研究具有重要的研究意义和应用价值。本文研究了应用于文本分类中的常见深度学习模型,其中基于CNN的分类模型捕获文本的序列特征和全局信息能力较差,而基于RNN的分类模型在并行性和提取局部重要特征方面表现不佳,并且传统的静态词嵌入表征技术不能解决多义词的问题。针对上述存在的问题,本文的主要研究内容如下:(1)针对单一模型不能很好的建模文本数据的问题,本文提出了一种双向循环卷积神经网络(Bidirectional Recurrent Convolution Neural Network,BRCNN)的混合文本分类模型。首先,为了有效利用全局语料库的统计信息,使用预训练的Glo Ve词向量初始化词表示;为了捕获文本的上下文信息和全局特征,使用双向长短期记忆网络Bi LSTM处理文本词嵌入表示。之后利用卷积神经网络局部相关性和位置不变性的特点,将卷积操作作用于循环网络的隐藏层表示,来提取高层次抽象语义特征。在池化层中利用最大池化与均值池化操作来保留显著特征和整体语义信息。最后为了更好的利用浅层特征,将双向LSTM层的输出特征与池化层特征进行融合。在三个公开的英文文本分类数据集上的实验结果表明,所提出的BRCNN模型与传统的机器学习和单一神经网络模型相比,显著提升了文本分类的准确率。(2)针对传统词嵌入表示不能解决一词多义的问题,本文提出了一种基于预训练双向语言表征模型BERT与卷积神经网络相结合的文本分类模型BERT-CNN。首先,利用预训练的BERT模型获取单词的上下文向量表示,然后应用不同大小的卷积核提取类似n元语法的重要局部特征,使用最大池化操作保留文本序列中最显著的特征进行分类。针对BERT模型对输入序列长度限制的问题,提出了一种灵活的长文本截取处理方法,最大限度地保留了长文本的原始重要信息,这有助于提高分类的准确率。所提出的模型在六个公开的大规模文本数据集上进行实验,实验结果表明,提出的BERT-CNN模型与其他模型相比,能够显著且一致地提高文本分类的准确率。而且该方法只需要较少数据即可得到较好的实验结果,缩短了模型的训练时间。
其他文献
工作作为人类日常生活不可或缺的部分,往往是不容忽视的,而社会工作专业注重以人为本,因此工作这一重要部分也就不能被忽视。伴随互联网时代的来到,既让社会得到了一定的发展,也让企业员工饱受工作压力的折磨,工作占据了他们的大部分时间,随之而来的生理、心理问题也出现了,最终为社会带来了负面的影响。从原有的国内外文献研究中,笔者发现,社会工作介入到工作压力的问题研究文献数量并不多,这些文献主要使用了个案工作和
近年来,以电子商务、网络媒体为代表的各类互联网平台和应用逐渐普及,海量的用户生成内容(User-Generated Content,UGC)随之产生。如何从海量的用户生成内容中提取有用的信息
目的:评估磁敏感加权成像(Susceptibility weighted imaging,SWI)在脑膜瘤中的临床应用价值。方法:选择2015年10月~2018年2月经病理证实的WHOⅠ级脑膜瘤50例,术前行SWI、常规
从古至今,我国历来重视教育,国家为保障农村教育做出了巨大的努力,尤其是加大教育经费投入力度。在教育经费日益增加的前提下,作为基础经费的公用经费如何在农村教育中尤其是教学点发挥出最大的作用成为关键。实际上,教学点地处偏远、分布较为分散,因所处地区与政策的不同形成了多种公用经费管理模式。对农村教学点公用经费管理模式的探究,既可以深入了解教学点公用经费管理模式的现实情况,又可以为拓展国内外公用经费管理研
模分复用技术是提高光纤传输容量的重要方法,随着模式的扩展损伤效应更加明显,模分复用相关的数字信号处理也更加复杂。基于Stokes空间的信道均衡等方法已在偏分复用中得到了
体外诊断芯片具有易于使用和检测迅速的特点,可广泛应用于即时检测(point of care testing,POCT)。体外诊断芯片一般为多层膜结构,其快速、高效检测离不开具有良好液体分散渗流功能的扩散层,研究液体在扩散层中的渗流过程十分必要。本文首次采用电阻层析成像技术(ERT)测试液体在体外诊断芯片扩散层中的分散渗流过程,基于ERT技术的工作原理,根据体外诊断芯片的应用特点以及液体在芯片扩散层
微反应器具有高效、环保和安全的特点,在化工产品开发和生产中具有巨大的潜力,近年来已受到广泛关注。氨基酸盐水溶液作为CO_2吸收剂,具有低挥发性、低毒和高效等优点。本文采用高速摄像仪对蛇形微通道及并行多通道微反应器内氨基酸钠水溶液吸收CO_2的效率和传质特性进行了系统的研究。实验测定了氨基酸钠水溶液的密度和黏度。根据密度和黏度数据,计算得到了黏性流动活化能、黏度B系数、极限偏摩尔体积和表观摩尔体积等
我国行政审批制度起源于计划经济,是国家在管理行政事务过程中不可或缺的一项重要制度,对推进经济社会的发展起着重要的作用,但随着我国加入世界贸易组织和社会主义市场经济
知识表示与获取是人工智能中的关键问题,而规则获取是其中一项重要的研究内容。粒计算是一种对复杂问题进行分析、求解的数学模型。粗糙集理论作为其中一个重要的分支,主要是
冷轧带钢退火是冷轧工艺的重要工序,直接影响着钢板表面质量。本文以鞍钢冷轧厂罩式退火炉控制系统为研究背景,设计了罩式退火炉生产管理系统,实现生产、设备、能源的有序管