神经网络在短文本分类中的应用研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:f520li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和互联网产业的高速发展,微信、微博、Twitter和Facebook等社交平台作为互联网产品的代表日趋成熟,人们能随时随地在社交平台中分享自己的所见所感。除了一般的使用者,越来越多的自媒体和官媒体也入驻这些平台,发布消息。这些社交平台在人们的日常生活中扮演着越来越重要的角色,不但能够促进个体之间的相互交流,还可以帮助人们更快速地传播和获取新闻资讯,这种情况近些年表现得尤为明显。大量活跃用户不断地加入其中,导致社交平台中的文本数据爆炸式增长。在这些平台上每天都会产生数以亿计的短文本数据,如新闻推送、用户评论、聊天记录等,其中蕴含着大量有价值的信息,如何应用短文本分类技术挖掘出数据背后有价值的信息,具有重大的研究意义和应用价值。短文本分类最重要的是如何提取和表达短文本特征,传统的文本表达方法通常使用静态语言模型训练词向量,无法根据需要调整输入词向量。同时忽视了短文本上下文之间的联系、层级结构和词性的影响,存在特征稀疏、语义不足、维度过高等问题,导致分类效果不理想。基于此,本文针对如何更合理、有效地表达短文本特征进行研究。首先,提出基于ON-LSTM和分层注意力机制的短文本分类模型(ON-LSTM-HAN模型)。使用基于Transformer架构的BERT模型进行语料的预训练,获得语义信息,得到的词向量作为输入端的输入数据。将输入端的词向量输入到ON-LSTM模型中,通过分层结构对词向量进行层级判断,获得神经元的有序信息,得到层级词向量表达。基于单向的ON-LSTM分析层级结构,说明当前的层级分析主要依赖历史信息。因此引入历史信息贡献率来调整历史信息的影响。调整贡献率优化的词向量通过词语级和句子级的分层注意力机制,为词向量分配权重突出关键信息,获得最终的文本特征表达。其次,提出基于改进词性信息和ACBi LSTM的短文本分类模型。使用基于Transformer架构的BERT模型进行语料的预训练,获得语义信息,对Bert模型训练得到的词向量引入词性因子进行优化,将得到的具有词性信息的词向量作为输入层信息。通过卷积神经网络模型(CNN模型)的卷积层对词向量初步提取特征。再通过双向长短时记忆网络模型(BiLSTM模型)生成具有上下文时序信息的中间向量。最后结合注意力机制,突显关键信息,获得最终文本特征表达。为了验证本文提出模型的有效性,对于基于ON-LSTM和分层注意力机制的短文本分类模型,本文使用SemEval2014 Task4、SemEval2017 Task4数据集;对于基于改进词性信息和ACBi LSTM的短文本分类模型,本文使用复旦大学搜集公开的文本分类数据、搜狗实验室提供的Sougou新闻语料库、清华NLP小组提供的新浪新闻文本分类数据集的子集作为数据集。通过实验对比,本文提出的模型能够有效提高准确率和F1值,在一定程度上优化了短文本特征表达,具有一定的理论意义和应用价值。
其他文献
网络泡沫化之前,已故的台湾英业达集团副总裁温世仁先生就曾经成立明日工作室,积极向作家签购作品的数字版权,其愿景是发展数字阅读。但随着网络泡沫化,出版数字化开始搁浅。近来,数字出版似乎又有卷土重来的趋势。  从事内容数字版权收购的华艺数位与联合线上udn数位阅读网大张旗鼓地同出版社、作家、报刊杂志签订内容数字版权。  电子书方面有亚马逊、Book11等业者研发出比过去更成熟且功能更强大的载体,积极抢
随着经济全球化发展趋势的增强,产品质量已然成为市场竞争的主角。对于一个企业而言产品质量不仅意味着企业的核心竞争力同时也代表了企业发展的潜力。由于市场竞争的不断增
一语对二语韵律影响的研究揭示了一语对二语的语调、重音、节奏等语言韵律诸方面的产出和感知均有影响,其中小部分研究揭示了一语对二语韵律影响的程度差异与被试二语水平相
X射线荧光光谱法是一种常见的元素分析方法,广泛的应用于地质、石油化工、冶金等领域。近年来,随着科学技术的不断发展,生命科学、材料科学等领域所产出的一些单价高且产量少
随着能源危机、环境污染、温室效应等问题的日益严重,发展可再生清洁能源迫在眉睫。氢能是一种无污染可再生的能源,具有高能量密度(120~140 MJ·kg-1)、环境友好、储量丰富、
文章给出在模糊环境下求解带有平衡条件的投资项目评估与选择问题的数学模型.用模糊数来描述决策人对项目的主观评价以及多个评价因素的综合,用模糊整数规划模型描述了各种不