论文部分内容阅读
随着计算机技术和互联网产业的高速发展,微信、微博、Twitter和Facebook等社交平台作为互联网产品的代表日趋成熟,人们能随时随地在社交平台中分享自己的所见所感。除了一般的使用者,越来越多的自媒体和官媒体也入驻这些平台,发布消息。这些社交平台在人们的日常生活中扮演着越来越重要的角色,不但能够促进个体之间的相互交流,还可以帮助人们更快速地传播和获取新闻资讯,这种情况近些年表现得尤为明显。大量活跃用户不断地加入其中,导致社交平台中的文本数据爆炸式增长。在这些平台上每天都会产生数以亿计的短文本数据,如新闻推送、用户评论、聊天记录等,其中蕴含着大量有价值的信息,如何应用短文本分类技术挖掘出数据背后有价值的信息,具有重大的研究意义和应用价值。短文本分类最重要的是如何提取和表达短文本特征,传统的文本表达方法通常使用静态语言模型训练词向量,无法根据需要调整输入词向量。同时忽视了短文本上下文之间的联系、层级结构和词性的影响,存在特征稀疏、语义不足、维度过高等问题,导致分类效果不理想。基于此,本文针对如何更合理、有效地表达短文本特征进行研究。首先,提出基于ON-LSTM和分层注意力机制的短文本分类模型(ON-LSTM-HAN模型)。使用基于Transformer架构的BERT模型进行语料的预训练,获得语义信息,得到的词向量作为输入端的输入数据。将输入端的词向量输入到ON-LSTM模型中,通过分层结构对词向量进行层级判断,获得神经元的有序信息,得到层级词向量表达。基于单向的ON-LSTM分析层级结构,说明当前的层级分析主要依赖历史信息。因此引入历史信息贡献率来调整历史信息的影响。调整贡献率优化的词向量通过词语级和句子级的分层注意力机制,为词向量分配权重突出关键信息,获得最终的文本特征表达。其次,提出基于改进词性信息和ACBi LSTM的短文本分类模型。使用基于Transformer架构的BERT模型进行语料的预训练,获得语义信息,对Bert模型训练得到的词向量引入词性因子进行优化,将得到的具有词性信息的词向量作为输入层信息。通过卷积神经网络模型(CNN模型)的卷积层对词向量初步提取特征。再通过双向长短时记忆网络模型(BiLSTM模型)生成具有上下文时序信息的中间向量。最后结合注意力机制,突显关键信息,获得最终文本特征表达。为了验证本文提出模型的有效性,对于基于ON-LSTM和分层注意力机制的短文本分类模型,本文使用SemEval2014 Task4、SemEval2017 Task4数据集;对于基于改进词性信息和ACBi LSTM的短文本分类模型,本文使用复旦大学搜集公开的文本分类数据、搜狗实验室提供的Sougou新闻语料库、清华NLP小组提供的新浪新闻文本分类数据集的子集作为数据集。通过实验对比,本文提出的模型能够有效提高准确率和F1值,在一定程度上优化了短文本特征表达,具有一定的理论意义和应用价值。