论文部分内容阅读
随着信息时代的来临,大数据时代的急速发展,文字信息越来越丰富,冗余信息也随之增多,如何获取有价值的信息,提高获得信息的效率,是非常重要的问题,因此对这些文本进行分类就变得不可或缺了起来,其中文本分类包括情感分析,标签分类等,新闻文本分类也是很重要的一环。近年来,国内外学者先后研究了RNN、CNN、Transformer框架下的自然语言处理任务,发现了RNN并行能力差,严重依赖序列顺序,而CNN针对长文本分类又特别依赖叠加的卷积层,而过深的卷积层会导致深层网络参数优化不足这个问题。而Transformer内部构件多,以self-attention机制作为文本内容的特征抽取器,对比于CNN和RNN来说是不同的。本文基于以上背景,针对新闻文本数据集,主要进行了以下工作:比较了三者框架下的差距,对新闻文本的数据集以召回率、精确率、F1值作为评价指标,研究了流行的六种框架,通过新闻文本数据集的对比实验,得到了它们之间的优劣,首先FastText、TextCNN和DPCNN的对比,并对其中的DPCNN做出了改进,得到了km-DPCNN模型,F1值在92.3%,可以解决卷积进一步加深的问题,这个F1值比原始DPCNN高了1.18%,因为TextRNN有着天然的序列优势,适合捕获长语言序列,而TextRCNN可以通过改进,将LSTM网络改为GRU网络,这样针对性的加强长序列的优势,并和正序向量以及反序向量相结合,进一步提高准确率,TextGCNN的F1值为91.86%,比TextRNN和TextRCNN分别高出了0.88%和0.36%,比在模型的对比中,其中最突出的是基于Transformer的BERT模型有94.47%的准确率,这是谷歌公司通过大量语料,训练得到的110M大小的参数模型,这是它准确率高的原因之一,并从语言抽取能力角度考虑它们的实际点,接着再通过计算它们之间的相同比例数值,判断能够进行模型融合,最后通过实验探究了带权重投票法机制下的模型融合,得到了95.07%的准确率,从结果中也说明了模型融合的有效性。文章在最后实际的新闻文本分类根据需求,说明了文本分类系统的设计与实现,为未来的新闻推荐工作打下了基础,设计了数据采集模块,数据处理模块,数据存储模块和数据分类模块,并设计了相应的图形界面进行实现。