新闻文本分类系统的深度学习对比实验研究与系统实现

来源 :北方民族大学 | 被引量 : 1次 | 上传用户:gpi678c
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,大数据时代的急速发展,文字信息越来越丰富,冗余信息也随之增多,如何获取有价值的信息,提高获得信息的效率,是非常重要的问题,因此对这些文本进行分类就变得不可或缺了起来,其中文本分类包括情感分析,标签分类等,新闻文本分类也是很重要的一环。近年来,国内外学者先后研究了RNN、CNN、Transformer框架下的自然语言处理任务,发现了RNN并行能力差,严重依赖序列顺序,而CNN针对长文本分类又特别依赖叠加的卷积层,而过深的卷积层会导致深层网络参数优化不足这个问题。而Transformer内部构件多,以self-attention机制作为文本内容的特征抽取器,对比于CNN和RNN来说是不同的。本文基于以上背景,针对新闻文本数据集,主要进行了以下工作:比较了三者框架下的差距,对新闻文本的数据集以召回率、精确率、F1值作为评价指标,研究了流行的六种框架,通过新闻文本数据集的对比实验,得到了它们之间的优劣,首先FastText、TextCNN和DPCNN的对比,并对其中的DPCNN做出了改进,得到了km-DPCNN模型,F1值在92.3%,可以解决卷积进一步加深的问题,这个F1值比原始DPCNN高了1.18%,因为TextRNN有着天然的序列优势,适合捕获长语言序列,而TextRCNN可以通过改进,将LSTM网络改为GRU网络,这样针对性的加强长序列的优势,并和正序向量以及反序向量相结合,进一步提高准确率,TextGCNN的F1值为91.86%,比TextRNN和TextRCNN分别高出了0.88%和0.36%,比在模型的对比中,其中最突出的是基于Transformer的BERT模型有94.47%的准确率,这是谷歌公司通过大量语料,训练得到的110M大小的参数模型,这是它准确率高的原因之一,并从语言抽取能力角度考虑它们的实际点,接着再通过计算它们之间的相同比例数值,判断能够进行模型融合,最后通过实验探究了带权重投票法机制下的模型融合,得到了95.07%的准确率,从结果中也说明了模型融合的有效性。文章在最后实际的新闻文本分类根据需求,说明了文本分类系统的设计与实现,为未来的新闻推荐工作打下了基础,设计了数据采集模块,数据处理模块,数据存储模块和数据分类模块,并设计了相应的图形界面进行实现。
其他文献
汽轮机组作为发电厂的重要组成部分,如果机组振动异常,将会对汽轮发电机组轴系的正常运行造成很大的影响。以河曲电厂600MV机组#2汽轮机轴承异常振动为例,进行机组振动的测试、
随着科学技术的发展,计算机外部连接的智能设备也被广泛应用,但是,在运用计算机外部设备时,常常会出现各种各样的故障。打印机是较为常见的计算机外部连接智能设备,其故障主
对以C8051F120和μc—OSⅡ操作系统作为硬件和软件平台的全并行多项目检验仪器的开发进行了讨论,着重分析了任务的划分和独立任务运行时资源的共享情况,针对实际开发过程中应该
一、蜜蜂出没,请注意  温暖的阳光倾洒在教室的玻璃窗上,汪小乐揉了揉惺忪的睡眼,眼睛不自然地向上一瞥,恰好遇见了一抹刺眼的阳光。讲台上,班主任杨老师朗读英语课文的清脆声音传入汪小乐的耳朵里,汪小乐用手一托腮,稍稍坐正了身子。  “苏心童,你回答一下这道选择题,好吗?”杨老师让汪小乐的同桌苏心童回答问题。  “她背后有一只大蜜蜂,不信大家瞧瞧!”汪小乐突然从座位上站起来,用手指了指苏心童的后背。  
分别采用激光熔覆与火焰喷涂两种技术在38CrMoAl基体表面制备NiCrBSi+WC(wt20%)合金涂层,比较其组织结构及其硬度分布,试验表明:激光熔覆涂层无缺陷、成品率高,组织细密均匀