卷积神经网络在微博反讽语句识别中的应用

来源 :中国新通信 | 被引量 : 0次 | 上传用户:wangruiqiangkang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】    随着互联网信息发布平台日益增多,网民发表情感的方式也逐渐多元化,其中反讽这一特殊修辞手法得到了广泛使用,对其的识别也变得日益迫切。为了更好的识别微博语料中的反讽语句,研究了一种改进后卷积神经网络模型。卷积神经网络是人工智能领域的一个重要组成部分,应用范围极其广泛,也是目前人工智能领域的研究重点。卷积神经网络凭借着特征自主学习的优势在自然语言处理方面有着出色的表现。通过实验,利用特征与词向量双输入的卷积神经网络模型对反讽识别准确率有了明显提升。
  【关键词】    卷积神经网络    机器学习    反讽识别
  引言:
  随着互联网信息发布平台的逐渐增加,网民的发布内容也变得多样化。其中反讽作为一种特殊的表达方式,也占有相当大的比例。反讽通常是以一种正面的文字表达不屑、嘲笑等反面的信息内容,为微博平台自身管理带来了一定的挑战。本文基于卷积神经网络模型对反讽语句的识别展开研究,为微博等互联网信息发布平台开展内容审核提供一种新的思路。
  一、技术研究路线概述
  本文的主要技术路线如图1所示,首先是对实验数据的收集。该部分主要是对微博的数据进行爬取,过滤,清洗、标注形成初步的实验数据集。
  其次对实验数据进行特征提取。特征主要包含两方面,一是通过人工提取的方式,找到反讽语句共通的特征。例如:很好又要加班了,该句中的“很好……又”,就可以作为一种特征。二是通过卷积神经网络模型中独特的卷积层和池化层,自主提取特征。
  然后使用词向量与特征共同融入至卷积神经网络模型。实现反讽特征、词向量的双输入,提高卷积神经网络反讽识别的准确性。
  最后将经过改善的卷积神经网络模型与传统机器模型进行对比,并通过人工方式验证识别效果,并持续对模型进行优化,持续提高模型的反讽文本识别准确率。
  二、数据集建立与特征选择
  2.1 实验数据集建立
  为了更好的进行卷积神经网络模型的训练,提高准确性,本研究明确了采用监督学习的方式。监督学习需要对训练样本进行标注,反讽的标注过程,主要是将反讽看做二分类,若为反讽则标注为1,否则标注为0。在标注的同时对不符合要求的数据进行清洗、扩充、去噪等处理。另外为了保证标注结果的准确性,减少人工判定的偏差。在标注完成后,又采用交叉检验的方式,最终得到标注后的反讽语句共2888条,为了防止实验数据集类别倾斜,影响分类的性能,需要把数据类别平衡化,又从非反讽中任意抽取了2888条语料,使得中文反讽数据集最终由反讽与非反讽各2888条语料,共5776条语料构成了反讽平衡语料库。
  2.2 特征选择
  反讽语言特征的选择好坏与最终识别结果有着紧密的联系,为了提取最佳的语言特征,本研究利用在文本检测方面有着较大优势的卡方统计法。卡方统计法首先假设特征和类别之间是相互独立的,主要通过计算偏差来判断相关性。当卡方值较小时,说明二者相关性不大;当卡方统计值较大时,说明选取的特征和类别相关性较高,可以作为该类别的特征。
  反讽特征词汇的选择:
  通过计算卡方值,人工提取了緊密度较高的反讽词汇,如绝了、果然、就这、极好、不愧、牛逼、真有你的、你敢信、真是高啊等。
  三、融合反讽特征的卷积神经网络
  3.1 词嵌入向量
  词向量技术是将自然语言中的词语转化为稠密的向量,相似的词会有相似的向量表示,这样的转化方便挖掘文字中词语和句子之间的特征。生成词向量的方法从一开始基于统计学的方法到基于不同结构的神经网络的语言模型方法。到现在为止已经有很多成熟的词向量模型,本研究中采用的是TF-IDF模型来进行词向量的训练。
  TF-IDF模型是一种统计方法,用来衡量字词对于文本的重要程度。字词的重要性随着它在当前文本中出现的频率成正比,随着它在语料库中其他文本中出现的频率成反比,因此TD-IDF也经常被用来提取文本的特征。该模型的计算公式如下:
  在实验中只要设置合适语料,就可以训练出高质量的词向量。
  3.2 融合反讽特征与词向量技术的卷积神经网络模型
  为了更好的提高反讽的识别精度,本研究采用词向量与反讽特征双输入的卷积神经网络模型进行训练。具体流程:首先输入语料,使用特征对语料进行扩展,再统一进行分词。之后使用词向量模型对扩展分词后的进行使用词向量对融合特征的句子形成矩阵。最后将矩阵输入至卷积神经网络模型,经过卷积层、池化层自动提取特征向量,并在全连接层进行拟合,最后在输出层分类器sigmoid分类器进行输出。
  3.2.1输入层
  由于我们要进行识别的是反讽语句,要想使用卷积层、池化层进行特征的进一步提取就需要把语句转化为矩阵的形式。我们实验集的语句经过词向量的训练后,已经形成矩阵。
  首先使用分词工具对句子进行分词,假设一个句子为“醉了,当着这么多人也不脸红,是真够厉害的”使用分词工具进行分词后得到的为“醉 了 , 当着 这么 多人 也 不 脸红 , 是 真够 厉害 的”。
  3.2.2卷积层
  卷积层的作用主要是用于特征的提取。和之前的人工特征提取不同,此处的特征提取是模型随着训练次数的增多自主提取的。考虑到本课题是对文本的识别,卷积神经网络的过滤器只能在矩阵的列上移动才能正确的识别出特征。
  3.3 具体实验过程与结果分析
  为了进一步验证融合特征与词向量的卷积神经网络在反讽识别上的优势,采用keras 深度学习的框架,在GT740显卡上展开了实验。
  3.3.1评价指标
  本课题采用的是精确率、召回率、F值三个指标作为实验结果的评判指标。其中主要是以准确率作为重要的整体评价指标。
  3.3.2参数设置
  本课题反讽语料库中20%用来做测试集。实验中卷积神经网络的卷积层的过滤器设置大小为[3,4,5]训练迭代次数为20次,batch size是32,dropout率设为0.5.
  3.3.3实验结果
  按照约定的把反讽语料数据划分成了4:1的形式。实验主要过程是对比融合反讽特征以及词向量后的卷积神经网络与融合反讽特征以及词向量后词袋模型在反讽识别上的主要差别。其中词袋模型采用支持向量机(svm),朴素贝叶斯(NB)和随机森林(rf)三种方法。
  融合反讽特征与没有融合词袋模型的训练结果对比如下所示:
  由此可见,融合了反讽特征后的,传统的机器模型识别精确度都有所提升。可见融入反讽特征在对反讽识别上具有一定的积极作用。
  将融合反讽特征以及词向量技术的卷积神经网络与融合反讽特征以及词向量技术的传统模型进行对比,实验结果如下:
  由此可见卷积神经网络在反讽识别上相比较传统的机器学习模型的确优势较为明显。
  四、结束语
  针对微博反讽语句识别,本文提出了一种融合反讽特征的深度学习的模型。该方法首先对微博的反讽语料数据进行预处理,人工提取反讽语料中出现频率较多的特征词,之后采用分词工具对语句、特征进行分词,再用词向量进行训练,转换成矩阵模块,最后再采用与卷积神经网络模型上进行训练与对比,得到最终实验结果相比较与传统的分类器精确率有明显提高,进一步验证深度学习在反讽识别方面具有显著优势。
  参  考  文  献
  [1]卢欣. 基于深度学习的中文反讽识别及其情感判别研究[D].  山西大学, 2019.
  [2] 罗婷.  社交网络评论中的反语识别研究[D].  云南:云南财经大学, 2017.
  [3] 罗观柱.  面向社交媒体的反讽识别[D].  哈尔滨工业大学, 2019.
其他文献
【摘要】 本文基于Windchill平台,开发产品数据发放接收管理功能,在设计所发放数据、制造厂反馈导入结果均采用WebService调用接口的方式,数据包导入过程使用Windchill的导入API与定制开发相结合的方式,进行设计数据的接收。实现厂所异地产品数据发放与接收全过程管理,保障设计数据接收的及时性与完整性。  【关键词】 产品数据管理 PDM 数据接收  一、厂所异地产品设计数据
【摘要】 100G波分技术作为现阶段较为成熟的传输技术机制,其促进了通信网络传输距离的延长与运营成本的降低,对于城域网的构建有着极大的推进作用。为加速100G波分技术的应用进程,实现现代化城域网的合理建设,文章从多个角度出发,在掌握100G波分技术优势的前提下,深入探讨100G波分技术在城域网中的应用策略,旨在形成完备的技术应用方案,为后续城域网的升级提供了技术支撑。  【关键词】 城域网
【摘要】 随着经济、科技的不断发展、信息技术取得了快速进步,计算机电子工程在日常生产和日常生活中应用更加频繁和全面,它不断深入到人们生产生活的每一个阶段。例如,电子技术的传播有效地促进了我国社会各阶层的发展。在医疗管理中的应用使管理更加标准化,统计报告自动化,提高了管理水平。本文对计算机电子工程技术的有效运用和发展进行研究分析,希望為我国计算机技术的发展作出贡献。  【关键词】 计算机 电子
【摘要】 电学计量容易在多种因素的影响下出现误差,严重时会引起系统误差,导致各类数据的真实性无法得到保证。因此,在电学计量过程中,技术人员需要分析误差成因,并利用不确定度理论消除误差。本文以电学计量的误差分析及不确定度理论研究为题,在归纳和总结电学计量误差产生原因的基础上,介绍不确定度理论在电学仪器计量校准中的应用特点和适用性,希望为相关行业提供借鉴。  【关键词】 电学计量 误差分析 不
离子推力器的非预期电击穿现象直接影响其工程应用的工作可靠性,基于地面寿命试验中比较完整的非预期电击穿事件基础数据,采用基础数据对比分析、威布尔模型统计分析、因果关联推断与分析等方法,对LIPS-200离子推力器在地面12000 h寿命试验中的非预期电击穿现象进行了初步研究,获得了平均击穿频次、击穿事件的时间分布、分类统计击穿周期的威布尔分布等量化结果。分析表明,地面试验中LIPS-200平均击穿频次明显低于NSTAR等产品的主要原因是LIPS-200具有较低的栅间电场强度;其击穿事件具有明显的累计工作时间
【摘要】 随着我国科学技术的发展和进步,也让无人机得到了飞速的发展,并被广泛的应用在军事和民事领域中。说到无人机,相信很多人都不陌生,但是对无人机的正确概念、应用技术领域以及发展前景却都不是很理解,所以本文就针对无人机的应用以及涉及到的技术领域展开了分析,相信无人机在我国的发展也会越来越长远。  【关键词】 无人机 应用领域 问题 技术领域  近些年来,无人机的应用得到了非常快速的发展,
【摘要】 网络性能测试中需要构造多种数据发向被测设备,目前已有的测试方法大多使用固定的流量模型和固定变化模式,无法真实反映网络负载的特征。本文提出一种结合Sketch计数和数据流元数据压缩复原的网络测试数据生成方法,其中Sketch用来学习网络中真实的数据流分布情况,元数据则采用压缩的方式保存负载特征,在测试时将被压缩的元数据恢复成测试数据并按Sketch统计值发送,从而以更加真实的仿真数据流完
为了更准确的对图像中的目标物体进行识别,科学家研发了目标检测技术,其是计算机视觉的重要组成。最近几年深度学习越来越普及,基于深度学习的目标检测技术具有更高的准确率和检测效率,可以应用在很多领域,然而应用过程中还存在一些影响深度学习目标检测的发展的问题急需解决,基于此,本文对目标检测概念进行了简单介绍,并对深度学习目标检测算法进行了归纳总结,对深度学习目标检测中存在的问题和未来发展进行了探究,希望可
【摘要】 本文通过重大突发事件下高校网络舆情传播特点的分析,探讨了在全媒体时代如何应对网络舆情的传播,运用议程设置理论对新媒体环境下的网络舆情传播进行分析,并明确提出应对措施:一是及时准确发声,提升网络舆情引导能力;二是提高管理者媒介素养;三是建立高度预警机制;四是强化信息发布平台的日常管理工作。  【关键词】 突发事件 网络舆情 议程设置  引言:  近年来,习近平总书记提出各级领导干部
【摘要】 在铁路通信工程当中,应用多网融合技术可以进一步提高铁路数据通信网以及综合计算机网的使用效率和效果,同时也可以使得铁路调度指挥信息管理系统的网络传输质量和效率得到全面的提高,整个系统和网络的可靠性以及业务承载能力得到有效的增强,这种可以满足各个路段的使用需求,确保我国铁路通信工程处在高质量的发展阶段当中。目前多网融合技术在我国铁路通信工程当中应用时,还存在一些问题,这些问题制约了整体的发