基于BERT-RCNN的中文违规评论识别研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:luckchenhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以网络暴力为主的恶意攻击行为已经导致多起恶性事件发生,违规评论问题引起了社会广泛关注.当前违规评论检测手段主要是依靠敏感词屏蔽的方式,这种方式无法有效识别不含低俗用语的恶意评论.该文通过爬虫及人工标注的方式建立一个中文违规评论数据集,采用BERT预训练模型进行词嵌入操作,以保留文本隐含的语义信息.在BERT基础上再利用结合注意力机制的RCNN进一步提取评论的上下文特征,并加入多任务学习联合训练提升模型分类精度及泛化能力.该模型不再完全依赖敏感词库.实验结果表明,该文提出的模型相比传统模型可以更好地理解语义信息,利于发现潜在恶意.该文模型在识别中文违规评论数据集时精确率达到了 94.24%,比传统TextRNN高8.42%,比结合注意力机制的TextRNN高6.92%.
其他文献
抽象语义表示(Abstract Meaning Representation,AMR)是一种句子语义表示方法,能够将句子的语义表示为一个单根有向无环图.随着中文AMR语料库规模的扩大,解析系统的研究也相继展开,将句子自动解析为中文AMR.然而,现有的AMR解析评测方法并不能处理中文AMR的重要组成部分——概念对齐和关系对齐信息,尤其是关系对齐中对应到有向弧上的虚词信息.因此,为了弥补中文AMR解析评测在这两个方面上的空缺,该文在Smatch指标的基础上加入了描写概念对齐和关系对齐的三元组,得到用以评测中文
汉语学习者依存句法树库为非母语者语料提供依存句法分析,对第二语言教学与研究,以及面向第二语言的句法分析、语法改错等相关研究有重要意义.然而,现有的汉语学习者依存句法树库数量较少,且在标注方面仍存在一些问题.为此,该文提出一个依存句法标注规范,搭建在线标注平台,并开展汉语学习者依存句法标注.该文重点介绍了数据选取、标注流程等问题,并对标注结果进行质量分析,以探索二语偏误对标注质量与句法分析的影响.
云计算能够有效解决传统IT架构与部署模式下城市轨道交通系统存在的问题,达到软硬件资源共享与按需调配的目的.文章主要内容通过探讨云平台在城市轨道交通中的使用环境,分析了城市轨道交通融合云平台的建设方案,为推进我国城轨行业实现信息化建设发展提供部分参考价值.
申请公布号:CN 113558346 Arn一种透气鞋底,解决现有技术存在的透气效果不佳,复杂的管孔布设易堵塞破损,制造成本高,舒适感和耐用性差的问题.包括上侧设置有透气鞋上底的透气鞋中底,其特征在于:透气鞋中底下侧设置有耐磨鞋下底;透气鞋中底的前脚掌端内部设置有过渡气囊腔,过渡气囊腔上侧设置有脚掌前部进气孔;过渡气囊腔两侧分别设置有扁平单向阀,扁平单向阀端部与前掌部侧帮排气孔相连;透气鞋中底的后脚跟端内部设置有柱状单向阀,柱状单向阀两端分别与脚掌后跟部进气孔和后跟部侧帮排气孔相连.其设计合理,结构紧凑,
期刊
关系抽取旨在从未经标注的自由文本中抽取实体间的关系.然而,现有的方法大都孤立地预测每一个关系而未考虑关系标签相互之间的丰富语义关联.该文提出了一种融合预训练语言模型和标签依赖知识的关系抽取模型.该模型通过预训练模型BERT编码得到句子和两个目标实体的语义信息,使用图卷积网络建模关系标签之间的依赖图,并结合上述信息指导最终的关系分类.实验结果显示,该文方法性能相较于基线方法得到了显著提高.
近些年来,胶囊神经网络(Capsnets)由于拥有强大的文本特征学习能力而被应用到文本分类任务中.目前的研究工作大都将提取到的文本多元语法特征视为同等重要,而忽略了单词所对应的各个多元语法特征的重要程度由具体上下文决定的这一事实,这将直接影响到模型对整个文本的语义理解.针对上述问题,该文提出了多尺度特征部分连接胶囊网络(MulPart-Capsnets).该方法将多尺度特征注意力融入到Capsnets中,多尺度特征注意力能够自动选择不同尺度的多元语法特征,通过对其进行加权求和,就能为每个单词精确捕捉到丰富
属性抽取是构建知识图谱的关键一环,其目的是从非结构化文本中抽取出与实体相关的属性值.该文将属性抽取转化成序列标注问题,使用远程监督方法对电商相关的多种来源文本进行自动标注,缓解商品属性抽取缺少标注数据的问题.为了对系统性能进行精准评价,构建了人工标注测试集,最终获得面向电商的多领域商品属性抽取标注数据集.基于新构建的数据集,该文进行多组实验并进行实验结果分析.特别地,基于多种预训练语言模型,进行了领域内和跨领域属性抽取.实验结果表明,预训练语言模型可以较好地提高抽取性能,其中ELECTRA在领域内属性抽取
文本摘要的一个迫切需要解决的问题是如何准确地概括文本的核心内容.目前文本摘要的主要方法是使用编码器-解码器架构,在解码过程中利用软注意力获取所需的上下文语义信息.但是,由于编码器有时候会编码过多的信息,所以生成的摘要不一定会概括源文本的核心内容.为此,该文提出一种基于双注意指针网络的文本摘要模型.首先,该模型使用了双注意指针融合网络,其中自注意机制从编码器中收集关键信息,软注意和指针网络通过上下文信息生成更连贯的核心内容.两者融合能够生成具有总结性和连贯性的摘要.其次,采用改进后的覆盖率机制来处理重复问题
序列化推荐任务根据用户历史行为序列,预测下一时刻即将交互的物品.大量研究表明:预测物品对用户历史行为序列的依赖是多层次的.已有的多尺度方法是针对隐式表示空间的启发式设计,不能显式地推断层次结构.为此,该文提出动态层次Transformer,来同时学习多尺度隐式表示与显式层次树.动态层次Transformer采用多层结构,自底向上根据当前层近邻注意力机制判断需要融合的块,动态生成块掩码.多尺度层次结构中,每层的组合结构由该层的块掩码矩阵推断出,每层的隐式表示由动态块掩码与 自注意力机制融合得到.该文提出的算
针对文本信息语义、语境迁移难问题,该文提出一种基于元学习与注意力机制模型的动态卷积神经网络改进方法.首先利用文本的底层分布特征进行跨类别分类,使文本信息具有更好的迁移性;其次使用注意力机制对传统的卷积网络进行改进,以提高网络的特征提取能力,并根据原始数据集信息进行编码,生成平衡变量,降低由于数据不平衡所带来的影响;最后使用双层优化的方法使模型 自动优化其网络参数.在通用文本分类数据集THUCNews实验结果表明,该文所提出的方法,在1-shot、5-shot情况下,准确率分别提升2.27%、3.26%;在