结合深度学习和语言难度特征的句子可读性计算方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:ash0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了可读性语料库构建的改进方法,基于该方法,构建了规模更大的汉语句子可读性语料库.该语料库在句子绝对难度评估任务上的准确率达到78.69%,相对前人工作提升了15%以上,证明了改进方法的有效性.同时,将深度学习方法应用于汉语可读性评估,探究了不同深度学习方法自动捕获难度特征的能力,并进一步探究了向深度学习特征中融入不同层面的语言难度特征对模型整体性能的影响.实验结果表明,不同深度学习模型捕获难度特征的能力不尽相同,语言难度特征可以不同程度地提高可读性评估模型的难度表征能力.
其他文献
近些年来,胶囊神经网络(Capsnets)由于拥有强大的文本特征学习能力而被应用到文本分类任务中.目前的研究工作大都将提取到的文本多元语法特征视为同等重要,而忽略了单词所对应的各个多元语法特征的重要程度由具体上下文决定的这一事实,这将直接影响到模型对整个文本的语义理解.针对上述问题,该文提出了多尺度特征部分连接胶囊网络(MulPart-Capsnets).该方法将多尺度特征注意力融入到Capsnets中,多尺度特征注意力能够自动选择不同尺度的多元语法特征,通过对其进行加权求和,就能为每个单词精确捕捉到丰富
属性抽取是构建知识图谱的关键一环,其目的是从非结构化文本中抽取出与实体相关的属性值.该文将属性抽取转化成序列标注问题,使用远程监督方法对电商相关的多种来源文本进行自动标注,缓解商品属性抽取缺少标注数据的问题.为了对系统性能进行精准评价,构建了人工标注测试集,最终获得面向电商的多领域商品属性抽取标注数据集.基于新构建的数据集,该文进行多组实验并进行实验结果分析.特别地,基于多种预训练语言模型,进行了领域内和跨领域属性抽取.实验结果表明,预训练语言模型可以较好地提高抽取性能,其中ELECTRA在领域内属性抽取
文本摘要的一个迫切需要解决的问题是如何准确地概括文本的核心内容.目前文本摘要的主要方法是使用编码器-解码器架构,在解码过程中利用软注意力获取所需的上下文语义信息.但是,由于编码器有时候会编码过多的信息,所以生成的摘要不一定会概括源文本的核心内容.为此,该文提出一种基于双注意指针网络的文本摘要模型.首先,该模型使用了双注意指针融合网络,其中自注意机制从编码器中收集关键信息,软注意和指针网络通过上下文信息生成更连贯的核心内容.两者融合能够生成具有总结性和连贯性的摘要.其次,采用改进后的覆盖率机制来处理重复问题
序列化推荐任务根据用户历史行为序列,预测下一时刻即将交互的物品.大量研究表明:预测物品对用户历史行为序列的依赖是多层次的.已有的多尺度方法是针对隐式表示空间的启发式设计,不能显式地推断层次结构.为此,该文提出动态层次Transformer,来同时学习多尺度隐式表示与显式层次树.动态层次Transformer采用多层结构,自底向上根据当前层近邻注意力机制判断需要融合的块,动态生成块掩码.多尺度层次结构中,每层的组合结构由该层的块掩码矩阵推断出,每层的隐式表示由动态块掩码与 自注意力机制融合得到.该文提出的算
针对文本信息语义、语境迁移难问题,该文提出一种基于元学习与注意力机制模型的动态卷积神经网络改进方法.首先利用文本的底层分布特征进行跨类别分类,使文本信息具有更好的迁移性;其次使用注意力机制对传统的卷积网络进行改进,以提高网络的特征提取能力,并根据原始数据集信息进行编码,生成平衡变量,降低由于数据不平衡所带来的影响;最后使用双层优化的方法使模型 自动优化其网络参数.在通用文本分类数据集THUCNews实验结果表明,该文所提出的方法,在1-shot、5-shot情况下,准确率分别提升2.27%、3.26%;在
以网络暴力为主的恶意攻击行为已经导致多起恶性事件发生,违规评论问题引起了社会广泛关注.当前违规评论检测手段主要是依靠敏感词屏蔽的方式,这种方式无法有效识别不含低俗用语的恶意评论.该文通过爬虫及人工标注的方式建立一个中文违规评论数据集,采用BERT预训练模型进行词嵌入操作,以保留文本隐含的语义信息.在BERT基础上再利用结合注意力机制的RCNN进一步提取评论的上下文特征,并加入多任务学习联合训练提升模型分类精度及泛化能力.该模型不再完全依赖敏感词库.实验结果表明,该文提出的模型相比传统模型可以更好地理解语义
近年来,尽管深度学习给语义依存分析带来了长足的进步,但由于语义依存分析数据标注代价非常高昂,并且在单领域上性能较好的依存分析器迁移到其他领域时,其性能会大幅度下降.因此为了使其走向实用,就必须解决领域适应问题.该文提出一个新的基于对抗学习的领域适应依存分析模型,该模型基于对抗学习的共享双编码器结构,并引入领域私有辅助任务和正交约束,同时也探究了多种预训练模型在跨领域依存分析任务上的效果和性能.
近年来,发音属性常常被用于计算机辅助发音训练系统(CAPT)中.该文针对使用发音属性的一些难点,提出了 一种建模细颗粒度发音属性(FSA)的方法,并在跨语言属性识别、发音偏误检测中进行测试.最终,得到了最优平均识别准确率约为95%的属性检测器组;在两个二语测试集上的偏误检测表明,相比基线,基于FSA的方法均获得了超过1%的性能提升.此外,还根据发音属性的跨语言特性设置了对照实验,并在上述任务中测试和分析.
儿童健康及疾病诊疗是家庭及社会聚焦的热点,提供准确、有效的信息咨询也是家长和社会的迫切需求.该文以中文医学知识图谱和医学文本为数据来源,以儿科疾病和保健知识为切入点,对多知识来源的自动问答系统进行了研究.系统采用AC自动机(Aho-Corasick automaton)和正则表达式,融合句法结构及关键词特征,对用户输入问题与模板进行匹配,根据模板生成对应的Cypher语句对儿科医学知识图谱及医学文本进行查询和检索,并生成备选答案.采用融合数据来源权威性及匹配度的评分机制对产生的备选答案进行评分,根据评分向
连动句是具备连动结构的句子,是汉语中一种特殊的句法结构,在现代汉语中十分常见且使用频繁.连动句语法结构和语义关系都很复杂,在识别中存在许多问题,对此该文针对连动句的识别问题进行了研究,提出了一种基于神经网络的连动句识别方法.该方法分两步:第一步,运用简单的规则对语料进行预处理;第二步,利用文本分类的思想,使用BERT编码,利用多层CNN与BiLSTM模型联合提取特征进行分类,进而完成连动句识别任务.在人工标注的语料上进行实验,实验结果达到92.71%的准确率,F1值为87.41%.