基于序列模型的单文档标题生成研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:chunyi19871225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文单文档摘要是把一篇文档压缩成一个更短描述的过程。随着互联网数据量的增长,文档压缩技术对文本分析、数据浏览等有着重大的应用价值。但在基于序列模型的单文档单句摘要生成即标题生成领域中仍然存在数据使用率不高的问题。该文提出基于关键信息指导的标题生成算法。算法中的关键信息除了主流方法中使用的新闻首段句子之外,还包括新闻后续内容中有实质信息的句子,以及新闻中的重点词语。该算法将这些关键信息作为序列模型的输入,指导其生成标题,使得生成的标题能够覆盖更多的新闻信息。实验表明,在基于序列模型生成标题时,使用关键信息能
其他文献
词汇增长研究能够分析文本的TTR在不同时期的变化,该文选取1954—2018年的中国政府工作报告为语料,分析文本中词例与词种的曲线变化,挖掘政府工作报告中的词汇丰富度与政策的
"第二十届中国计算语言学大会"CCL 2021(The Twentieth China National Conference on Computational Linguistics)将于2021年8月13-15日在呼和浩特市举行,会议由内蒙古大学
《现代自然语言生成》系统地总结了以神经网络为代表的现代自然语言生成技术,并由浅入深地介绍了自然语言生成的基本思想、模型、算法和框架。为了让读者更全面的理解自然语
知识表示学习旨在在连续的低维向量空间中表示知识图谱的实体和关系,但是现有的表示模型大多仅利用三元组的结构信息,而忽略了具有丰富语义的实体描述信息。为此,该文提出了
双语词典是跨语言自然语言处理中一项非常重要的资源。目前提取双语词典的方法主要是基于平行语料库和基于可比语料库,但是这两种方法在提取新词或者某些技术术语时都存在双
  汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在语言生活中词语通常在搭配中发挥交际作用。因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都
为解决基于翻译机制的知识图谱补全模型在处理复杂关系时的性能局限,该文提出一种ATREC(algorithm based on transitional relation embedding via CNN)算法,将三元组的实体
近年来,多标签分类任务(MLC)受到了广泛关注。传统的情感预测被视为一种单标签的监督学习,而忽视了多种情感可能在同一实例中共存的问题。以往的多标签情感预测方法没有同时
近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致GPU的并行计算能力无法被充分利用。普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,
抑郁症日益成为影响现代人生活幸福程度的重要因素。实时有效地识别用户情绪的方法对于抑郁症潜在患者的发现和治疗十分有意义。用户情绪的状态及变化会体现在其生活日志数据