基于语义背景知识的中文对话代词补全问题的研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yinlei102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习浪潮的不断发展,自然语言处理任务基于其多样性和灵活性的特色,许多的课题不断被提出,并通过神经网络的方法得以解决。缺失代词补全是众多任务中的一个分支,该任务目的是在句子中判断缺失代词的位置并且还原相对应的正确的代词类别,从而解决计算机理解人类语言进程中关键性语义缺失的难题。针对缺失代词补全问题,传统解决方案包含特征工程、构建条件随机场、神经网络等。在实际应用中,这些方法均无法针对缺失代词位置获取上下文句子中长依赖的文本信息。在这个背景下,我们基于对缺失代词背景语义知识的理解,提出两种不同的模型对于缺失代词上下文语义背景知识建模,并且通过注意力机制热图,对于本文模型训练的特征附加了可视化的解释。实验结果证明我们的模型在与传统模型的对比上来看表现良好。本文针对缺失代词补全问题的研究,主要工作内容列举为以下三点:(1)本文提出了基于主题模型的记忆力网络。在神经网络基础上加入无监督主题模型。主题模型可以很好地对于上下文语义信息进行概括和提取,同时主题模型基于全语料提取到的主题词也有很大概率表达了缺失代词的指示信息,充当缺失代词的指示词。本文在中文短信服务数据集上验证模型的有效性,同时将多维注意力机制的结果进行可视化和分析。(2)本文提出了融合外部知识的神经注意力模型。通过构造自上而下的“句子-词语”注意力机制,对于上下文语义信息进行不同粒度的编码,在这过程中加入常识信息。实验在三个中文对话数据集上的表现均优于传统方法;并且通过消融实验,验证了加入外部指示词信息和层级式的代词分类标准对于结果的提升;最终通过注意力热图的分布情况,验证了模型训练过程中,对于缺失代词在上下文语义信息的指示情况。(3)本文在两种模型神经网络端到端框架的基础上,找到了加入外部知识的训练方法。外部知识包含主题模型中的代词特征信息、神经注意力模型中代词指示词信息,和代词对上下文的依赖信息。
其他文献
运用灰色关联法原理,采用均方差法计算指标权重,根据近年来湖北省进行小型农田水利工程建设项目绩效评价的实际情况,建立了小型农田水利工程建设项目评价定性定量混合指标体
核心素养,是指学生应具备的、能够适应终身发展和社会发展需要的必备品格和关键能力。2017年普通高中物理课程标准明确提出物理核心素养主要由“物理观念”、“科学思维”、
非公有制经济人士是社会的重要主体,掌控着大量的经济资源,在中国特色社会主义新时代,其社会号召力及影响力日益提高,能不能引导他们在脱贫攻坚中发挥正面积极的作用,事关脱贫攻坚
主要研究进气管参数对某代表型125mL汽油机外特性的影响规律,即通过仿真建模计算选定试验组合方案,并进行试验对比,以寻求最优方案,从而达到在兼顾高速性能的基础上,提升125mL系列
“你知道这药价格是出厂价的十几倍吗”?在央视曝光部分常用药中间利润超65倍,药价虚高重新成为许多市民讨论的话题。连日来,记者调查武汉用药市场发现,不少被曝光的药品在今年湖
<正>目的:培养学生创新能力是高等教育的重要目标之一,而善提问题是学生具有创造性思维的重要表现。本研究的目的在于通过培养学生提问题习惯及能力,进而塑造学生的创造性思
会议
<正>一、中医春季饮食保健春季人体阳气顺应自然,呈现向上、向外舒发的现象。春季科学饮食调养对保持身体健康、预防疾病很有帮助。1、辛甘之品助春阳——如葱、生姜、韭菜、
会议
传统的商用锂离子电池受限于易泄露、易燃烧的有机液态电解液,无法满足于下一代锂离子电池高安全性、高能量密度的要求。全固态聚合物电解质因具有不易燃烧、无漏液风险、可以同时替代液态电解液和隔膜从而实现高能量密度等诸多优点,被广泛认为是下一代锂离子电池的关键材料。然而,全固态聚合物电解质目前存在室温离子电导率低、易结晶、机械强度差等诸多问题,严重阻碍了其实际应用。为了解决上述问题,本文通过紫外光交联制备了
【编者按】补偿机制是公立医院改革的关键环节,影响到公立医院改革的成败。国家中医药管理局“中医药法制建设项目”课题《公立中医医院补偿机制研究》课题组针对与公立中医医
如何保证深化医药卫生体制改革的各项政策措施落实到位?近期和远期的改革目标如以实现?这是医改方案公布后最重要的新问题。在中国当前的政治和社会条件,宜将“国家建立基本医疗