【摘 要】
:
信息抽取是自然语言处理的基础任务,其中关系抽取是信息抽取的关键子课题之一。以往对于关系抽取的研究主要集中于新闻、百科、论文摘要等文体相对规范的文本,而忽略了日常生活中常见的对话场景文本。与传统的关系抽取相比,对话数据具有信息密度低、跨句关系占比高、说话人敏感、人称代词丰富的特点,给面向对话的关系抽取研究带来了新的挑战。基于此,本文提出了多种面向对话文本的关系抽取模型,融合关系类别、说话人信息、人称
论文部分内容阅读
信息抽取是自然语言处理的基础任务,其中关系抽取是信息抽取的关键子课题之一。以往对于关系抽取的研究主要集中于新闻、百科、论文摘要等文体相对规范的文本,而忽略了日常生活中常见的对话场景文本。与传统的关系抽取相比,对话数据具有信息密度低、跨句关系占比高、说话人敏感、人称代词丰富的特点,给面向对话的关系抽取研究带来了新的挑战。基于此,本文提出了多种面向对话文本的关系抽取模型,融合关系类别、说话人信息、人称代词同指信息等多方面特征,辅助模型捕捉更多对话级别的信息。本文的研究内容主要包括三个方面:(1)针对对话数据信息密度低、跨句关系占比高的特点,提出了基于关系引导注意力的图卷积关系抽取模型。首先将整个对话输入上下文编码器,通过多头注意力机制评估不同单词与不同关系之间的相互影响,更新对话的上下文表示。然后将其输入到图卷积网络模型中,进行文档级推理,最后将得到的实体表示输入双线性层,得到预测的关系类别。该模型通过关系引导的注意力机制,使上下文表示融合了关系的类别特征,针对不同的关系类型,关注不同的单词。结果表明,在模型中引入关系类型特征能有效提升传统的文档级关系抽取模型的性能。(2)针对对话数据包含许多说话人信息与人称代词的特点,提出了基于说话人与同指信息特征感知的关系抽取模型。首先,该模型在上下文编码阶段引入说话人的特征表示,通过在单词表征中添加了说话人信息,使得上下文中的每个单词与对应的说话人匹配。其次,在关系预测阶段,该模型使用启发式规则与指代消解工具两种方法获取人称代词与实体提及之间的同指信息,并将同指信息融合到实体的表示中,提升实体的表征能力。结果表明,说话人与同指信息特征能够提升模型捕捉对话人特征的能力,进而提升对话文本的关系抽取效果。(3)针对对话上下文中包含说话人、同指、话语等多种信息的特点,提出了一种多类型节点的异构图模型,在特征感知的基础上,进行说话人信息、同指信息、话语信息的进一步融合。具体的,该模型在异构图推理层引入说话人节点、同指信息节点、话语节点来辅助文本的对话级推理,根据节点之间不同的逻辑关系构建八种不同类型的边,包括实体-提及边、提及-话语边、说话人-话语边、说话人-提及边、提及-最短依存路径节点边、话语-最短依存路径节点边、话语-话语边和自环边。最后,通过关系图卷积对异构图进行推理,捕获节点的特征。实验结果表明,采用异构图融合说话人信息、人称代词信息、话语信息的方法比说话人与同指信息特征感知的方法,在对话级关系抽取任务上的效果得到了进一步的提高。
其他文献
本论文主要涉及钯催化碘代联苯类化合物和四元环硅的(4+4)扩环反应。有机硅化合物广泛应用于化工领域,高效的选择性的构建碳硅键是合成新的有机硅分子的重要方法,在新药研发和材料合成中具有重要意义。我们通过钯催化,一步反应,切断碳碘键,碳氢键和碳硅键以构建新的碳碳键和碳硅键。该反应以醋酸钯为催化剂,醋酸钾为碱,无需配体参与,并以2.5 mol%的催化剂载量制得一系列硅杂联辛烯联苯类化合物。通过对反应机理
研究背景:急性心肌梗死是一种严重的缺血性心脏病,在世界范围内都有着极高的发病率和死亡率。近年来,随着介入性治疗技术和新一代溶栓剂等再灌注治疗手段的大范围、规范性应用,急性心肌梗死患者的早期死亡率大幅度下降,但心肌梗死后继发的心肌重构和心力衰竭仍严重影响患者的生活质量和生存率。因此,继续探索新的可行的防治策略以减少心肌损伤,帮助心肌梗死后的心脏修复至关重要。甲状腺激素可促进心脏损伤后的心功能恢复,然
我国青年动漫文化是我国动漫文化的具体形态之一,在个体心理、价值倾向、审美旨趣、生活行为方式等方面对青年群体产生了全方面影响,这些影响有利有弊,弊端不容忽视,亟需解决如何引导我国青年动漫文化有序健康发展这一理论与现实问题。目前,学界关于动漫文化对青少年产生的影响研究颇多,不少学者看到了动漫文化对青少年多层次、全方面的影响,然而,专门研究青年这一特定群体内部形成的动漫文化以及如何引导我国青年动漫文化的
近年来,团队建设和团队理论受到普遍关注,组织越来越倾向于运用团队来处理日益复杂多变的经营问题。在团队管理中,组织期望员工能够利用彼此的互补知识和专业技能,形成超越团队中任何个体的技能和经验,更为显著地提升团队整体的绩效水平,这使得员工也会因此产生达到高绩效水平的紧迫感,从而产生团队绩效压力。尽管现有研究指出了团队绩效压力的积极效应,但并未明确相关积极效应的具体影响机制与作用路径,且缺乏团队层面的整
本论文以中华水韭(Isoetes sinensis Palmer)为研究对象,野外实地考察了中华水韭的现存种群和绝迹种群所在地。调查研究了中华水韭栖息地的生境特征,特别是水体物理化学特性与中华水韭自然分布及其生长状况的相互关系,并探讨了引起中华水韭濒危灭绝的外部环境因素。同时,在控制条件下观察测定了相关生态因子对中华水韭景天酸代谢活性的影响。主要结论如下: 1.)中华水韭分布于长江流域中下游
在我国经济走高质量发展道路的背景下,如何准确测度经济发展质量,是社会各界共同关注的问题。现有的测量方法为建立高质量发展指标体系,而构建指标体系,需要准确反映经济高质量发展的丰富内涵。同时制度是经济增长的基本保障,判断经济高质量发展的水平不可避免要谈及制度。因此,本文立足我国制度环境,对我国经济高质量发展指标体系中的制度质量指标展开研究,并尝试构建科学完善的制度质量衡量指标,通过比较分析指标设计的合
消费是经济活动的目的和归宿,对经济增长发挥着重要作用,一直是经济学研究的重点话题。尤其在构建双循环新发展格局的大背景之下,国内消费扩容提质既能为国内大循环提供源动力,促进需求侧改革,又能通过培育和发展新需求促进外循环,形成国际国内两大循环良性互动的新格局。改革开放以来,消费对GDP的贡献率稳步提升,消费已成为拉动中国经济增长的主要动力。当前众多学者对居民家庭消费、住房消费、医疗消费等微观行为和城市
禅宗发源并兴起于中国南方地区,其语言有较强的南方口语特色。四祖道信、五祖弘忍均修道于黄梅,六祖慧能亦于黄梅拜师。黄梅古属蕲州,今亦与蕲春毗邻,禅宗文化及其语言应当对蕲春也产生了影响。而整个黄孝地区因古属吴楚交界处,今又在鄂、赣、皖交界,方言本就极具特色。所以禅宗文献中的一些方俗词也反映在蕲春方言中,可互为参证。对《祖堂集》和《景德传灯录》中的这类词语进行考释即是本文的主要工作。这些词或词组依据词类
2020年我国成功实现消除绝对贫困的目标,按照2011年确定的贫困人口脱贫标准人均年收入2300元,我国成功使得1.2亿人脱贫;832个国家贫困县及实施“整村推进”的贫困村全部达到“脱贫摘帽”要求,大幅改善了贫困人口生活条件及贫困地区的发展。展望未来,做好巩固脱贫攻坚成果,防止大规模性返贫,不断提升脱贫质量成为下一阶段扶贫工作的重点。要切实提升脱贫质量,防止返贫,做好乡村振兴,亟需构建具有可操作性
在过去的二十余年中,中国电子竞技走过了从探索、发展到爆发式增长的道路,逐步向规范化、联盟化和体育化迈进,电竞产业生态不断发展,商业化模式日趋成熟,社会认可度和政府关注度也逐步提升。2020年,中国电竞用户的规模达到5.2亿。在众多赛事之中,英雄联盟赛事是世界范围内最著名的电竞赛事之一,英雄联盟世界赛在2019年成为了全球观看时长最长的电竞赛事。赛事的发展历史较长、生态较完整且用户规模较大,因此本文