【摘 要】
:
机器阅读理解任务是一种开发域问答任务,要求机器能够在给定问题和对应文本的前提下提供答案。该任务是自然语言处理领域的关键内容,其研究方案将促进自然语言研究的发展。自然语言中存在天然的层次结构信息:词语、短语、句子、段落以及文档。当前研究表明这种层次信息可以帮助机器深入理解自然语言,但过去的工作大多关注于注意力信息、位置信息以及模型整体性能,而忽略了层次信息的作用。此外,由于机器阅读理解数据集中存在大
论文部分内容阅读
机器阅读理解任务是一种开发域问答任务,要求机器能够在给定问题和对应文本的前提下提供答案。该任务是自然语言处理领域的关键内容,其研究方案将促进自然语言研究的发展。自然语言中存在天然的层次结构信息:词语、短语、句子、段落以及文档。当前研究表明这种层次信息可以帮助机器深入理解自然语言,但过去的工作大多关注于注意力信息、位置信息以及模型整体性能,而忽略了层次信息的作用。此外,由于机器阅读理解数据集中存在大量不相关段落,对段落的过滤和选择也成为必要的研究。因此针对上述问题,本文提出了基于段落重排序框架(Passage reranking framework)和层次信息(Hierarchical information)的新模型——PH模型。PH模型包括了段落重排序框架和层次神经网络模型。在段落重排序框架内,本文提出一种基于F1、BLEU和ROUGE-L三种指标的排序方式,并且结合了一种启发式的段落处理策略来过滤不相关段落。而在层次神经网络模型中,本文提出了结合段落层次信息对词向量进行了编码,并融合了问题感知和段落感知的双向注意力表示以及混合编码表示,最后采用指针神经网络预测答案,用以解决机器阅读理解任务。其中,本文所提出的层次编码层和混合编码层分别实现了对段落层次信息的编码以及对信息的“重读”机制。层次编码层将有序神经元LSTM用于层次结构信息的提取,并使用GumbelSoftmax解决了层次信息的边界模糊问题。同时,模拟了人类对文本的“重读”现象,本文提出了混合编码层。混合编码层将独立参数编码和共享参数编码混合,实现对信息的“重读”机制。之后,融合层将注意力表示和混合编码表示进行了融合以及维度规约,再传递给指针神经网络。指针神经网络将问题相关的段落编码生成概率分布,从而获得了预测答案。实验结果表明PH模型在Du Reader 2.0数据集上获得了超过其他模型的优秀性能。相比于预训练BERT模型55.30%的ROUGE-L得分,PH模型获得了56.42%的最新性能表现,绝对的性能提升超过1%。而相比于基线模型36.54%的性能得分,PH模型在ROUGE-L上获得了19.88%的显著提升。最后,消融实验进一步验证了段落重排序框架和混合层次编码的有效性,为模型的理论和设计提供了有力的支持。
其他文献
甲烷无氧芳构化(Methane Dehydroaromatization,MDA)可以将甲烷直接转化为高附加值的芳烃与氢气,是甲烷直接转化最重要的途径之一。Mo/HZSM-5是甲烷无氧芳构化反应最常用的催化剂,由于甲烷无氧芳构化反应的高温会促使催化剂快速积炭失活,因此,如何提高Mo/HZSM-5的抗积炭性能一直是研究的重点。采用多级孔道结构ZSM-5载体替代常规微孔ZSM-5载体是提高催化剂抗积炭
装配式剪力墙结构近年来发展迅速,其中合理可靠的钢筋连接技术是保证其抗震性能的一个关键因素。冷挤压套筒连接作为一种钢筋机械连接形式,相比常用的灌浆套筒连接具有施工速度快、质量稳定等优点,但目前国内外研究较少。本文将挤压套筒用于连接装配式剪力墙水平后浇区的竖向钢筋,通过试验结合数值仿真、理论分析的方法研究其抗震性能,为挤压套筒连接装配式剪力墙的工程应用推广提供依据。主要工作如下:(1)完成了无外包混凝
粘结剂喷射增材制造(binder jetting additive manufacturing,BJAM),也被称为3DP,具有成型速度快,无需支撑,材料选择范围广以及可在室温和空气中进行等优点。但目前广泛采用的金属盐粘结剂或有机粘结剂需要在去粉前加热,降低了生产效率和尺寸精度。光固化粘结剂在紫外光照射下会发生交联反应,实现打印过程中固化。铺粉过程和粘结剂的渗透过程对光固化BJAM的打印件的尺寸精
随着轴流压气机朝着更高单级压比和更少级数的方向发展,其叶片负荷日益增大,抗干扰能力随之下降。压气机进气通道气流非均匀(进口畸变)已成为诱发其内部气流流动失稳的重要因素之一,严重限制了轴流压气机的性能。因此,研究压气机失稳检测方法,在失稳发生初期给出失稳检测信号,进一步地选取适当的控制器来避免失稳现象的发展具有重要的实际意义。针对压气机失稳数据,本文基于确定学习理论和信息熵理论进行失稳数据的非线性特
电渗析技术是一种高效、清洁、经济的膜分离技术,在水处理领域备受青睐,目前电渗析在海水脱盐、废酸回收等方面均有大规模的应用。然而,作为电渗析技术关键材料的阴离子交换膜在电渗析应用中仍受到一些性能方面的限制,例如电渗析脱盐用阴离子交换膜的离子电导率和离子选择性难以平衡、使用寿命短,电渗析酸回收用阴离子交换膜质子泄漏严重、分离效率低等。本工作针对以上问题,分别设计和制备了应用于电渗析脱盐和电渗析酸回收的
在信息化、电商化的社会背景下,高校学生成为网络购物的主力军,其“网购”行为使校园快递得到了高速发展。由于我国快递市场的集中度不高,众多快递企业的服务网点建设和服务水平仍有待提升。高校作为快递公司竞争的市场,校内快递车辆横行、快递货物随处扔、“地摊式”配送等“快递乱象”层出不穷。如今,快递企业选择与专业的第三方公司合作以降低“最后一公里”的配送成本;国家或地方政府发布了有关整合和规范校园快递的政策及
为了保证电源产品的质量可靠性,电源产品在出厂前都需要做一定时间的老化试验。电源老化试验,是指电源厂商在生产过程中,对电源产品施加额定的交流电压且带载测试,并对电源产品的相关性能指标进行监测。目前,电源生产过程中的电源老化环节,在大多数中小型生产厂家,基本都是用消耗型电阻,这不仅造成电力能源的极大浪费,还会造成过多的热量损耗,对生态环境造成严重的破坏。鉴于这种情况,本文所研究和开发的直流电源老化系统
光谱学是通过物质对光的发射与吸收所产生的特征谱线来研究物质的组成结构或者含量的一种技术手段。光谱技术对近代科学的研究有着非常显著的贡献,尤其是激光光谱学,不仅在传统的物理、化学以及材料的分析与表征等领域有着不可替代的作用,而且在当今广泛关注的环境监测、健康和医疗以及太空探索等领域也有重要应用。激光诱导击穿光谱技术(LIBS)和太赫兹时域光谱技术(THz-TDS)都由于其简单的样品处理与制作流程、应
自愈合弹性体材料因其能自行修复损伤并能近乎恢复原始性能,进而提高了材料的使用寿命,所以越来越受到科研工作者的关注。然而,弹性体材料的自愈合性与机械强度一直是两种相互制约的性能,如何使一种弹性材料在具有良好自愈合性能的条件下同时具有一定的机械强度,一直是研究者们努力攻克的难题。此外,为了材料的美观,人们通常在弹性材料制备过程中加入一些染料,从而赋予弹性材料特定的颜色。但大量化学染料的使用难免会带来环
双层钢板-混凝土组合剪力墙能够同时发挥混凝土结构抗侧刚度大、钢板延性好的优点,在高层建筑结构中具有良好的应用前景。双层钢板-混凝土组合剪力墙设计和使用的关键在于延缓双层外钢板局部屈曲的发生,以及提高墙角(包括边缘构件和中部墙体墙角)的承载与变形能力。另一方面,已有研究表明,剪力墙墙体加设钢筋或者型钢构成的斜向支撑,对抗侧力性能的提升显著。据此,本文提出一种内置型钢斜撑的双层钢板-混凝土组合剪力墙,