【摘 要】
:
作为自然语言处理的一个研究分支,机器阅读理解近年来不断受到研究者的关注。随着旧的测评数据集不断被攻克,阅读理解领域涌现了大量优质的数据集,并且,深度学习的不断发展帮
论文部分内容阅读
作为自然语言处理的一个研究分支,机器阅读理解近年来不断受到研究者的关注。随着旧的测评数据集不断被攻克,阅读理解领域涌现了大量优质的数据集,并且,深度学习的不断发展帮助研究者们提出了越来越多优秀的阅读理解模型。尽管如此,当前机器阅读理解领域仍然存在一些问题:(1)针对不同类型数据对各模型有何影响、各数据类型下哪个模型效果最佳等问题,相关研究较少;(2)阅读理解领域缺少对数据集整合的研究,大多数研究要么是针对某一个数据集,要么是对几个数据集进行分别探讨,没有将多种数据集整合起来;(3)目前的阅读理解模型五花八门,但在具体的问题类型/答案类型上哪种模型效果好,并没有一个可供参考的依据,面对大量的阅读理解模型,研究者常常不知如何选择。针对以上问题,本论文主要从三个方面展开研究:(1)将SQUAD,MARCO,NewsQA,NarrativeQA四个机器阅读理解数据集整合为一个片段提取数据集,保证了文本内容的多样性,受相关文献中对机器阅读理解效果有影响的数据集分类方法的启发,把数据集按照问题类型分成8类,根据答案类型分成6类,作为本文后续的研究数据集。(2)构建了Match-LSTM、BiDAF、R-NET、Mnemonic Reader、Document Reader等多个主流机器阅读理解端到端模型,保留基准模型,并对所有基准模型结构进行了不同程度的修改,同时优化了部分基准模型:为Match-LSTM加入门机制,以提取更准确的注意力向量;为BiDAF基准模型加入高速通道网络来避免反向传播过程中的梯度消失现象。本实验共构建了32个模型,在多种类型文本上的实验结果表明,根据本文方法划分的数据集,对各机器阅读理解模型的性能有着不同程度的影响。(3)采用Web开发的方式搭建了一个机器阅读理解模型分析系统,包含阅读理解作答模块和模型分析模块:阅读理解作答模块集成了多种模型的优势,可以分析用户输入的问题类型,调用最佳模型进行作答;模型分析模块允许用户手动配置多种主流模型,系统能为用户返回该模型在不同类型数据上的性能评估。
其他文献
我国居民的食用油消费量巨大,其中花生油占有重要的地位,年产量约达到200万吨。且花生营养极高,含有大量的不饱和脂肪酸和维生素E,因此,其制品花生油广受人民的欢迎,随着人们
暗物质粒子的本质依然困扰着粒子物理学家们。关于暗物质性质的探测一直在继续。本文通过拟合射电能谱来限制暗物质粒子属性。第一章中,本章综述了暗物质存在的证据和近期暗物质间接探测的研究。第二章中,我们探讨暗物质子晕对暗物质湮灭信号的增强作用。我们通过拟合大区域范围内的M31射电数据来限制暗物质粒子属性。M31暗物质晕中包含了数目众多的子晕,子晕分布有望可观地增强暗物质湮灭信号。考虑到M31外围区域暗物质
当前,大量的天文学观测和探测实验都表明了暗物质的存在,并且暗物质占到宇宙总量的26.8%,而重子物质仅仅占4.9%。如果我们接受量子场论的基本假设,即所有物质都是由场或者粒子组成的,那么可以期望的是暗物质可以在粒子物理实验中被观测到。这样的动机使得粒子物理学家更渴望了解暗物质的粒子属性,而在理论上我们还没有给出一套非常合理的理论解释,标准模型中也没有充当冷暗物质候选者的合适粒子,所以对标准模型进行
BaO-ZnO-SiO_2系陶瓷具有较低的介电常数和介电损耗,成为毫米波器件用候选材料之一。本文选择BaO-ZnO-SiO_2三元系陶瓷为研究对象,利用X射线衍射(XRD)、拉曼光谱、扫描电镜(SEM)和网络分析仪等仪器系统地研究了陶瓷的制备工艺、相组成、显微组织和微波介电性能,并从晶体化学键参数和晶格振动出发,探讨了其微波介电性能的变化机理,最终制备出微波介电性能良好的Ba Zn_2Si_2O_
随着半导体制造工艺的不断进步和应用需求的不断提升,非制冷红外焦平面探测器技术已经朝智能化、高性能、低成本方向发展。其成本低、功耗小、质量轻、体积小等优点,使得该项技术在军民领域均取得了广泛的应用。相比其工艺水平,非制冷红外焦平面探测器计算机辅助技术发展相对滞后。尤其在探测单元微测辐射热计的设计仿真和其单元测试结合不够紧密,因此无法及时根据相关器件测试结果及时修正相应的仿真方法,从而提高设计仿真精度
回望中国市场,房地产行业作为国民经济的支柱产业,在过去的二十余年间,实现了迅猛的发展,为经济的持续增长做出了巨大贡献。与此同时,伴随着2016年底以来层层加码的房地产调控政策,房地产行业在经济新常态及结构转型的背景下也面临着重要转型期。作为资金密集型行业,房地产业对金融的依赖性较强,在保障国内经济稳定运行、推动经济转型与金融体系改革的过程中,改善房地产信贷渠道单一、发展多元化融资成为政策研究的主要
建立多元免疫分析方法对水体污染物进行监测具有重要的现实意义。本研究筛选出无相互影响的三种目标分析物,使用酶标板建立了多元检测模式;建立了纸质芯片免疫分析方法,探究
近年来,随着消费电子产业特别是智能手机的快速发展,处于消费电子上游产业的各消费电子部件供应商的业绩也水涨船高,产能整体上呈扩张态势。随着行业竞争的加剧,拥有上市公司身份的企业纷纷开始并购重组,强强联合以增强自身竞争能力,这使得行业集中度进一步得到提升。领益科技(深圳)有限公司(下文简称“领益科技”)作为全球领先的消费电子精密功能器件供应商,近年来伴随着消费电子产业的快速发展,不断扩大生产规模。然而
伴随着存储技术的发展以及信息采集的多样化,高维数据获取的成本变得越来越低。然而,高维数据除了包含重要特征,还可能包含了大量噪声以及冗余特征进而导致“维数灾难”问题。数据降维技术通过寻找高维空间的低维表示,是解决“维数灾难”最有效的手段。特征选择是重要的数据降维技术,其在不改变特征数值和单位的前提下从原始的高维空间中选择特征子集。近年来,稀疏正则技术被引入到特征选择方法中,其通过优化构建的稀疏模型进
我国经济正处在转变发展方式、优化经济结构、转换增长动力的攻关期。在传统的要素驱动模式边际效益逐步减弱的同时,以创业板上市公司为代表的新动能扮演了经济增长的生力军,推动我国经济提质增效升级。而委托代理关系的存在使得管理层和所有者出现利益相悖、目标不一等问题,处于核心地位的企业管理层便显得至关重要了。本文为了推动创业板上市公司更好更快的发展,希望设计出一个合理的薪酬契约激励管理层选择合适的财务杠杆水平