基于句向量的多轮检索机器阅读理解模型研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tonytanli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的发展,互联网已经累计了海量的文本数据。如何准确获取自己想要的信息一直是人们所关心的问题。以关键字匹配为基础的搜索引擎对自然语言提问没有完全的理解能力,无法理解用户检索问题的实质和关键内容。机器阅读理解是问答系统、语义搜索需要解决的核心问题,并逐渐成为最近的研究热点。本文在进行机器阅读理解相关研究时发现,现有模型无法利用与问题存在间接关系的文本信息。当文本较长、文本和问题较为复杂时,模型无法轻易跳过不相关文本。
  本文深入调研了国内外在机器阅读理解方面的研究,并通过几个经典的模型对现有模型的缺陷进行分析。在多轮推理方式的启发下,本文提出了多轮检索(Multi-turn Retrieval,MTR)模型。MTR模型会反复阅读文章,并使用基于句向量的检索算法在每轮阅读中检索出与问题相关的句子,然后利用注意力机制将检索得到的句子信息嵌入到问题向量中,最后利用包含文本信息的问题向量继续这一过程。检索结束时我们将得到一个与问题相关的句子集合,模型会利用这个句子集合来预测答案。本文提出的MTR模型在检索时同时考虑了问题和文本之间的直接关系和间接关系,并且MTR模型没有使用整个文章来预测答案而只是使用了检索得到的句子集合。本文提出的MTR模型可以解决更为复杂的问题。
  为了验证模型的效果,本文在HotpotQA和SQuAD-Open两个公开数据集上进行了实验。我们将MTR模型与其他学者的模型进行了对比。实验结果表明,在SQuAD-Open数据集上MTR模型在F1和EM两个指标上达到了最优,在HotpotQA数据集上MTR模型虽然在答案范围预测指标上弱于现有最好模型,但是在答案预测的可解释性指标上达到了最优。这表明了本文提出的模型可以较好的解决现有模型遇到的上述问题。为了进一步验证本文提出的检索方法的合理性和效果,我们还设置了两个补充实验和一个在抽样数据上的验证实验,实验结果也证实了本文的方法的有效性。
其他文献
人群密度计数(Crowd Counting)的目的对监控场景中的人群进行数量的预测,同时生成人群密度图来反应当前场景中的人群分布。作为人群管理的第一个也是最重要的部分,自动人群计数可以监视区域的人群密度,并在密度超过指定阈值时提醒管理员进行安全控制。由于近年来世界人口的指数增长导致城市中心化,集体活动愈发频繁,在如此大的人口聚集与流动下,人群计数与分析就显得尤为重要。跟其他计算机视觉的任务一样,人群密度计数面临着诸多的挑战,包括:密集人群相互的严重遮挡,复杂背景的干扰,人群不均匀的分布,场景内与场景外的外
2012年9月27日,建行福建省分行与省经贸委、省企联签署《福建省小微企业助保金贷款业务合作协议》,在全国率先开展与省级政府层面合作的小微企业助保金贷款。省财政出资2000万元设立“助保贷”政府风险补偿资金,合作建立小微企业贷款风险池。  在省政府“助保贷”业务平台的带动之下,建阳、政和、古田、南平、福清、宁德、石狮、尤溪、三明、莆田城厢区等10个地市(县)政府也纷纷与当地建行分支行开展“助保贷”
期刊
在人群计数领域,基于卷积神经网络的深度特征取得了卓越的计数性能,几乎所有最新的人群计数算法都采用基于密度图的回归方法实现人群计数,它保留了人群的空间分布信息,直观地提供了不同区域的人群密度状况。在真实的人群场景中,如果想准确计数,需要解决大量的挑战,包括视角效应导致的尺度变化、不均匀的人群分布和场景各目标间复杂的关系。然而,已有方法要么无法有效地提取多尺度人群特征,要么仅依靠一阶注意力机制(例如二维的基于位置导向的注意力),而完全忽略了拥挤场景中的高阶统计信息。
  为了解决以上问题,本文首先提出了
为了克服无线功率传输(wireless power transfer,WPT)产生的“双远近效应”的影响,满足远距离用户设备(user equipments, UEs )基本的服务质量(quality-of-service, QoS)需求,本文研究了无线蜂窝网络中设备到设备(diveice to device, D2D)辅助上行非正交多址接入技术(non-orthogonal multiple access, NOMA)通信系统的节能资源分配。其中所有上行链路UEs都是通过WPT从基站(base stat
供给表现来看,去库存速度加速一线城市土地市场独秀风骚。全国商品房屋待售面积整体依旧处于历史高位,但销售“旺季”的到来,使得全国去库存速度的进一步加快。  九月伊始,融创以7.3万元/平方米刷新北京及全国单价地王纪录,随后又得天津地王;新鸿基217.7亿刷新上海总价地王记录。杭州华家池地块及苏州金鸡湖地块也分别总价和楼面单价创出当地新高。  从土地市场过往经验看,下半年进入供地增长期,土地投资活跃。
期刊
他手上的基金是有史以来最赚钱的,是什么造就了这位传奇的基金经理?答案很简单,勤奋。  彼得·林奇——历史上最伟大的投资人之一,被美国基金评级公司评为“历史上最传奇的基金经理人”。他对共同基金的贡献,就像乔丹之于篮球,伊莎多拉·邓肯之于现代舞蹈。  他不是人们日常认识中的那种脑满肠肥的商人,他把整个投资提升到一个新的境界,他让投资变成了一种艺术,而且紧紧地抓住每一个投资人和储蓄者的注意力。当然,他也
期刊
时令一交寒露,霜降,牡蛎即开始肥美起来。  牡蛎在福州方言中称为“蛎房”,是古汉语的称谓,很形象。每一颗海蛎都在一个房子一样的壳中窝居着,坚硬的外壳包裹着柔软的躯体,就象英国文豪狄更斯在《圣诞颂歌》中得描述:“象牡蛎一样,神秘,自给自足,而且孤独。”把牡蛎描述得象一个独居的侠客。  牡蛎在福州可是个平民的食物,家家户户吃得起。小时候一到快入冬,海蛎上季,街角巷尾就多了炸海蛎饼的小摊。煤球炉架着一口
期刊
智能电网(Smart grid,SG)中的相量测量单元(Phasor measurement unit,PMU)和智能仪表(Smart meter,SM)通过异构无线网络将向量测量单元和智能仪表测量的数据和参数传输至控制中心(Control center,CC)。如何选择一条可靠、稳定和安全的数据传输链路将海量的终端数据传送至CC进行数据分析并处理显得尤为重要。
  传统智能电网博弈数据路由的选择模型中,博弈模型中传感器节点需要获得所有传感器节点的博弈状态信息来进行下一次路由决策。基于以上分析,本文
5G标准中超高可靠和超低延迟通信(Ultra High Reliable Low Delay Communication,URLLC)应用场景对通信系统的可靠性和可执行能力提出了严格的要求,本文试图对通信物理层编码和调制技术的这一主题进行探索性研究。本项目在研究小组前期的研究工作积累中,对置换群码(Permutation Group Code,PGC)的代数结构进行了研究,在码集合的代数产生方法上取得了突破性的进展。在此基础上,本文将置换群码的码字用于同时调制载波的幅度和相位,形成基于置换群码的多维幅度相
董其昌先生是个怪人。   有一年他路过苏州,受朋友之邀,去城西三十里外的天池山踏青。众人坐在山间松林里,焚香烹茗,饮酒赋诗,不亦乐乎。正谈笑间,董先生突然不说话了,手持酒杯一动不动,目光呆滞。大家正要问他,他却猛然站起,指着远处的莲花峰,大叫一声,边叫边跑。同席者惊问,先生莫非醉了?只见董先生仰天大笑:“今日得遇吾师耳!”众人更奇怪了,哪里来的什么老师,连忙拉董先生坐回来,灌下一大杯茶。董仍然喃
期刊