面向问题的多文档文本摘要技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ting1991
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息量的快速增长,人们对信息检索效率的要求越来越高。如何从互联网上高效的获取信息成为一个重要的问题。搜索引擎是检索信息和收集互联网数据最为有效的工具,但是搜索引擎返回的结果仍然包含着诸多的干扰信息和冗余信息,需要进行进一步的分析和归纳才能掌握搜索引擎返回的重点。而面向问题的文本摘要可以解决这个问题,面向问题的文本摘要旨在基于给定的问题从文档中返回一段含有文档中重要信息的简短的文字,配合搜索引擎使用可以极大地提高信息检索效率。本文主要研究课题为面向问题的多文档文本摘要。分别从模型、数据、应用三个方面进行了研究,提出了基于图神经网络的面向问题的多文档文本摘要模型,探索了面向问题的文本摘要的弱监督方法,构建了基于搜索引擎的开放域的信息检索系统并应用到不同场景中。在模型方面,本文引入了异构图神经网络,利用图网络中信息的传递,有效地实现句子之间信息的交互。在QBSUM数据集上的实验表明,本文提出的基于图神经网络的面向问题的多文档文本摘要模型取得了较好的效果。在数据方面,本文探索了面向问题的文本摘要的弱监督方法,分析了面向问题的文本摘要面临的数据短缺问题。依据任务的相似性,分别利用阅读理解中的片段抽取任务和普通摘要任务获得面向问题的文本摘要的弱监督信号,构建了多个数据集。我们在弱监督数据集上进行训练,在QBSUM测试集上进行测试,实验结果表明,本文采用的不同的弱监督方法均取得了不错的的效果。在应用方面,本文搭建了基于面向问题文摘的开放域的信息检索系统。利用面向问题的文本摘要模型,在搜索引擎返回结果的基础上,结合篇章检索模块、段落排序模块,搭建开放域的信息检索系统。系统接受用户输入的问题,利用搜索引擎搜索相关网页,处理后返回精简的结果,提高信息检索的效率。在开放域的信息检索系统的基础上,我们结合不同的功能模块开发了调研报告生成系统、谣言分析系统,并在云服务器上进行了部署。
其他文献
组合测试是实现高覆盖率测试的有效方法,可以用尽可能少的测试用例实现高的测试覆盖率,在组合测试中,在已知部分测试用例集运行结果时,如何能够根据引发系统故障的测试用例进行快速有效的定位故障是一个重要的问题,研究组合测试快速故障定位技术有助于帮助测试人员找寻故障来源并进行有效的修正以实现被测系统的改进。嵌入式软件的输入具有时序特性,包括输入参数次序以及参数的注入时刻,其中注入时刻是包含输入次序的,输入次
在传统伺服系统设计过程中,控制器设计的可配置指标少,不能完整或准确反映机构的质量及约束特性,造成控制器设计与原理样机匹配度不高,无法实现控制器或机构的最优化设计。同时,传统设计方法设计流程迭代周期长,且可承受的迭代次数有限,造成设计效率不高,试验成本高昂。本课题将依靠联合仿真技术完成导弹伺服系统的仿真,可以帮助设计人员摆脱物理样机的束缚,降低实验的成本,可以较快地完成对于导弹伺服系统的设计与优化。
近年来,人脸识别一直是模式识别、图像处理和机器视觉等领域的研究热点之一。素描人像识别作为一个难题,一直以来没有一个非常有效的解决方案,它是依据专业画家手绘的素描人像进行的人脸识别,素描人像识别主要在公安司法案件侦破和寻找走失人员中进行应用,在案件没有犯罪嫌疑人或走失人员的确定照片时,通过对素描人像图与人脸照片的比对,它可以帮助调查人员缩小目标范围。现阶段在该方面的研究绝大多数是将照片转化为类素描的
计算机技术的飞速发展对各行业的研究和生产起到了巨大的推动作用,而计算机编程作为其中不可或缺的工具被越来越多地投入生产和使用。出于对大量计算机程序生成和维护的需要,代码智能应运而生,代码自动修复是其中的一个重要分支。代码自动修复旨在在没有人工干预的条件下,利用计算机程序自动修复代码中存在的语法或语义错误。随着深度学习的发展,研究者们出于自然语言和编程语言的共通性,利用自然语言处理方法解决代码自动修复
红外小目标检测系统在军事、国防领域中具有重要的战略应用价值,因此在红外小目标检测系统研发过程中需要对其进行充分的模拟测试来确保其性能。由于数据的敏感性,可公开获取的包含红外小目标的测试图像数据源较少,而大量的测试数据却是研究红外小目标检测算法必不可少的。除此之外,对于红外小目标检测结果的评估也缺乏统一标准,不能满足实时评估分析和应用的需求。针对上述问题,本课题将研制一套针对红外小目标检测系统的测试
随着红外成像技术的不断发展、前沿的新技术对红外成像系统开发设计上的优化,红外热像仪在军事、工业、生活各个领域的应用场景也在不断拓宽。由于2020年新型冠状病毒引起的肺炎疫情的迅速扩散,利用红外热像仪在公共场所进行精准的体温监测成为了相关领域的重点研究内容,红外热像仪性能的好坏将直接影响体温监测的准确性,对疫情防控工作至关重要。因此对于用于体温监测的红外热像仪,建立全面、科学的性能评估模型,准确预测
随着国家对工业排放超净治理的持续推进,以火电厂、集中供热企业为主的工业燃煤企业相继完成大气污染超低排放改造,但大气污染形势仍然严峻,尤其以雾霾为特征的区域性大气环境问题依然突出。根据相关数据显示,在我国北方农村地区低效散烧燃烧和秸秆野外焚烧排放的污染物占雾霾主要成分总量的20%以上,已成雾霾天气的重要原因之一。因此生物质能热电联产作为既能解决农作物秸秆野外焚烧造成的污染问题,又能作为农村地区提供高
城镇化与工业化进程在推进我国经济快速发展的同时,亦对自然环境造成了较为突出的伤害,其中,较为突出的一点便是带来了当前的较为严重的各类水污染问题。从2007年开始,我国政府大幅度提高对于环保行业的投入,由此引发了环保行业的爆炸式发展。伴随行业的高速发展,进入这一领域的企业也越来越多,尤其是近年来建筑类国企、央企以及国外资本的强势介入,正对我国民营环保企业的生存空间构成了强烈挑战。为此,如何为企业构建
随着信息化时代的来临,军事文本信息出现“过载”的问题,这为情报分析人员增加了沉重的负担。利用自然语言处理中的信息抽取技术智能地提取其中的有价值信息并呈现出来,是一种备受瞩目的解决方案。而命名实体识别技术作为信息抽取领域中的基石,其重要性不言而喻。本文立足于军事命名实体识别任务,对基于预训练语言模型的深度学习方法进行研究。因为军事领域相关的语料集匮乏,出于研究需要,本文首先以军事新闻文本为数据源构建
随着微纳米加工技术、纳米超材料的发展以及超精密结构的日益复杂,对于微小空间结构三维尺度测量的需求日益迫切。共焦显微技术具有独特的三维层析能力、高分辨力、对被测样品无特殊要求、非接触测量不会损伤样品表面等优点,可广泛应用于微结构三维形貌测量方面。目前外差共焦仍然是提升共焦显微系统轴向分辨力的主要手段之一,但是由于该系统采用硬针孔结合光电探测器的方式存在针孔离焦位置调节困难、容易堵塞等诸多问题,致使系