【摘 要】
:
研究者在撰写科技文献时,需要撰写相关工作章节,通过和已有研究的对比来彰显自身研究的创新和价值。撰写相关工作章节需要作者阅读大量的相关文献,并对相关文献中和自身工作相关的部分进行分析概括和凝炼,这需要耗费作者大量的时间和精力,因此本文对相关工作章节自动生成技术展开研究,旨在为研究者在生成相关工作章节时提供参考和帮助。针对相关工作生成中的文档内容相关性建模问题,本文首先利用话题模型对需要生成相关工作的
论文部分内容阅读
研究者在撰写科技文献时,需要撰写相关工作章节,通过和已有研究的对比来彰显自身研究的创新和价值。撰写相关工作章节需要作者阅读大量的相关文献,并对相关文献中和自身工作相关的部分进行分析概括和凝炼,这需要耗费作者大量的时间和精力,因此本文对相关工作章节自动生成技术展开研究,旨在为研究者在生成相关工作章节时提供参考和帮助。针对相关工作生成中的文档内容相关性建模问题,本文首先利用话题模型对需要生成相关工作的目标文献和它的参考文献集之间的相关性进行建模,提出了话题模型Query Topic Sum来描述目标文献和参考文献的生成过程,将目标文献的生成过程建模为从背景词汇分布ΦB和文档特定词汇分布ΦD中采样得到;将参考文献的生成过程建模为从背景词汇分布ΦB、文档特定词汇分布ΦD以及与目标文献相关的词汇分布ΦT中采样得到,本文利用ΦT来实现目标文献和参考文献的相关性度量。本文针对科技文献摘要中文献长度过长、内容选择困难的问题,引入了外部的引文信息用于相关工作生成。本文为每篇参考文献提供了3至20条引文,从参考文献中找到和引文最相符的文本片段,也叫作被引片段,将被引片段看作是经过学术界标注的参考文献中的重要语句。本文提出了基于两层集成模型的被引片段自动识别技术在CL-Sci Summ数据集上取得了最佳性能,应用被引片段识别技术,本文为每篇参考文献找出了最相符的被引片段。本文构建了相关工作生成的大规模评测数据集NudtRwG,并提出了结合话题模型和引文信息的统一的相关工作生成模型ToC-RWG。ToC-RWG利用Query Topic Sum得到的参考文献与目标文献相关的话题分布φT作为目标分布,以被引片段作为候选语句,利用KL散度作为指标去优化摘要的一元组分布和ΦT的距离来生成相关工作。最终,经过后处理步骤的文本作为生成的相关工作。实验表明,本文基于话题模型和引文信息的相关工作生成模型ToC-RWG在基准模型的基础上实现了显著的性能提升,证明了本文模型的有效性。
其他文献
近年来,随着“大数据”时代的来临和计算机处理能力不断提升,人工智能领域进入飞速发展阶段。面部表情是表达人类意图的最主要的非语言手段,以计算机技术为基础的面部表情识别研究旨在让机器理解人的情感,在人机交互和计算机视觉领域有着重要的研究意义和应用价值。获取大规模高质量的数据集始终是面部表情识别研究上的难点之一,对现有的原始数据集进行优化是解决这个问题的一个有效方法。我们可以将其分为两个子任务:一是扩充
党的十八届三中全会正式做出《中共中央关于全面深化改革若干重大问题决定》,并主张健全与发展中国特色主义制度是未来全面深化改革的整体目标,在构建国家治理体系中,社区治理发挥着基础性的作用。最近几年,我国在社会治理方面取得了较快的进展,社区治理与建设在理念上更为充实,治理模式不断创新,带有地域特色的社会治理典范不断涌现。党的十九大表示,强化社区治理体系建设,需要着力将治理中心下潜到基层,营造出共建共治共
图像作为互联网时代传播最广的媒体介质,对其内容进行理解和分析具有极其重要的意义。理解细粒度内容的首要前提是对其进行分类,由于图像中目标和场景的多样性,图像分类是图像处理中的重点和难点。而细粒度图像分类相对于通用图像分类而言,类内差距大,类间差异小,致使细粒度图像分类的挑战性更大。实际生活中通用图像分类往往可以经由自身既有知识进行,而细粒度分类则需要专业相关知识,且细粒度目标在实际生活中常常遇到,对
关联成像具有优秀的抗干扰,抗散射能力,且能实现无透镜成像,因此获得了广泛的关注。但在传统关联成像中,需要大量的采样帧数才能重构高质量的图像,这一缺点很大程度地限制了成像速度。为解决该问题,我们对关联成像所使用的照明散斑场对成像质量的影响进行了深入分析,发现当光场特性与成像环境及目标相适应时可以有效提高成像的效果。而传统的关联成像使用的照明方式对视场中各部分是无差异对待的,未考虑目标各部分蕴含的有效
伴随着无人技术的发展,无人作战将成为战场的新形态,随着编队化、自主化的无人机发展趋势,基于群体智能的无人机编队将在无人作战中扮演关键角色。在其发展过程中,碰撞问题是制约该领域发展的重要因素,给编队控制带来了巨大的安全挑战,编队的控制与防撞对无人机的发展至关重要,是无人机编队体系框架的关键算法。本文对无人机单机和编队的控制与防撞问题进行了研究,保证编队在运动过程中内部的有序与安全,同时避免与外部威胁
近些年,随着视觉传感器以及计算机视觉技术的迅速发展,视觉SLAM技术日趋成熟,并被学术界和工业界广泛应用于移动机器人、虚拟现实等多个领域。然而,标准视觉传感器具有多种技术限制,例如高能耗、高延迟、高信息冗余、低时间分辨率,极大地限制了其在高速机器人和视觉任务中的应用,如自动驾驶、无人机等。加之实际应用场景的复杂性(高动态范围等),现有视觉SLAM系统基于标准图像进行同时定位与地图构建任务,会不可避
如今,经验丰富的攻击者为了达成某种目的而实行有组织有预谋的高级可持续威胁攻击越来越多。这些攻击往往结合社会工程学(如钓鱼攻击)及多个技术先进的漏洞利用共同进行。而且攻击往往不是一蹴而就,而是包含多个攻击阶段逐渐达成目。除此之外,多个攻击阶段组成的攻击路径中往往包含着未披露的0-day漏洞,而这些漏洞的信息防御者无法获取,这种攻击者与防御者之间的信息不对称给带有未知攻击的多步攻击检测造成极大阻碍。因
地名信息检索以地理事物名称为主要研究对象,属于地理信息检索领域研究的范畴,其相关研究成果及服务可满足个人、企业、政府等不同层次用户的信息需求,广泛应用于日常出行、交通调度、资源规划等各个领域的决策分析。但目前,随着互联网技术的发展与信息的不断增长,信息服务逐渐转向知识服务,传统的以关键字查询为主的地名信息检索模式已经无法满足人们日益增长的现实需求,亟待开展基于空间语义关联的地名信息检索服务研究。本
当前,无人机被广泛应用于各行各业,在军事,农业,服务业,矿业等诸多领域发挥着重要作用。人与无人机的交互系统是无人机的重要组成部分,决定了无人机的操作体验,具有极高的应用价值和研究价值。无人机系统大都通过地面站式的操控平台实现人与无人机交互。通过地面控制站、遥控器、手机软件等方式传递人类的指令,控制无人机的行为。这种方式的缺点在于依赖交互媒介,不够便捷。还有一些无人机系统尝试使用人类手势控制无人机平
分层存储是计算机存储领域的一项重要技术,其核心设计是将数据存储在多层级的存储介质中,通过热点文件识别和数据迁移技术来掩盖访问延迟以及增加吞吐率。分层存储管理的本质是准确、实时的文件分类,当存储层次较多时,可以转化为相邻层级之间热点数据和冷数据的二分类任务。文件分类的准确率十分依赖于对应用I/O行为的理解。本文工作主要包括以下三部分:本文提出了文件的向量化表示方法。该方法通过遍历文件系统的树形目录生