基于对抗学习的查新检索式自动生成关键技术研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:yooeo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在创新驱动发展的大背景下,科技查新和文献检索等科技咨询服务逐步走向市场化,使得查新工作不仅仅要面临着来自市场严峻考验,而且查新的内涵与服务模式也发生了相应的变化。基于此,更多的检索手段被提出,更多的查新分析方法被投入,服务内容也更有深度。
  本文提出了将对抗学习的方法应用到查新检索式的自动生成中,旨在为科技查新服务提供自动化流程。将模型部署到面向自动处理的科技查新系统平台中,实现了依据查新委托单中的查新点自动构建检索策略,查新员可以对自动生成的检索式进行优化和修改以保证检索结果的准确性。在一定程度上解决了领域专家构建检索式所遇到的问题。
  本文的研究内容主要有以下几点:
  首先,经调研发现领域专家在构建检索式的过程中容易出现两个方面的问题并针对此问题提出解决方法。(1)领域专家在某一个领域是权威的,但如今的科技查新工作大部分是跨领域的。在构建检索式时,领域专家可能会因先验知识储备不足,导致所撰写的检索式不够全面,遗漏或缺少部分关键词使得论文查全率低,进而无法支撑起整个查新工作;(2)所选取的关键词可能存在一词多义现象。消歧问题一直是学术界的难点,关键词词义复杂,在检索结果中关键词不仅出现在目标文献中,也出现在无关文献中,导致查准率较低。
  其次,为有效获取对抗学习框架所需要的检索式生成特征,本文对查新资源进行解析并提取查新点。在文本生成相关技术中,向量表示特征与语言模型还存在些许不足,所以为取得优异的实验效果,本文对词嵌入模型与神经网络语言模型分别进行了对比择优实验,使其更好地完成下游任务。为了解决查全率低、关键词不够全面这个问题,本文引入了网络表示学习模型,利用有监督的命名实体识别模型进行概念与关系的标引,并构建知识网络表示体系。
  最后,利用对抗学习框架对提取的语义特征、句法特征、位置特征等进行权重学习,通过对生成器和判别器的优化实现了多个特征的运算,并得到一个有效、精准的查新检索式构建模型。本论文利用基于生成对话的对抗训练模型实现了从医学领域中提取符合特定结构的查新点到检索式生成的模型训练,实验结果证明该模型在化学领域、情报学领域等领域也可以得到符合主题的查新检索式。
其他文献
我国源远流长的历史,为后人留下了卷帙浩繁的古文典籍。这些古文献不但具有极高的文学价值,还可以传播历史信息从而兼具历史价值。用机器来实现古文今译,不仅可以跨越古今之间的语言鸿沟,还有助于传递古文献中蕴含的历史知识和文化信息,为古文外译提供重要的参考,促进中华文化走向世界。  在已有的古文机器翻译研究中,多数的研究着力于古文到现代文之间平行语料库的构建,以及将各种机器翻译模型应用在古文到现代文的翻译,
学位
多源异类的科技资源松散孤立,缺少有效地互通协调和配置管理,导致“资源孤岛”现象产生,不利于科技资源协同服务的发展,通过元数据对科技资源关联聚合是有效的途径之一。本文的目的是研究如何基于元数据有效关联聚合科技资源,主要从外部特征、内容特征以及共享特征三个关联维度出发。  本文首先概述国内外科技资源元数据以及科技资源关联聚合相关研究的发展情况,指出目前科技资源关联聚合存在的不足,并总结归纳基于元数据关
学位
专利数量激增与专利审查资源紧缺的矛盾下催生知识产权领域对审查智能化的迫切需求,为了解决人工查找的有限性和现有的检索系统不完善等问题,本研究提出一种智能化的专利无效对比文件判断方法,从海量的专利文件中选取高度相关的对比文件,为相关从业者提供决策辅助。  为了平衡专利所要求的技术公开和发明主体本能维护技术秘密的矛盾,专利中存在着一些独特语言现象,为专利无效对比文件判断带来了困扰。而传统基于专利文本相似
学位
当今科技服务在现代服务业已经有着举足轻重的地位,科技服务对经济与社会发展的促进作用已日益明显。本着促进科技资源公益服务发展的原则,综合运用服务评价、指标体系的有关理论和方法,科学、合理地将科技资源服务公益价值进行评估,对科技服务业发展具有现实意义。当前科技资源公益服务价值评估领域还没有形成适用于多种类型科技资源特点与性质的价值评估指标体系,不利于科技服务业的发展,因此化解此项难题迫在眉睫。本文基于
学位
近年来,随着国家大力鼓励科技创新,不仅国家级、省级项目的申报数量大幅增长,中小型企业的自主创新能力也在逐年递增,呈现出查新数量激增的趋势。随着大量的科技查新需求产生,科技查新服务模式中存在的问题一一出现,对科技查新服务模式的升级成为了必然要求。在此背景下,引入技术竞争情报中技术尽职调查的服务模式,通过调研专业查新机构的科技查新服务现状及科技查新服务模式升级的需求情况,分析目前科技查新服务模式中存在
学位
“后疫情”时代加速了人们生活、学习和工作方式的改变,数字经济成为主要发展趋势。产业数字化、智能化加速发展,推动了疫情防控中新业态、新模式的产生,促使多领域合作的出现。伴随跨领域研究的深入,知识产权的保护加快企业和国家的经济发展。为了整合科研人员与实践人员之间的知识,需要建立跨学科的知识流动。随着科技社会的进步与发展,单一的学科理论、研究方法以及技术不再适用于解决出现的发展问题。通过不同学科领域的交
北京是我国人工智能发展的重要地区,汇集了全国最为丰富的人工智能人才资源。本文以北京市人工智能基础高端人才为研究对象,通过对其结构和流动特征进行分析,以在一定程度上了解我国人工智能基础研究高端人才队伍的现状,为政策制定找到切入点。本文首先通过文献调研,在已有研究成果的基础上,梳理基础研究、高端科技人才、人工智能人才的相关概念及特征。其次,从人才结构和人才流动两个维度,采取文献计量分析、聚类分析、社会
学位
科技资源作为国家重要战略资源,为科技活动提供了物质保障,为科技管理、决策和科学研究提供了基础条件,对于支撑科技发展、提高国家科技创新能力、促进经济发展都具有重要意义。由于科技资源类型多样,其使用主体用户也分不同层次,包含来自科技型企业、高校、科研院所、政府等不同机构的多类用户,不同的用户对科技资源的需求往往不同,用户对科技资源的专业性、个性化、多元化、动态化以及集成化需求不断增强。传统的资源组织描
学位
图书馆是公共文化服务体系建设中的中坚力量,承载着公共文化服务的主要内容。面对人民群众日益增长的文化需求,基本公共文化服务供给不足和配置不均问题日渐凸显。在此背景之下,如何促进图书馆资源的合理配置,更好地惠及人民群众,是图书馆更新建设的重要内容。可达性作为公共设施服务效能和空间布局的评价指标,可用于衡量居民到达图书馆的便捷度、图书馆空间布局的合理性。图书馆可达性的研究有助于为政府寻求合理的图书馆空间
随着大数据时代的到来,科技文献数量巨大且增长速度日益加快,获得准确、及时、快速、全面的科技情报、及时了解科技发展态势是每位科研人员的工作需求和共同难题。一方面,现有的科技文献信息系统侧重于保障科技文献获取,检索系统侧重于针对元数据的查询或者文中词语的组织与索引,距离满足科技情报需求还有一定差距。另一方面,科研人员在进行科学研究时也面临着课题选择、投稿期刊选择、合作伙伴选择、基金申请选择等科研决策方
学位