面向特定科技领域的技术和术语识别方法研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:lastdemon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网上有着大量的公开信息,有些信息有着巨大的应用价值。其中,特定科技领域(特别是国防科技领域)的专利、技术报告和新闻报道等文献中蕴含着大量有价值的科技信息,抽取这些科技信息有利于我国的国防科技建设。所以,如何快速有效地抽取并利用特定科技领域的信息,是一个值得研究解决的问题。特定科技领域的特殊实体(如技术、术语等)是该领域信息抽取的基础,对该领域中科技类实体间关系的抽取和科技类知识图谱的构建等方面有着重要的研究意义。目前,尽管命名实体识别技术已经日臻成熟,在诸如生物医学等多个领域均有所应用,但面向特定科技领域的技术和术语识别方法与通用领域以及医学领域有着明显区别,并且目前尚未有面向特定科技领域的标注语料资源。因此,本文重点研究特定科技领域的技术和术语识别问题,研究内容分为以下三个方面:(1)针对特定科技领域语料资源匮乏的问题,本文构建了面向特定科技领域的技术和术语语料库。首先,基于该领域的海量国防科技文本,以维基百科中的国防科技领域新技术为基点采集语料,涵盖了新闻、文献(如论文和专利等)和维基百科三种体裁。其次,在分析国防科技文本特点的基础上制定了一系列标注规范,展开了大规模语料标注。再次,对构建的语料库进行了数量统计和质量分析,共标注了 479篇文章,包含24487个句子和33756个技术和术语,标注一致性良好。最后,对比了本文构建的语料库与目前研究常用的语料库,表明其规模可适用于面向特定科技领域的技术和术语识别研究工作。(2)针对传统单词特征难以将技术和术语特点表示完全的问题,提出了基于子词单元和语言学特征的技术和术语识别方法。首先,探索了子词单元在传统序列标注Bi-LSTM+CRF模型上的应用。此外,针对任务的特点提出了适用于技术和术语识别的语言学特征。基于标注语料库的实验结果表明,技术和术语识别的F1值达到71.80%,较基准系统提升了 3.04%,能够较好的识别出面向特定科技领域的技术和术语。(3)针对子词与单词的进一步融合问题,提出了基于子词图网络的技术和术语识别方法。首先,提出了三种单词-子词交互图以更加灵活地获取单词与其子词之间的联系。其中,单词-子词包含图可以捕获单词中每一个子词的语义信息;单词-子词三角图能够获取子词的整体语义信息;单词-子词上下文图可获取单词的上下文信息及其相邻的上下文子词的语义信息。然后,应用图注意力网络模型对三种单词-子词交互图进行建模。基于标注语料库的实验结果表明,提出的三种单词-子词交互图均能够通过子词增强单词的语义表达能力,F1值分别较基准系统提升了 1.57%、1.82%和 0.53%。本文构建面向特定科技领域的技术和术语语料库,并提出有效的技术和术语识别方法,同时探索了图结构在技术和术语识别上的应用,为特定科技领域信息抽取的进一步研究打下基础。
其他文献
稳压器是核电厂反应堆冷却剂系统最重要的部件之一,其主要功能是通过冷却稳压器上部蒸汽空间以及加热饱和水进行压力调节,达到对反应堆冷却剂系统进行压力控制。当反应堆冷却
近十年来,铁路客站钢结构的发展呈现为大型化、复杂化趋势,其安全性问题也更加受到重视,通过试验、数值计算对结构关键受力问题展开研究是保障结构设计安全性的重要技术手段
本文通过分析土壤有机碳、全碳及各类元素(氧化物)等54项指标,研究区表层、深层土壤元素分布特征,查明元素区域地球化学分布主要控制因素及重要化学组分分布分配与迁移演化规律,建立土壤元素地球化学分配机制;研究农业生态系统中重要化学组分在自然状态和人为作用下的表现方式,研究调查区土壤环境质量,进行土壤地球化学及环境质量评价。研究区位于甘肃省河西走廊中东部张掖市(临泽县、民乐县、凉州区、山丹县、肃南县)和
工业机器人作为现代制造业的支撑技术和重要的自动化装备,被智能制造多个领域所引进。尤其是焊接作业场景,传统的人工操作方式已逐渐被工业机器人所取代。现有的工业机器人焊
正交异性钢桥面板具有承载能力高,跨越能力大,制造施工方便等优点,因此在国内外桥梁中被广泛采用。在拥有诸多优点的同时,因其自身结构限制,该类结构焊缝众多,应力集中情况较为突出,并且局部承受汽车轮载反复作用,导致疲劳问题成为限制其发展应用的关键性问题。疲劳开裂一旦出现,其修复一般需要中断交通并且费用高昂,严重影响结构的使用性能和运营服役质量。随着我国经济的快速发展,运营车辆轴重和交通量持续增大,钢结构
量子通信是一种交叉学科形成的新技术,它在经典通信的基础上应用了量子力学的基本定理,例如海森堡不可克隆原理,测不准原理等,形成了安全性更高的通信形式。量子签名是量子通
研究目的:本研究通过观察青少年健美操运动员FMS测试情况,深入探讨青少年健美操运动员机体存在的潜在的损伤风险,为青少年健美操运动员训练提供一定理论依据。研究方法:选取
在能源环境问题日益突出的当下,绿色可再生能源的研究与应用成为人们当下关注的焦点。当今世界,许多国家开始实施“阳光计划”,加大对太阳能的利用,推动低碳、绿色经济的发展
由于造纸工业自动化程度不断的提高,纸机车速越来越快,成纸幅宽不断加宽。生成过程中不可避免的会使纸张出现各种表面缺陷,也称之为纸病。纸病的存在严重影响到纸张的质量和
移动机器人定位是机器人进行导航和路径规划的基础和前提。随着移动机器人与日俱增的应用需求,定位问题已经成为了当今机器人技术的热门研究领域。本文以ICRA DJI Robo Maste