航空术语语义知识库ATHowNet的构建

来源 :中国科技术语 | 被引量 : 0次 | 上传用户:xbmkdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:语义知识库在自然语言处理的许多领域中起着重要的作用。现有的语义知识库主要面向常识知识,特定领域的语义知识库则很少。文章将知网(HowNet)的理论体系与概念表示方法扩展至航空领域,提出了一个航空领域术语语义知识库——ATHowNet,并介绍了构建过程。该知识库包含3700个概念、3959个概念关系和3864个术语。在航空术语相似度计算及词类比任务上应用与验证了ATHowNet,结果证实了其在航空领域概念语义描述及基于概念关系推理上的有效性。
  关键词:语义知识库;航空术语;概念;概念关系
  中图分类号:N04;N949  文献标识码:A  DOI:10.12339/j.issn.1673-8578.2021.03.004
  Abstract:Semantic knowledge base plays an important role in many areas of natural language processing. Existing semantic knowledge bases are produced mainly for common sense knowledge, and there is few semantic knowledge base for specific domains. This paper extends the theory and concept representation method of HowNet to the aviation domain, proposes a semantic knowledge base for aviation terms, ATHowNet, and describe the process of constructing it. This knowledge base contains 3700 concepts, 3959 relations and 3864 terms. ATHowNet is applied and verified in the task of aviation term similarity calculation and word analogy. The results show that ATHowNet is effective in aviation domain concept description and reasoning based on concept relationship.
  Keywords:semantic knowledge base; aviation terms; concept; concept relation
  收稿日期:2021-02-26  修回日期:2021-05-11
  基金項目:教育部人文社会青年基金项目“领域概念的语义表示方法与大规模语义知识库建设研究”(17YJC740087)
  引言
  语义知识库在自然语言处理的许多领域中起着重要的作用。现有的语义知识库主要面向常识知识,特定领域的语义知识库则很少。
  本文基于知网(HowNet)[1]的理论体系与概念表示方法,提出了一个航空领域术语语义知识库——ATHowNet(Aviation Terms HowNet),描述航空术语所承载的概念及其之间的关系,并介绍ATHowNet的数据来源、构建规则及构建过程,分析ATHowNet在术语相似度计算及词类比应用的实验结果,证实了其在航空领域概念语义描述及基于概念关系推理上的有效性。
  1 HowNet知识库及其扩展
  HowNet最初是由董振东和强东在20世纪90年代设计和构建的,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,揭示了不同词语所承载的概念及其属性之间的关系[1]。HowNet把义原(sememe)[2]作为意义的最小不可分割单位。义原是通过对大量汉字的语义进行提取、分析、合并和过滤而确定的,其形式如:“aircraft|飞行器”“strength|力量”,并且建立了义原的分类体系,每个义原归于一个分类,如:事物、部件、属性、时间、空间等。此外,为了更准确地描述词语的语义,HowNet还定义了义原之间的关系,如:“whole”(整体)、“patient”(受事)、“agent”(施事)与“host”(主体)等。概念通过义原和义原关系来标注,同义词或近义词对应相同的概念,每个多义词对应多个概念,并建立了概念间的上下位、整体—部分、属性—宿主等关系。标注的概念用知识库标记语言KDML(Knowledge Data Base Markup Language)表示。这种面向计算机的形式化表达方式,便于将HowNet应用于相似度计算[3]、情感分析[4]、词向量[5-6]、语言建模[7]等。
  HowNet自1999年提出以来,一直在不断更新,主要是扩充义原、概念和词汇的数量。目前,HowNet的网络开源版本OpenHowNet[8],包含2196个义原、35 202个概念和229 767个中英文词。一些研究对HowNet进行了扩展。ExtendedHowNet[9]扩展了HowNet的词义定义机制,使用WordNet语法集作为词汇来描述概念,通过定义与其他概念的关联来表示和理解概念。ExtendedHowNet 2.0[10]面向实体与关系的表示,对HowNet进行了扩展,重新组织了概念间的层次构筑关系,提供了除概念定义之外的额外词汇信息,如事件框架与语义功能等,利于表达实体所代表的概念间的语义合成过程。ExtendedHowNet和ExtendedHowNet 2.0扩展了HowNet的概念表示方式及词汇信息,但没有继承KDML形式化语言的能力。王莹莹等[11]借鉴HowNet的思想,以KDML为表示方式,以中医领域的99个基础概念为义原,配合8种关系,构建了中医领域术语语义知识库。由于中医基础概念及其关系自成体系,中医术语语义知识库中的义原与关系不能继承HowNet。这使得中医领域概念与HowNet中常识概念构建在不同的基础语义要素上,造成该知识库适用于中医术语层级的运算,无法用于参杂领域概念与常识概念的文本级任务。   张桂平等[12]完全继承HowNet义原及关系体系,以KDML为表示方式,构建了基于HowNet的航空领域术语语义知识库,面向航空术语的特点,在HowNet的7条总规则的基础上延伸出5条规则,包括义原与义原关系的选用规则与使用规范,为后续研究打下了基础。但这些规则在实际构建过程中操作性不强,概念表示的一致性与规范性较难保证。王羊羊等[13]在张桂平等[12]研究的基础上,提出了航空领域术语核心词框架,将[12]研究的义原与义原关系的选用规则与使用规范具体化为框架,规范了术语核心词义原及与其相关的动态角色关系。
  2 ATHowNet
  本文将HowNet的理论体系与概念表示方法扩展至航空领域,提出了一个航空领域术语语义知识库——ATHowNet(Aviation Terms HowNet)。ATHowNet包含3700个概念、3959个概念关系和3864个术语。在[12]及[13]的基础上,本文做了如下改进:首先,针对航空领域术语多为复合词或词组的特点,更加注重概念间的层次构筑关系,即复杂概念由简单的概念构建而成,简单的概念由更为简单的概念构建,直至基础概念。这样能够更加明确地表达概念间的关系,适用于基于关系的推理任务。其次,将[13]的核心词框架替代为基础概念及框架,使得220项基础概念能涵盖52.82%的术语。最后,除[12]及[13]的术语相似度任务外,在基于概念关系推理的词类比任务[13-14]上应用了ATHowNet,验证了其在航空领域概念语义描述及基于概念关系推理上的有效性。
  2.1 ATHowNet数据来源
  ATHowNet中的航空领域术语提取自《中国航空百科词典》[15]。《中国航空百科词典》收录了13大类8918个词条。每个词条包括一个术语和一个定义。表1展示了词条的一个示例。我们选择技术类术语,如飞行器、飞机部件、飞行控制和导航等,不包括航空领域知名人物与组织,除非已包含在HowNet中。ATHowNet包含3864个术语,表2列出了ATHowNet每一类术语的数量。
  2.2 ATHowNet构建规则
  ATHowNet的每个记录都由一个术语及其相应的概念组成。同义词或近义词对应相同的概念。
  每个多义术语对应多个概念。表3展示了ATHowNet记录的一个示例。ATHowNet中的概念用HowNet的KDML表示。如示例所示,在KDML中,每个概念的表达都以“DEF”开头,由一组义原(红色加粗)和义原关系(斜体蓝色)组成。KDML的详细语法规则以及义原及关系集,可以参考HowNet在线手册[16]。ATHowNet继承了HowNet的义原和义原关系系统,没有扩展和改变其原有的内涵和层级关系。这样可以保证ATHowNet和HowNet的基本语义系统是一致的,使航空领域的概念和常识概念在统一的逻辑下进行语义计算,也可以建立领域概念和常识概念之间的语义关系。
  在ATHowNet中,复杂的概念由简单的概念组成。也就是,新的概念基于已经定义和描述的概念来表达。通过这种方法,概念的表达可以在不同层次上进行动态分解和统一,也可以表达概念的上下义层次和概念之间的关系。以表3中的“变压变频电源系统”为例,相关概念及其之间的关系展示在图1中。这一概念的定义和表述是基于“电源系统”这一上层概念。同时,“供电系统”的概念在“系统”概念的基础上定义与描述。“变频”概念与“电源系统”概念的关系是“modifier”,即变频是电源系统的特性。
  基于上述概念关系原则,为了使义原关系的范围更加紧凑,提高概念形成的一致性,我们基于有限数量基础概念构建ATHowNet,即核心概念。具体地,对3864个术语通过“jieba”工具包进行分词。然后进行词频统计,保持频率高于5的,得到220个词。这些词所对应的概念作为核心概念,覆盖52.82%的术语。
  2.3 ATHowNet构建过程
  基于上述原则,手动标注所有术语概念及其概念关系。
  (1)将所有的术语按照其中心词(术语中最右边的单词)分为1123个组,其中每个组具有相同的中心词。具有相同中心词的术语表达相似的或相关的概念。
  (2)从数量最多长度最短的组开始标注。这样能够首先对具有高频率中心词的无歧义术语进行标注,然后可以重用于其他术语。
  (3)将1123组术语分配给三个标注者,并按照前面提到的原则进行标注。标注完成后,每一个标注者对其他两个标注者标注的概念进行评分,评分标准为“0、1、2、3”,其中“0”是指第一个义原不正确;“1”表示第一个义原正确而其他义原不正确;“2”表示所有义原都正确,但部分义原关系不正确;“3”是完全正确。最后,用Cohen κ[17]计算评分一致性,其值达到56.76%。如果標注得分小于3,则标注者对标注进行讨论并重新标注,直到达成一致。
  整个构建过程历时8个月。
  2.3 ATHowNet构建结果
  最终,ATHowNet包含4152条记录,3864个术语和3700个概念。在3700个概念中,共有3959对关系,如“whole”“location”“patient”等56种。表4为ATHowNet的统计信息。
  多义词和同义词是重要的语义现象,也是最重要的词汇关系。ATHowNet能有效地表示航空领域中的多义词和同义词。在ATHowNet中,278个词是多义词,每个词对应两个或者更多的概念。以“程序”为例,“程序”的一种意义是计算机程序,另一种意义是事物的顺序。同义词通过两个或多个术语共享相同概念体现。ATHowNet有286个概念对应于多个术语。例如,“军用飞机”和“军用机”这两个词对应相同概念。
  3 ATHowNet应用
  词的相似度计算和词的类比是词汇语义研究和评价中常用的方法[14]。本节展示ATHowNet在航空领域的词相似度计算和词类比方面的能力。   3.1 航空領域的词相似度计算
  首先,从ATHowNet中随机选择100对术语,并对它们进行人工相似度评估。组织10名标注者来标注每对术语的相似度。相似度分数为[0-5]之间,从完全不相似“0”分,到最相似“5”分。标注之后,对于每对术语,将所有标注者的标注相似度值取平均值,并映射到[0-1]之间。标注者之间的标注一致性(皮尔逊相关系数[18])为0.7514。这意味着在评价术语对相似度时标注者具有较高的一致性。其次,我们按照[19]中的方法,根据术语对应的概念自动计算每对术语的相似度,得到一组在[0-1]范围内的相似度分数。最后,得到人工评价与计算得分的相似度之间的相关性。使用皮尔逊相关系数[18]作为相关性度量,得分为0.8232。这一结果显示出二者高度的相关性,这表明ATHowNet在一定程度上反映了人类对于术语相似性的判断,从而证实了ATHowNet中术语概念的正确性。表5显示了通过人工标注和自动计算得出的术语间相似度的一些示例。
  3.2 航空领域的词类比
  本文构建了一个航空领域词类比数据集,用于验证ATHowNet在概念关系推理上的有效性。数据集中的每个类比查询都是一个由四个术语(A,B,C,D)组成的元组,用于构造问题“A之于B,相对于C之于什么?”。D是该问题的答案。这是基于这样一个假设,即如果“A对B就像C对D”,那么A与B间和C与D间具有相同的概念关系。我们从ATHowNet中选择具有概念关系的术语对。如(机轮,轮速,弹道导弹,制导误差),机轮与轮速之间的关系为“subjectattribute”,弹道导弹与制导误差间的关系也是如此。两组关系相同的词对组成一个查询。最后,我们随机选择了由100个单词组成的含有625个查询的数据集。
  对于词语类比推理,我们根据A和B在ATHowNet中标注的概念自动找到它们的关系r。寻找一组与C有关系的术语W。然后,选择与C具有关系r的一个术语w∈W作为答案。如果W中没有与C有关系r的术语,那么选择与C具有关系r’的术语。r’是与关系r在HowNet关系体系中具有相同上级节点的关系。
  将上述方法与基于词表征的方法进行了比较[14,20]。词表征是将词表达为线性空间中的向量的一类方法。基于词表征的方法通过找到与向量vec(B)-vec(A)+vec(C)最相近(通过向量夹角余弦评价相近性)的向量x来解决词类比问题。使用BERT[21]和Tecent[22]的词表征。准确率作为评价指标。对于数据集中每一个类比查询,推理方法给出答案术语w,如果w=D,则判断为正确。以正确样本的百分比作为推理方法的准确率。各词类比推理方法的准确率列于表6。由表6可见,ATHowNet的准确率高于BERT和Tencent,这说明ATHowNet很好地表达了航空领域的词与词之间的关系,适用于基于概念关系的推理任务。
  4 结语
  本文提出了一个航空术语语义知识库ATHowNet,并介绍了其构建规则与过程。ATHowNet以HowNet为基础,继承了HowNet的概念语义表示体系和基本规则。ATHowNet共有4152条记录,包含3864个术语、3700个概念和3959个概念关系。也验证了ATHowNet在航空领域概念的词相似度计算和词类比方面的能力。在未来的工作中,将考虑自动生成术语概念的方法,特别是在领域内知识有限的情况下。因此,该工作可以推广到其他领域,而需要较少的人工投入,从而降低了构建语义知识库的成本。
  参考文献
  [1] 董振东,董强.知网[Z/OL].[2021-05-07].http://www.keenage.com/zhiwang/c_zhiwang.html.
  [2] BLOOMFIELD L.A set of postulates for the science of language[J].Language,1926,2(3):153-164.
  [3] LIU Q, LI S J. Word similarity computing based on hownet[J].CLCLP,2002,7(2):59-76.
  [4] FU X H,GUO L,GAO Y Y,et al.Multiaspect sentiment analysis for chinese online social reviews based on topic modeling and hownet lexicon[J]. KnowledgeBased Systems,2013,37(2):186-195.
  [5] NIU Y L,XIE R B,YUAN X C,et al.Improved word representation learning with sememes[C]//Association of Computational Linguistics.Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,2017:2049-2058.
  [6] XIE R B,YUAN X C,LIU Z Y,et al.Lexical sememe prediction via word embeddings and matrix factorization[C]//International Joint Conferences on Artificial Intelligence Organization.Proceeding of the 26th International Joint Conference on Artificial Intelligence,2017:4200-4206.   [7] GU Y H,YAN J,ZHU H,et al.Language modeling with sparse product of sememe experts[C]//Association for Computational Linguistics.Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,2018:4642-4651.
  [8] QI F C,YANG C H,LIU Z Y,et al.Openhownet: An open sememebased lexical knowledge base[J/OL] .[2021-05-07].CoRR,abs/1901.09957.2019.
  [9] CHEN K J,HUANG S L,SHIH Y Y,et al. ExtendedHowNet: A representational framework for concepts[C]//Asian Federation of Natural Language Processing.Proceedings of OntoLex 2005Ontologies and Lexical Resources,2005.
  [10] SHIH Y Y,MA W Y . Extended hownet 2.0an entityrelation commonsense representation model[C]//European Language Resources Association. Proceeding of the 11th International Conference on Language Resources and Evaluation Conference,2018.
  [11]  王莹莹,白宇,丁长林,等.面向语义检索的中医理论知识库构建方法的研究[J].中文信息学报,2012,26(5):72-78.
  [12] 张桂平,刁丽娜,王裴岩.基于HowNet的航空术语语义知识库的构建[J].中文信息学报,2014,28(5):92-101.
  [13] 王羊羊,陈刚,蔡东风,等.基于HowNet的术语语义知识库构建技术[J].沈阳航空航天大学学报,2016,33(4):78-84.
  [14] MIKOLOV T,CORRADO G,CHEN K,et al.Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of the 1st International Conference on Learning Representations,2013.
  [15] 《中国航空百科词典》编辑部.中国航空百科词典[M].北京:航空工业出版社,2000.
  [16] KDML:知网知识系统描述语言[Z/OL].[2021-05-07]. http://www.keenage.com/TheoryandpracticeofHowNet/07.pdf.
  [17] COHEN J.A coefficient of agreement for nominal scales[J].Educational & Psychological Measurement,1960,20(1):37-46.
  [18] STUDENT.Probable error of a correlation coefficient[J].Biometrika,1908,6(2/3):302-310.
  [19] XIA T.Study on chinese words semantic similarity computation[J].Computer Engineering,2007,33(6): 191-194.
  [20] NIU Y L,XIE R B,YUAN X C,et al. Improved word representation learning with sememes[C]// Association for Computational Linguistics. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,2017:2049-2058.
  [21] DEVLIN J,CHANG M W,LEE K,et al.BERT: Pretraining of deep bidirectional transformers for language understanding[C]//Association for Computational Linguistics.Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2019:4171-4186.
  [22] SONG Y,SHI S M,LI J,et al.Directional skipgram: Explicitly distinguishing left and right context for word embeddings[C]//Association for Computational Linguistics.Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,NAACLHLT,2018:175-180.
  作者簡介:
  王裴岩(1983—),男,博士,2020年毕业于南京航空航天大学计算机科学与技术学院,获工学博士学位。现为沈阳航空航天大学人机智能研究中心工程师,主要研究方向为自然语言处理、机器学习、知识工程。先后主持辽宁省自然科学基金重点项目与教育部人文社会青年基金等项目,参与国家科技支撑计划与国防基础科研等项目,曾获得国防科技进步二等奖与中国航空学会科学技术奖一等奖。通信方式:wangpy@sau.edu.cn。
   张桂平(1962—),女,博士,2007年毕业于东北大学,获工学博士学位。现任沈阳航空航天大学人机智能研究中心教授,主任,多语言协同翻译国家地方联合工程实验室主任,博士生导师。主要研究方向为自然语言处理、机器翻译、知识工程。主持多项国家863计划、国家自然科学、国防基础科研等项目,曾获得辽宁省科技进步奖一等奖、中国航空学会科学技术奖一等奖、中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖等。担任中国中文信息学会副理事长,中国航空学会理事。通信方式:zgp@gesoft.com。
   蔡东风(1958—),男,博士,1998年毕业于日本东京大学,获工学博士学位。现任沈阳航空航天大学人机智能研究中心教授,辽宁省人工智能与自然语言处理重点实验室主任,博士生导师。主要研究方向为自然语言处理、人工智能、知识工程。先后主持国家973计划子课题、国家科技支撑计划、国家自然科学基金等项目,曾获得辽宁省科技进步奖一等奖,中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖。担任中国中文信息学会理事,《中文信息学报》编委。通信方式:caidf@vip.163.com。
其他文献
摘 要:文章对比了美军参谋长联席会议近3年修订的5版《美国国防部军语及相关术语词典》中词条的更新情况,并从术语学视角,结合相关条令的出台,分析了有关电子战、网络战、太空战、战区陆军和撤退行动等词条更新的原因,论证了文章观点:军事术语的改变反映出某个特定军事领域知识的更新换代,并探讨了研究美军军事词典给予我军军语工作的重要启示。  关键词:术语学;美军军语;军语词典  中图分类号:N04;H083;
随着网络信息技术的快速发展,期刊编辑的工作模式发生了巨大改变,伴随无纸化办公的推进,大部分的编辑出版工作可借助计算机和互联网随时随地完成。文章主要介绍TeamViewer为主的几种常见软件在期刊编辑工作中的便捷应用,针对当前期刊编辑部在移动办公中经常会遇到的问题,结合编辑部实际工作实践以探讨远程桌面的便捷运用。相对于传统的文件传输方式,远程桌面具有简便、快捷等优势,可以大大提高期刊编辑的工作效率,具有广泛的应用价值,面对互联网格局开始错位巨变,“移动办公”这种高效协同的工作模式显得尤为耀眼。
柔性传播是对外传播中有效塑造部门媒介形象的重要方式和策略,“柔”在不动声色、不着痕迹、借力打力、自然而然、润物无声、潜移默化.气象部门需要在分析媒介形象传播现状的
摘 要:中医术语的西班牙语翻译研究,是基于中医药“走出去”和中华文化对外传播的探索,旨在提高中医术语西班牙语翻译水平,促进中医药文化传播,而术语工具书的选择对相关翻译工作起着重要的参考作用。《中医基本名词术语中西对照国际标准》是目前世界上比较权威的中医术语西译工具书,研究通过对该书的综合分析,结合术语学理论,深入讨论了中医术语西译的现状、存在的困难和问题。为了完善中医术语多语种信息,提高中医术语翻
在媒介革新的时代背景下,曾经以传者为中心的传媒业态慢慢向受者为中心转移。受众不仅是接受者也是输出者,素人走到台前晋升流量网红的时代已经到来。各行各业也渐渐被要求善于包装、表达、对话来博得认知度。脱口秀、辩论综艺、知识谈话等语言类节目形更是像雨后春笋层出不穷。个人或团体掌握当众表达的能力已经成为职业能力中不可或缺的一部分。探究富有特色的当众表达文本创作背后的多元思维模式和表达技巧日渐成为一个值得跨专业探讨的课题。
移动社交类App需要在开发与设计上不断创新来满足用户的社交需求,其中利用用户FoMO心理是App运营成功与否的重要因素之一.从移动社交类App开发角度考察App设计与用户FoMO的关
传播的过程中有一些因素影响着传播效果,但究竟如何影响?众多理论、学说给出了不同角度、不同方式的答案.在笔者看来,多米尼克提出的“传播动力”概念是可以将这些多角度理论
摘 要:术语翻译在口译过程中至关重要,但目前术语翻译研究多集中于笔译或割裂式、单一式的口译环节。从全程式口译过程出发,把口译活动看作包括译前、译中、译后三个环节的循环闭合型全程式實践行为,在此基础上针对各个环节提出对应的术语翻译技巧。通过结合口译实践进行实证分析,提出了译前准备、译中“翻译四诊法”和译后总结三大技巧,即“PLLABS”口译术语翻译法,以期对口译工作者克服术语翻译瓶颈有所裨益。  关
如果说《我和我的祖国》是对共和国70年历史的深情回望,那么其姊妹篇《我和我的家乡》则是站在当下的时间节点展示出的一幅家国地理变化图景.7位导演以分段集锦的方式借助东
摘 要:认知术语学认为,概念是思维对客体进行范畴化而形成的知识节点,对专业领域知识的认知即为对概念与概念关系的系统化认知。文章以认知术语学的核心方法论原则为切入点,将翻译过程描述为译者在思维、现实和符号三者之间进行循环往复式认知处理的过程,明确专业领域知识在译者知识体系中的重要地位,对多模态媒介在提高译者概念认知准确性和概念关系认知全面性中的优势进行论证,指出对本体知识库、三维知识图谱、专业类技术