汉语词语相似度计算方法分析

来源 :科学时代·上半月 | 被引量 : 0次 | 上传用户:zdnumber
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】词语相似度计算在自动问答、智能检索、文本聚类、机器翻译等领域,词语相似度计算等领域有着广泛的应用,本文对词语相似度计算方法进行了介绍,并侧重介绍了基于《知网》的词语相似度计算方法。最后对常用的两类计算方法进行了对比。
  【关键词】词语相似度计算;知网
  1.什么是词语相似度
  汉语最基本的语义和语法单位就是词语,词语相似度计算用来研究用什么样的方法来计算或比较两个词语的相似性。本文认为,词语相似度就是词语在语义上的匹配程度,取值范围为[0,1]。词语相似度的值越大,说明两个词语的语义越相近;反之,则说明两个词语的语义差别越大。特殊的,当值为1时,表明两个词语的语义完全相同;当值为0时,表明两个词语的语义完全不同。
  2.词语相似度计算方法
  词语相似度计算方法大体上可以分为以下两类:
  2.1基于语料库统计的方法
  这种方法综合体现了词语在句法、语义还有语用等方面的异同。该方法属于基于统计的定量分析方法,其应用前提是:两个词语语义相似,当且仅当它们处于相似的上下文环境中。思想是统计大规模的语料,利用词汇上下文信息的概率分布进行词语之间的语义相似度的计算。该方法能够相对精确、有效的度量词语的语义相似度。
  比如计算词语相似度也可以利用词语的相关性来进行。方法是事先选择一组特征词,接着计算这一组特征词与每一个词语的相关性,一般基于大规模语料选择这组词在某个词语的上下文中出现的频率作为度量词语相似度的相关数据,对于每一个词都可以得到一个特征词向量。两个词的相似度就可以通过这些向量之间的相似度来衡量。而向量之间的相似度,一般通過计算向量之间的夹角余弦值得出。
  2.2基于某种世界知识(Ontology)的计算方法
  该方法一般利用语义词典来进行词语相似度计算。基于语义词典的词语相似度计算方法,以语言学和人工智能两方面为基础。它基于语义词典,根据概念之间的上下位关系、同义关系进行计算。这种方法建立在这样的前提下:当且仅当两个词语在概念间的结构层次网络图中存在一条通路(上下位关系)时,这两个词语具有语义相关性。这种方法简单有效且易于理解。
  这类方法的基础是大规模的语义计算知识资源。在英文方面,WordNet、FrameNet、MindNet等是具有代表性的例子;在汉语方面,《知网》(HowNet)、《同义词词林》、中文概念词典(CCD)等是几种主要的知识资源,很多学者尝试利用它们来计算词语相似度。目前常用的词语相似度计算方法,就是基于《知网》的相似度计算,下面将对它进行介绍。
  3.基于《知网》的词语相似度计算
  3.1《知网》的简介
  《知网》(HowNet)是一个常识知识库,它含有丰富的词汇语义知识以及世界知识,内部结构复杂。《知网》的描述对象是词语代表的概念,它揭示了概念之间、以及概念所具备的属性之间的关系。它将词汇所代表的概念分为四大类,分别是实体、事件、属性、属性值。并通过义原(所谓义原,是不可再分的语义单位)来标注概念。《知网》由多个数据文件构成,是一个网状的有机知识系统,为人们进行自然语言处理的研究提供了宝贵的资源。
  3.2《知网》的结构
  《知网》中两个最基础的概念是“概念”和“义原”。“概念”是用来描述词语语义。因为一个词可以含有多个语义,所以一个词需要多个概念来描述。使用“知识表示语言”对概念进行描述,“知识表示语言” 使用的“词汇”便是义原。《知网》中的不可再分的、最小的意义单位是“义原”。即用义原用来描述概念,用概念来描述词语。
  《知网》作为一个知识系统,它主要反映了概念的共性和个性。通过对汉字详实的分析考察,《知网》采用的义原有1500个。知网反映了概念之间、概念属性之间各种各样的关系,总体来说知网描述了16种关系。
  义原之间组成的不是一个树状结构,而是一个复杂的网状结构。然而义原关系中最重要的是上下位关系。所有的“基本义原”以这种上下位关系为基础构成了义原层次体系。该体系是树状结构,叫做义原分类树。义原分类树囊括了各个义原,以及义原和义原之间的联系。在义原分类树中,父节点义原和子节点义原之间具有上下位关系。可以通过义原分类树来计算词语和词语之间的语义距离。
  3.3知网的知识词典
  知识词典是知网中最基本的数据库。
  在知识词典中,每一个概念(概念又称为义项)可以用一条记录来描述。一条记录含有八项信息,每一项由用“=”连接的两个部分组成,等号左边表示数据的域名,右边是数据的值。
  比如下面就是一条描述概念的记录:
  其中,NO表示概念的编号,W_C表示汉语词语,G_C表示汉语词语的词性,E_C表示汉语词语例子,W_E表示英语词语,G_E则表示英语词语词性,E_E表示英语词语例子,DEF表示概念的定义,通过一个语义表达式来描述。所有的词语的概念都可以利用如上这些义原及其关系,来进行定义。
  3.4基于《知网》的义原相似度计算
  词语是通过概念来描述的,概念又通过义原进行解释,所以首先要研究义原的相似度计算。在《HowNet》中,依据上下位关系,所有的义原构成了一个树状层次结构。根据树形图中两个结点之间的路径长度来表示这两个义原的语义距离。本文将两个义原分别记为pl、p2,将它们的语义距离记为d,p1和p2两个义原的相似度记为Sim(p1,p2),相应的公式如下:
  Sim(p1,p2)= (公式1)
  其中,d表示两个义原p1和p2的路径长度,a是一个调节参数,本文取相似度为0.5时的路径长度(d)的值。
  Sim(pl,p2),即两个义原的相似度取值在[0,1]之间。在这里,只利用了义原的上下位关系来计算义原相似度。   3.5基于《知网》的词语相似度计算
  基于《知网》的词语相似度研究已经比较成熟。汉语词语可以分为实词和虚词,本文做如下约定:在文本中实词和虚词不能互相代替,即实词和虚词的相似度是零。由于虚词是采用“{关系义原}”或者“{句法义原}”,这两种方式加以描述的。因此,计算虚词的相似度就比较简单,计算用来描述虚词的关系义原之间、或者句法义原之间的相似度就可以了。
  实词则不同,它需要使用语义表达式进行描述,所以实词的相似度计算难度就比较大。本文使用实词定义项中义原和义原之间的相似度,来描述实词与实词之间的相似度。比如,计算两个独立的实词之间的相似度时,本文选择描述这两个实词的概念之间的最大相似度作为这两个实词之间的相似度。
  概念通过义原进行描述,实词概念的语义表达式由四部分组成,它们分别是第一独立义原描述式,其他独立义原描述式,关系义原描述式和符号义原描述式。本文把这些义原描述式的相似度分别记为:Sim1(S1,S2)、Sim2(S1,S2)、Sim3(S1,S2)、Sim4(S1,S2)。
  由此,两个概念之间的相似度计算公式如下:
  其中,βi(1≤i≤4)是可以调节的参数,代表每一部分的权重,且有β1+β2+β3+β4=1,β1≥β2≥β3≥β4。后者体现了Sim1到Sim4,对于最终的概念相似度Sim(S1,S2)所起作用是递减的。由于第一独立义原描述式Sim1,可以反映一个概念的最主要特征,所以本文将它的权值定义得比较大,一般应大于0.5。
  最后,把上述四个相似度计算结果进行加权求和,便可以得到两个概念之间的相似度。假如有两个词语分别为W1和W2,其中W1含有n个概念,分别为:S11,S12,……,S1n,W2则含有m个概念,分别为S21,S22,……,S2m。那么计算词语W1和W2相似度的公式如下。
  4.小结
  文中对词语相似度计算的两种主要方法即基于语料统计的方法和基于语义词典的方法进行了介绍。两者各有其优缺点。
  基于大规模语料库的计算方法,能够客观地反映词语的形态、句法、语义和语用等特点,可以发现许多仅靠人无法观测到的字符串间的有效关联。能够相对精确、有效地度量词语间的语义相似度。但是這种方法比较依赖于语料库,方法复杂同时计算量大。另外,它受数据稀疏和数据噪声的干扰比较大,有时会出现明显的错误。
  基于语义词典的方法比较直观而且简单有效,可以计算出字面上不相似,并且统计关联较小的词汇间的相似度,然而它对语义词典的依赖性较强,构造汉语语义词典本身又是一项非常复杂的工作,所以该方法受人的主观影响比较大。有时不能准确的反映客观事实。另外这种方法对于词语之间语义方面的异同计算比较准确,但是在词语间的句法特点和语用特点方面,考虑有所欠缺。
  前已述及,词语相似度计算在自动问答、智能检索、文本聚类、机器翻译等领域有着广泛的应用,那么到底选择哪种计算方法,需考虑每种方法的特点,并结合具体应用环境而定。
其他文献
目的 分析不孕症患者的疾病不确定感的因素并探讨其与社会支持之间的相关性.方法 对135例符合不孕症诊断的患者进行疾病不确定感和社会支持的测量.结果 不孕症患者的疾病不确定感属于中等程度,疾病不确定感与社会支持之间存在显著负相关.结论 护理人员应重视患者的疾病不确定感感受和患者社会支持系统的作用。
【摘 要】本文分析了目前网络战的态势和攻防方式;研究了网络的安全特点;并对网络战环境下,网络安全防护进行了探讨。  【关键词】网络战;网络安全;攻防方式  1.概述  今天的战争已进化为集成陆、海、空、天、电磁、网络、生物、环境、气象、资源、粮食、金融、文化、心里等多种因素的综合总体战。战争突破了军民和时空的界限。胜负存亡决定于分秒毫厘之间。网络的广泛应用,使网络战对国家的安全具有重大影响。目前,
【摘 要】Flash是当前一款实用性非常强的矢量动画软件,本文通过在多媒体教学课件制作的角度上,对Flash软件的优益处进行推广及例举实际的应用实例。  【关键词】课件;FLASH;推广;应用  一、Flash的基本特点介绍  Flash是一个有着相当历史背景的平面动画软件。它先被著名的多媒体软件公司Marcromedia收购,之后Macromedia公司又被Adobe公司收购,然后被重新命名为A
【摘 要】实验课程教学作为通信原理的一门重要课程,主要是为了让学生对通信系统建立系统性概念,加深对通信基本理论的认知。本文主要针对通信实验教学现状,提出一些改進思路及实验课程教学模式。  【关键词】通信原理;实验课程;改进思路;教学模式  通信原理是通信工程专业一门很重要的基础课,它跟高等数学、概率论与随机过程、线性代数、信号与系统及数字电子技术等前续课程关系紧密,同时对移动通信、光纤通信和现代交
【摘 要】空调与制冷是一门实践性比较强的专业,为了提高学生的实践能力,必须在教学上进行创新,采取必要的策略。本文立足于制冷专业的特点,从教学计划、课程教学内容、教学方法、技能训练、强化专业课教师实践能力等方面提出了提高制冷专业学生实践能力的策略。  【关键词】制冷与空调;技能训练;实践能力;策略  随着制冷和空调技术的快速发展,社会需要大量具有制冷与空调理论知识、操作技能,能胜任中央空调系统和冷库
【摘 要】本文以韩国语语言学理论和发达的敬语体系为理论依据,通过语法手段表现韩国语敬语的角度出发,对韩国语敬语使用过程中经常出现误区的相对敬语法进行分析整理,重点剖析其误用的原因,提出具有其针对性和有效性的使用方法,解决在中国的韩国语学习者的韩国语敬语难题,更有利于人际交流和理解韩国传统文化。  【关键词】韩国语敬语;语法角度;误用分析;解决方案  近年来,随着中韩两国的交流日益频繁,韩国文化被更
【摘 要】随着企业品牌重塑风潮的兴起,高校也开始借鉴企业的经验,积极塑造全新的网站形象。相对于本科院校,高职院校对于提升形象的愿望和紧迫感则更加强烈。因而,对校园网首页进行改版设计,是高职院校在最短时间内塑造并推广自身视觉形象、提升品牌价值和社会影响力的最佳途径。  【关键词】高职院校;品牌重塑;校园网;网页设计  进入21世纪,随着原有品牌形象的老化或经营战略的重大调整,依靠单纯的品牌管理手段已
【摘 要】现在许多行业用到绘图软件,如建筑、机械、电气等,为了提高工作效率,常常需要将两种图形进行相互转换,本文综合介绍了四种图形数据之间的转换方法,并对这四种方法进行了研究与比较,分析了每种图形转换方法的优缺点,为需求者提供了选择图形转换方法的依据。  【关键词】数据转换;直接数据访问;空间数据互操作;数据共享  0.引言  现今随着计算机的普遍应用,图形处理软件的使用日益广泛,出现了针对不用性