基于汉语概念图的词汇语义相似度计算

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:jueduizone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词汇语义相似度计算作为中文信息处理中的一个关键问题,国内外众多学者已对其开展了广泛而深入的研究,它是信息检索、信息抽取、文本分类、词义排歧和机器翻译等重点研究领域的基础之一。现今对词汇语义相似度的计算方法主要分为两种,分别是基于规则和基于统计的方法。但是这些方法主要依据词与词之间在语义词典中的距离或是在统计语料中的相关性,都未能从汉语的内涵出发。本文提出一种新的相似度计算方法,该方法从概念层面上来解读两个词语之间的相似性,并在此基础上给出一个量化的相似度值。该方法首先将词语的释义项转化为内涵概念图的形式,然后计算两个内涵概念图之间的相似程度,从而求得词语语义相似度的值。本文的主要贡献如下:第一,根据概念图的理论,提出了构造词语内涵概念图的方法。内涵概念图的构造过程分为如下几个步骤:释义项获取、概念分析、知识提取和概念图的构建标引。第二,根据词语的内涵释义项提出了一种基于义原集的词汇语义相似度计算方法。该方法是后续计算概念图之间相似度的基础,用作概念图中节点之间的相似度计算。第三,在概念节点间相似度可求的前提下,我们提出了计算概念图全局相似度的方法。首先对所选领域的词进行概念图标引,然后抽取一定数量的能够完备表述该领域词语内涵的属性名作为概念图展开的框架,最后调用本文所提出的递归算法对两个词语的概念图进行全局相似度计算。最后,为了验证本文相似度计算方法的有效性,本文把语义相识度计算运用到网页聚类领域。通过对聚类结果的分析,我们发现该方法的效果是显著的。本文的研究给词汇语义相似度的计算提出了一种新的尝试和方法,从内涵概念图层次上分析词汇相似度,为今后开发新一代中文搜索引擎提供了有效的技术支持,是语言工程的重要组成部分。
其他文献
以DES为代表的对称密码是信息安全领域一种重要的密码体制,与公钥密码相比,对称密码计算代价低,算法相对简单,因此在工业界得到了广泛的应用。目前,针对对称密码的攻击方法除
生产调度问题,包括离散型的作业车间调度问题(JSP),流水车间调度问题(FSP),和连续型的流程工业调度问题(PIP)都是具有强约束,多目标的NP-hard问题,以一般数学方法很难得到可行解。
Quidway NetEngine 5000E核心路由器(简称NE5000E)是华为公司推出的高端网络产品,主要应用在IP骨干网、IP城域网骨干层以及各种大型IP网络的核心位置。路由器多框集群的产品
作为数学的一个新的分支,图论起源于著名的哥尼斯堡七桥问题,它以图作为研究对象。近年来受计算机科学技术飞速发展地刺激,图论的发展极其迅速。其应用范围不断拓广,出现了越
随着计算机技术和网络技术的不断发展,网络的应用不断深入,网络安全问题也日趋严重,包括计算机病毒、特洛伊木马、拒绝服务攻击、恶意软件、黑客入侵等在内的安全问题频繁发
基于IP技术的各种应用的提出,特别是VOIP、FOIP技术的提出,使数据网络通信逐渐融入了传统的话音、传真业务领域。在无线通信领域。基于IEEE 802.16协议的WiMAX技术凭借其初期
运用自动化分割和三维重建技术来处理医学图像,辅助医生进行分析与诊断,避免了凭借医生的主观想象和临床经验的传统阅片方法带来的不足,能增加工作效率、提高诊断精确性、客
经济的发展以多种资源为基础,排样问题的工作主要是对材料进行优化利用,在涉及材料分割的行业有广泛的应用,如机械制造、皮革服装、建筑设计、交通运输、航空航天等领域。排
人脸识别技术最友好、自然、直接的生物特征识别手段,在社会公共安全、政府机关、视频监控、电子商务等领域都有着广泛的应用空间,人脸识别技术可分为人脸检测和识别两个基本
随着计算机技术的飞速发展,分布式异构系统逐渐成为解决复杂问题的有效工具。它的主要目标是通过网络互连实现全系统范围内的资源的共享,同时它还利用高效的资源管理和任务调