论文部分内容阅读
词语语义相似度的衡量是计算机科学中很多研究的基础工作,例如机器翻译,问答系统、智能教学、信息检索、数据挖掘等。用一个数值来表示两个词语的语义间的相似性,然后利用这个数值做进一步的决策,以解决词义消歧、拼写错误探测、翻译中动词替换等具体问题。自然语言理解是人工智能的重要研究领域之一,自然语言理解的最终目标是实现人工智能实体的自然语言接口,使之能够理解并且生成自然语言。在自然语言理解中,为了让机器理解人类自然语言,词语语义相似度的衡量也是必不可少的基础工作之一。目前关于这一课题的研究可以概括为两个不同的派系。一类为基于大规模语料库,利用概率方面的数学知识来转化出词语的相似度;一类为基于知识库、本体等具有树形结构或者网状结构,利用边信息转化映射成语义距离来衡量词语的语义相似度。两种方式均有优缺点,并且基于的理论假设也不相同。基于大规模语料库的方法理论假设为:凡是语义相近的词,他们的上下文也应该相似。基于树形结构的方法理论假设为:两个概念结点的语义距离越近,这两个概念的相似度就越大,以及两个概念的共同信息越多差异信息越少,相似度就越大。目前还有一些学者把这一研究做了不同划分,也有结合多种思想综合得出相似度的方法出现,但都具有一定的局限性,实用性受到效率以及不同应用领域的严重质疑。基于这一现状,笔者决定在这一方面做出一定的探索研究。本文的研究方法属于第二类,利用同义词词林扩展版以及董振东发布的知网作为知识库,来衡量相似度。同义词词林扩展版是哈尔滨工业大学信息检索研究室在同义词词林的基础上扩展而来。同义词词林由梅家驹等人于1983年编撰。在这个课题的研究过程中本文做出了一下几个方面的工作:(1)研究了“相似性”的心理学理论,词语相似度的概念,主要的研究思想类别,以及目前本课题的研究现状。简述了词语语义相似度在不同应用领域中的具体应用以及可能会有的应用预测,分析了相似度计算在人工智能中的地位。(2)对同义词词林的构建初衷、发展做了了解,从哈工大自然语言平台获得了同义词词林扩展版的相关文件,导入到了 SQLServer数据库。主要利用语义距离信息得出相似度,同时还利用了分支层兄弟结点数以及分支距离等信息对词语相似度值进行调整。得到了相比已有的基于词林的方案更好的实验结果。(3)研究了知网的相关基本概念,知道了主要基础文件——义原和义项的结构。同时也导入到了 SQLServer数据库。知网的免费版本主要文件以及相关说明文档可以从其官网上下载。根据义原层次结构的特征,采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略,改进了现有的义原相似度算法。然后将语义表达式分为三个部分处理最后得出词语的相似度。同样也得到了基于知网的更高的相关度实验值。(4)结合同义词词林以及知网,采用的同义词替换以及变权重的加权策略,得到了综合词林以及知网信息的相似度衡量方法,大大的提高了基于单个知识库得到的相关度水平,同时还扩展了可计算词语范围,进一步提升了词语语义相似度计算的应用实用性。