【摘 要】
:
汉语词汇中歧义词的出现给语言的使用带来了很大的变化和便捷,但同时也给自然语言的理解带来了很大困难。词义消歧的工作就是设法确定歧义词在特定语境下的语义。自然语言处
论文部分内容阅读
汉语词汇中歧义词的出现给语言的使用带来了很大的变化和便捷,但同时也给自然语言的理解带来了很大困难。词义消歧的工作就是设法确定歧义词在特定语境下的语义。自然语言处理的相关领域中,词义消歧的问题是一种经常遇到的难题。随着自然语言处理应用的不断推广,词义消歧问题也逐渐成为了许多领域里急待解决的基础性难题。通过对消歧领域知识的深入学习,本文提出了一种基于统计学习的词义消歧方法。该方法以汉语句子为消歧单元,试图为句子中每个词汇找到一个对应的语义。这种方法能较好的利用汉语语境信息,也具有统计方法的灵活性和对语言发展的适应性。本文的研究内容主要分为以下三个方面:其一,介绍了词义消歧问题的提出和研究意义,以及在国内外的发展状况。分析了一些主流词义消歧技术的适用场景及可能遇到的问题。其二,分析了实验中使用到的相关词典和语料资源。包括《同义词词林》中层级的语义关联知识,并采用三层语义编码的方式表示实验中的语义。测试语料和训练语料各自的来源、组织方式和预处理等。最后针对测试语料和训练语料中语义表示方式存在的差异,根据语言学知识及研究目的设计了语义归一化的处理规则。其三,分析了词义消歧所用知识的来源,并采用短语-语义类的对应知识和语义类之间的关联知识来表示歧义词的语义环境,在这一基础上利用统计学方法学习这两方面知识,并构建了词义消歧模型。借鉴统计机器翻译系统Moses的解码算法,在汉语句子的语义类网络中寻找一条最优语义类序列,用于确定歧义词汇的真实含义。最后采用对比实验的方式,评测了该消歧模型的性能。
其他文献
随着IT技术的进步,应用系统的网络化,为提高系统的处理能力,分布式集群系统得以广泛的应用。同时,互联网络安全事件愈演愈烈,使得这些集群系统随时都面临着各种安全威胁。由于分布
无线传感器网络通过传感器节点能感知物理世界的相关数据信息,同时能实现这些数据信息与网络信息的连接,所以无线传感器网络在目标追踪、医疗护理和军事等领域都有广泛应用。由于传感器节点分布环境的不确定,实时保证这些节点的能量供应仍是目前难以解决的问题。如何有效降低网络能耗,如何均衡网络中各节点的能量消耗,如何提高算法效率,从而有效延长网络寿命时间是无线传感器网络中路由协议设计所要解决的主要问题。针对上述问
网络论坛(BBS)由许多讨论不同话题的帖子构成,蕴含着丰富的有价值的信息,已经成为当今互联网的一个重要的舆论信息传播渠道。在BBS中,参与回帖的网民可能会由于对同一话题的意见或
随着空间数据库在实际应用领域的广泛发展,空间查询中的最近邻查询及其变体查询研究成为热点问题。已有的最近邻查询已经不能满足广泛的应用需求,为此最近邻查询研究的数据环
近年来,随着我国经济高速发展和高校办学规模的扩大,高校经费来源由过去单一的国家财政拨款,逐渐转变为以财政拨款为主,多渠道筹措教育经费的多元化格局。同时,学校财务业务
无线传感器网络近年来发展迅速,它综合了多个学科的相关技术,能够对各种环境进行连续地监测,在环境,军事,医疗等许多领域具有巨大的应用潜力。在实际应用中,节点的位置坐标很重要,缺
随着互联网技术逐步发展,网络安全问题日益严峻,围绕着反编译技术,逆向工程以及嵌入式驱动理论的各种病毒,木马以及流氓软件给网络用户的个人隐私,财产安全都带来的严重的威
在当前分布式互斥请求集生成算法研究中存在算法的对称性和请求集长度不协调,时间复杂度、空间复杂度与请求集长度不能兼顾的问题,为了解决上述问题本文主要从以下三个方面进
近年来软件开发技术不断成熟完善,分布式软件在医疗,交通,军事等许多重要领域扮演着越来越重要的角色。由于分布式软件自身规模大,软件复杂度高,开放性强的特点,在其被广泛运用的同
随着互联网的快速发展,网络上的信息量变得极其庞大,而作为Web1.0时代就已经出现的传统应用,网络新闻仍然有着很高的使用率。为了方便用户有效地发现自己想要的信息,需要对新闻报