自然语言处理中介词短语附着消歧问题的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:firefly0808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
歧义是自然语言处理中经常遇见的一种语法现象。当我们在对一个句子做句法分析的时候,常常会面临这样一个问题,即一个短语或者子句可以附着在两个或者两个以上的句子成员节点上,机器很难自动地区分正确的附着位置。这种情况不仅出现在汉语的句法分析任务中,同时在英语自然语言分析中也会遇到。但是介词短语附着消歧问题只出现在英语或者其他的西方语言中。本文主要探讨英语中经常出现的介词短语附着消歧问题。很早学者们就将其看成一个模式识别任务,但是对它的形式化处理却不尽相同。现在广泛地将介词短语附着消歧问题简化为一个二值N和V的分类问题,它分别对应介词短语附着于名词和动词。因此我们只需要设计一个分类器就能很好地处理介词短语附着消歧任务。首先,我们介绍了自然语言处理的国内外研究现状,以及课题研究的背景及理论基础。同时概述了介词短语附着消歧任务。然后我们引入了n元语法模型并且简单地介绍了几种数据平滑处理方法。其次,详细描述了语义消歧问题,尤其是介词短语附着消歧模型。我们介绍了目前比较流行的几种介词短语附着消歧模型,例如贝叶斯模型,最大熵模型,支持向量机模型,回退模型等。而将重点放在我们提出的基于双阈值直接回退模型上。我们构建了这个模型,并将其在公共的IBM测试集合上进行了测试,实验获得了85.02%的准确率和100%的召回率。我们指出很多学者将介词短语附着消歧问题看成一个独立的任务,通过使用大量的语料,来提升算法的性能,而这个做法并不有利于句法分析任务的解决。实验结果也证明该方法是一种非常有效的消歧方法,并具有理论充分,实现简单的特点。实验也表明,二元组具有充足的信息量对介词短语进行附着消歧处理,而这个结论与之前很多学者的观点不同。最后将这个模型与其他模型进行比较分析,提出了一种潜在的改进方案,即通过增加词类信息和上下文相似性计算来提高模型的准确率。
其他文献
随着视频编码技术、网络基础设施、信息家电以及消费电子的迅速发展,以视频内容为核心的流媒体服务已成为信息产业中最具发展前景的业务之一。基于典型的分布式系统Internet
决策树是一种有监督的归纳学习算法,它用于对有类标的数据集进行分类,而聚类是一种无监督的学习算法,它可以对无类标的数据集进行分组,使组内的数据相似性最大,组间相似度最
决策树算法是应用最广泛的机器学习算法之一,它基于一个无次序、无规则的样本数据集,试图从中提取出描述此样本数据集的数学模型。传统的决策树算法只能处理属性为离散值的样
在普适网格中移动设备作为资源被发现和管理是普适网格系统研究的重点之一。本文先提出了一种普适网格的系统结构,详细论述了移动设备作为资源在系统中被发现和管理的方法,分
自然界中存在的大量复杂系统都可以通过各种各样的网络进行描述。近年来,复杂网络的研究受到了越来越多的关注,并渗透到从自然科学到工程科学甚至社会科学的多个领域。研究所
学位
聚类分析涉及到统计学、数据挖掘、机器学习和图像处理等多个领域,人们对它研究热情日益高涨。在聚类算法中,基于模糊划分的模糊c均值算法(FCM)是一种重要的算法,它有着深厚
随着人类活动和国家建设的发展,人们对气象的需求越来越高,气象的重要性越加突显,气象灾害对国民生产和生活造成的损失也相当严重。为了提高气象服务的质量,减少和预防气象灾
随着通信网络技术和集成电路设计的高速发展,分布式嵌入式(Distributed Embedded, DE)系统向大规模复杂异构的方向发展。与此同时,网络安全问题也受到越来越多的人关注,由于
随着Internet的日益普及和快速发展,对等网络(P2P)系统因其良好的可扩展性和高效的查找特性,受到了越来越多学者和技术人员的青睐。如何高效的在P2P系统中查找到相应的资源节
互联网时代的快速发展带来了大数据时代,大规模数据的高效处理对生产和实践意义重大,传统的计算模式已无法满足海量数据的处理需求。2004年,在Google发表了GFS和MapReduce的