【摘 要】
:
词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用。因此词义排歧方法的研究具有重要的理论和实践意义。本文主要研究在标注语料库支持下的基于有指
论文部分内容阅读
词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用。因此词义排歧方法的研究具有重要的理论和实践意义。本文主要研究在标注语料库支持下的基于有指导学习算法的词义排歧方法。 在词义排歧模型中引入有指导的AdaBoost.MH算法。首先通过简单决策树算法对多义词上下文中的知识源进行学习,产生准确率较低的弱规则;之后,通过AdaBoost.MH算法对这些弱规则进行加强;经过若干次迭代后,最终得到一个准确度更高的规则,即为最终的排歧模型。同时,针对系统的学习效率和实用性给出了一种简单终止算法迭代的方法。 为评测AdaBoost.MH算法排歧效果,本文在SENSEVAL3中文语料上进行了AdaBoost.MH算法和贝叶斯算法的词义排歧对比实验,结果表明AdaBoost.MH算法比贝叶斯算法具有更强的学习能力,前者的开放测试正确率比后者的开放测试正确率高出近8个百分点。 此外,为获取多义词上下文中的知识源,本文在使用传统的词性标注和局部搭配序列知识源的基础上,引入了一种新的知识源,即语义范畴。实验结果表明语义范畴的引入有助于提高算法的学习效率和词义排歧的正确率。 在对6个典型汉语多义词和SENSEVAL3中文语料中20个汉语多义词的词义消歧实验中,AdaBoost.MH算法获得了较高的开放测试正确率,前者的平均开放测试正确率达到85.75%,后者的平均开放测试正确率达到75.84%。 人工建立有指导学习算法所需的大规模标注语料是相当困难的,为解决此问题,本文给出了一种利用WWW资源自动构建适合汉语多义词排歧的标注语料库的方法。并通过实验验证了这种语料库的可用性。
其他文献
本文利用先进的Web技术,以校园网为依托,紧密结合高校学生信息管理工作的需求,开发“基于Web的高校学生管理信息系统”成为高校校园网建设的一个重要内容。分析了基于Web服务器
随着信息技术在商业、科学、工程等诸多领域的飞速发展,人们获取的多维数据呈指数增长,这些数据既枯燥又难于理解,想要深入探究数据内在的逻辑关系,单凭数据分析技术很难满足
本文首先从基于主动方式和被动方式两个方面分别研究了对等网络的拓扑结构和流量的捕获方法.在基于主动方式的拓扑测量中,设计和实现了Gnutella网络的爬行器,首次提出并从实
实时数据库是其事务和数据都具有定时特性或显式的定时限制的数据库系统,系统的正确性不仅依赖于逻辑结果,而且还依赖于逻辑结果产生的时间。实时数据库在实时系统中的应用日
当前,随着全球性的市场开放和竞争的日益激烈,电信运营业正面临着巨大的变革,传统的电信网技术正在发生着深刻的变革,通信市场的竞争也愈演愈烈。语音网上基于原电路交换的业
当今社会,E-Learning在远程教育、集团培训、高校教学中扮演着越来越重要的角色。同益扩大的高校规模、分散的校区、电算化教学的开展等都使得现代高校教学越来越倚重于E-Lear
本文以提高入侵检测系统数据处理性能和检测效率的同时尽可能降低系统误报率和漏报率为目的,着重对高效网络入侵检测技术与算法进行深入研究.主要研究内容包括以下几个方面:
作为航空飞行器的动力装置,航空发动机的故障诊断一直以来都是航空发动机可靠性工程中的重要组成部分。然而,由于航空发动机故障诊断的复杂性和困难性,往往需要航空维修专家的参
随着互联网技术的快速发展以及多媒体数据在各行各业应用的爆炸性增长,文本、图像、语音、视频以及3D模型等各种形式的多媒体数据正在逐步成为网络内容的主体。目前,基于关键字
中药新药试验平台是基于国家“863”项目开发的,本文以该平台的CRF表数据处理为背景,通过分析当前信息系统中数据表单所面临的问题和挑战,提出了信息系统的“表单定制”需求