有指导词义消歧关键问题研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:genye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言理解领域,词义消歧(Word Sense Disambiguation-WSD)是基础研究课题,也是重点和难点之一。作者在统计的框架下,多方面地考察词义消歧问题,得到了一些较好的结论,并在此基础上开发了HITIRWSD系统。  有指导的消歧模型准确率不理想有三个因素,分别是模型假设不合理,特征选取不全面,和训练语料的知识不完备。本文的2~4章分别针对这三个因素,做了详细地分析和改进。  模型的假设越合理,其准确率就越高。在考察了支撑向量机(SVM),最大熵(ME),贝叶斯(NB)三种模型后,本文得出了SVM要优于另外两个模型的结论。其原因在于SVM模型能够考虑到上下文词语之间的相互联系,从而突破上下文词语独立这一不合理假设。另外本文还提出了基于位置信息增益的贝叶斯模型,修正了位置无关假设,从实验结果可以看到,其消歧效果要优于SVM。  特征选择一直是分类问题的重要环节。上下文词语,上下文词性,词语搭配,句法信息都能单独作为词义消歧的特征。本文首先探讨了四种特征的使用特点,然后通过实验得出结论:上下文词语是最为有效的特征,将四种特征组合起来使用能得到最好的消歧准确率。  扩展从训练语料上获得的知识能够提高消歧准确率。训练语料的标注是耗时耗力的,训练语料上知识不完备一直是有指导方法的软肋。本文通过指示词和同义词词林对知识进行一定的扩展,部分解决训练语料知识不完备的问题。实验证明,这种方法能在不增加标注语料的情况下提高准确率,其提升幅度约为将训练语料的规模增加四到五倍的所能达到效果。  最后,本文介绍了HITIRWSD系统,并通过SEMEVAL-2007评测证明该系统配置灵活,准确率高等优点。
其他文献
作为实用化人工智能的一个最新的研究领域,专家系统在社会各领域的应用已经越来越广泛。专家系统的研究方向主要是知识获取、推理机制研究、实时处理以及扩大专家系统的应用范
一篇文档通常涉及多个子主题,然而传统的文本处理系统如信息检索和文本摘要以整篇文档作为基本处理单元,隐性假设文档主要讨论一个主题。如果能够准确地识别和划分文本的子主题
随着交通事业和计算机技术的迅速发展,传统的自然区划已不能够全面的、正确的认识地理环境与公路工程的关系,难以给予明确的指导方向。本课题在此背景下提出,借助自然区划的
随着互联网的发展及广泛应用,电子邮件系统已成为人们日常联络通讯的主要工具。当前电子邮件系统面临着机密性泄漏、信息欺骗、病毒侵扰、垃圾邮件等诸多安全问题的困扰,因此关
随着Internet的广泛应用,网络教育越来越受到人们的重视。由于网络教育中教师和学生在空间上是分离的,沟通与交流就显得尤为重要。因此,答疑系统成为网络教学中的重要组成部分。
面对越来越多的数据,如何利用这些海量数据,并从中提取出对企业的生产经营活动有用的信息,数据仓库技术应运而生。相对于钢铁企业生产统计来说,包括炼钢工序、热轧工序、轨梁工序
高维数据索引机制是医学图象库基于内容检索的重要课题。作者在“国家数字化医学影像设备工程技术研究中心”的资助下,从事此方面的研究工作,取得了以下进展: 对数据分布的精
图像识别在军事国防以及民用领域的作用日益显著。近些年,从遥感和航拍图像中实现目标的自动识别取得了长足的发展,但目前仍没有一种可以普遍适用的方法。这其中的困难不仅体现
传统工业控制通常以工控机为硬件平台来构建监控系统,这种模式的监控系统存在成本高、体积大、安装及后期维护复杂等缺点。随着微处理器运算、处理能力日益强大,同时随着嵌入式
信息技术的快速发展为网络教学提供了广阔的前景。网络教学作为一种新的教学方法,改变了传统教学方式,提高了教学效果及学生参与教学活动的积极性。与传统的教学模式相比,网络教