论文部分内容阅读
词义消歧(Word Sense Disambiguation, WSD)是计算语言学和自然语言处理领域一个重要的研究课题,也是近些年来该领域的热点研究问题之一。本文研究的重点在于统计词义消歧技术,它根据使用的训练方法的不同可以分为有指导和无指导的两大类。早期的词义消歧研究以基于知识的和有指导的机器学习方法为主,随着计算技术和存储技术的改进和提高,无指导方法受到的重视程度越来越高。本文研究内容包括以下三个方面:1.介绍资源建设的情况。这部分包括IR-Lab分类词典的建设和语料库的建设两个方面。IR-Lab分类词典的建设对语料库的建设以及等价伪词的构造提供了很大的帮助。2.考察了贝叶斯模型、最大熵模型、支持向量机和决策树模型等四种数学建模方法在词义消歧上的应用效果。通过各个模型的比较研究,发现贝叶斯模型和最大熵模型性能比其它几个模型更为理想,尤其是贝叶斯模型,在构建和实现上比其它几个模型相对要简便易用,机器学习过程也简洁高效。3.提出等价伪词概念和等价伪词的构造方法,并以此实现无指导的词义消歧方法。利用得到的两种较优的机器学习方法:贝叶斯模型及最大熵模型,本文尝试了基于等价伪词的无指导词义消歧方法,在Senseval-3的测试数据上获得了81%的正确率,明显优于相应的有指导方法。实验表明等价伪词的概念以及建立在等价伪词基础上的无指导词义消歧技术为探索词义消歧的新技术提供了一个新的思路和方法。综上所述,本文在机器学习和无指导的词义消歧方法上都作了一些有益的尝试,取得了一些初步成果。随着更多研究人员的投入和对词义消歧研究的不断深入,会涌现出更多更好的新方法、新技术。