论文部分内容阅读
在自然语言理解领域,词义消歧(Word Sense Disambiguation-WSD)是基础研究课题,也是重点和难点之一。作者在统计的框架下,多方面地考察词义消歧问题,得到了一些较好的结论,并在此基础上开发了HITIRWSD系统。 有指导的消歧模型准确率不理想有三个因素,分别是模型假设不合理,特征选取不全面,和训练语料的知识不完备。本文的2~4章分别针对这三个因素,做了详细地分析和改进。 模型的假设越合理,其准确率就越高。在考察了支撑向量机(SVM),最大熵(ME),贝叶斯(NB)三种模型后,本文得出了SVM要优于另外两个模型的结论。其原因在于SVM模型能够考虑到上下文词语之间的相互联系,从而突破上下文词语独立这一不合理假设。另外本文还提出了基于位置信息增益的贝叶斯模型,修正了位置无关假设,从实验结果可以看到,其消歧效果要优于SVM。 特征选择一直是分类问题的重要环节。上下文词语,上下文词性,词语搭配,句法信息都能单独作为词义消歧的特征。本文首先探讨了四种特征的使用特点,然后通过实验得出结论:上下文词语是最为有效的特征,将四种特征组合起来使用能得到最好的消歧准确率。 扩展从训练语料上获得的知识能够提高消歧准确率。训练语料的标注是耗时耗力的,训练语料上知识不完备一直是有指导方法的软肋。本文通过指示词和同义词词林对知识进行一定的扩展,部分解决训练语料知识不完备的问题。实验证明,这种方法能在不增加标注语料的情况下提高准确率,其提升幅度约为将训练语料的规模增加四到五倍的所能达到效果。 最后,本文介绍了HITIRWSD系统,并通过SEMEVAL-2007评测证明该系统配置灵活,准确率高等优点。