论文部分内容阅读
词语对齐是跨语言自然语言处理领域的一个基本问题,许多基于双语语料库的应用(女NSBMT、EBMT、WSD、词典编纂)都需要词汇级别的对齐。
以往词语对齐方法对语言学信息在对齐中的作用的研究都不够深入。本文重点研究利用由多种语言学资源或信息来改善对齐质量。在统计对齐模型主要是IBM词语对齐方法研究和实践的基础上,提出了一个最大熵词语对齐算法。最大熵双语词语对齐不需要具有大规模的语言学知识。各种参数的训练是与具体的语言对无关的,即使对于像中文与蒙文这样的句法结构相差比较大的语言对之间的对齐系统的构建来说也是一样。训练参数的获取和调整并不依赖具体的语言学知识。在最大熵的思想应用于统计词语对齐之后,针对不同的语言可以加入具体的调整模型,这些与具体语言有关的调整模型的加入,并不影响基础的统计词语对齐,所以可以通过语言学专家的对立工作来进行,之后将这些附加的模型加入到系统中来。经过500句汉蒙测试集实验,对齐错误率为31.2%。
为了得到蒙文词性标注模型,提出了改进的基于转换的拉丁蒙文词性标注方法。针对传统基于转换的词性标注方法中规则学习速度过慢的问题提出了一种对训练语料库进行动态划分的算法。该算法根据规则之间的冲突和依赖关系对训练语料库进行动态划分,减小了搜索空间。在保证拉丁蒙文词性标注正确率的前提下提高了规则学习速度。经过一万拉丁蒙文句子语料库的对比测试,发现该方法在规则学习中所花费的时间仅为原方法的32%。