论文部分内容阅读
基本名词短语是一种结构相对简单的句法单元,其内部包含了相对完整的语义信息,在句子构成中广泛使用且占有重要地位。实现对不同语言基本名词短语的自动识别和翻译,能够在很大程度上为理解不同语言提供帮助和参考。俄语基本名词短语的识别和翻译工作对于跨语言检索以及俄汉机器翻译等应用具有直接的指导意义和应用价值。本文将俄语作为研究对象,学习并总结俄语的语言特点和语法特征,基于规则与统计方法相结合的思想,实现了俄语基本名词短语的识别,并重点针对俄语语料的标注代价问题提出了一种自动构建CRF训练语料的方法。另外,在传统的统计机器翻译流程中,通过将隐含在词形变化中的俄语语言特征显式表示,实现了俄语基本名词短语翻译质量的提升。完成了一个俄语基本名词短语识别和翻译的完整系统。主要工作包括:第一,基于规则与统计相结合的思想,实现了俄语基本名词短语的识别。并且针对俄语语料缺乏且标注代价大的现状,提出了一种自动构建训练语料的方法。该方法基于来源于网络的俄汉词典资源,在统计得到的俄语基本名词短语词性搭配模式库指导下,自动构建CRF所需的训练语料,进而使用训练得到的模型在模式库基于最大正向匹配原则进行的BaseNP候选项标注基础上,实现俄语BaseNP的识别。第二,提出了一种基于隐知识的俄语基本名词短语翻译方法。所谓“隐知识”,是指以词形的变化隐含在俄语单词中的语言特征,例如词性、格、性、数等。将这些语言特征显式的体现在语料当中,然后基于加入了特征的语料进行翻译,可以从很大程度上解决形态变化丰富的俄语语料数据稀疏的问题,并能在一定程度上改善词对齐的结果,最终提升翻译系统对俄语基本名词短语的翻译质量。本文的识别方法在节省语料标注代价的基础上对于俄语基本名词短语的识别结果F值为84.14%。显式使用语言特征的翻译方法对于俄语基本名词短语的翻译结果BLEU值为0.4257,较传统的基于短语的机器翻译方法提高了大约10个百分点。