论文部分内容阅读
本文从英汉机器音译这一基本问题入手,进行了基于字形的英汉机器音译框架的研究及实现。具体的讲,本文从以下几个方面进行了研究:1本文着重于基于字形的英汉机器音译框架的研究,并最终实现了性能较好的基于字形的英汉机器音译系统。2本文在基于字形的英汉机器音译框架下,分别采用了n-gram音译模型和噪声通道模型建模以捕捉字形的上下文信息,并进行了两种模型下机器音译性能实验。实验表明了n-gram音译模型在该框架下的性能较好且易于实现和移植。3利用上述的n-gram音译模型建模框架,本文分别利用EM算法和Viterbi Traning方法进行了英汉音译单元上的对齐训练,并通过实验比较了EM算法和Viterbi Training方法获得的对齐语料对机器音译性能的影响。4为解决机器音译过程中的数据稀疏问题,本文采用了InterpolatedKneser-Ney平滑,提高了英汉机器音译准确率。