论文部分内容阅读
在联系日益紧密的当今世界,人们对获取用异种语言(非母语)表达的信息和知识的需求空前增长,机器翻译和跨语言信息检索等相关领域的研究也随之出现新的热潮。但目前的机器翻译系统还远远不能让人满意,其中一个重要的原因就是翻译知识的获取比较困难。用人工方式获取翻译知识,覆盖面有限且代价高昂。因而,从大规模真实双语语料中自动挖掘双语知识已经成为获取翻译知识的非常重要的途径,而其中一项关键技术就是双语对齐技术。 本文首先在中日子句对齐平行语料上实现了一个基于关键词匹配的双语语料检索系统,并在此基础上进行词对齐的研究。在词对齐方面,首先实现了一种基于启发式方法的组合词对齐算法,然后在分析统计翻译模型方法不足之处的基础上,提出了基于最大熵(ME)的词对齐模型。最大熵词对齐模型可以方便而有效地集成多种上下文信息。实验表明,在噪声训练的环境下,最大熵词对齐模型取得了较好的对齐精度。最后讨论了词与词组一级的一种特定对齐技术——命名实体(NE)对齐,分别用改进的IBM Model 1和最大熵方法在中英句子对齐平行语料上抽取中英命名实体翻译等价对,均取得了较好的结果。