论文部分内容阅读
随着经济的发展,作为制造业大国,我国每年生产的产品数量巨大,并且增长迅猛。随着国际经贸合作的加深,我国每年有大量新旧产品远销海外。因此产品名称的翻译是一个非常值得研究的领域。产品名称与传统命名实体存在一些区别,不能简单的使用传统的命名实体翻译方法来翻译产品名称。为了提高翻译的准确率,本文分析了产品名称的结构特点,并且结合现有的其它机器翻译技术,提出专门针对产品名称的一套翻译方案。本文的研究内容主要涉及以下几个方面:(1)结合产品名称和企业名称的结构特点对产品名称中的品牌名称进行挖掘。提出了几种不同的挖掘算法,得到了数量较多并且精度较高的品牌名称。品牌名称库在经济快速发展的当今时代具有较高的利用价值。(2)提出一种基于CRF的品牌名称识别方法,利用挖掘出的品牌名称和已有的产品名称标注语料,得到了精度较高的CRF模型。从而弥补产品名称中品牌名称的划分错误,进而改进分词结果,提高翻译质量。(3)利用基于统计的词对齐技术从双语平行语料中获取统计词典,从双语产品名对中获取翻译模板。通过统计词典实现了对知识库之外的词单元的翻译、通过翻译模板实现了知识库之外的产品属性和核心词的翻译顺序的调整,使得翻译结果更容易让人理解。从而实现了对产品名称的初步翻译。(4)提出了一种快速有效的产品名称分类方法。将产品名称划分为几百个类,这样在基本不减少细化模板数量的前提下,大大提高了模板细化的性能。结果显示,分类结果和准确率基本满足了本系统的需求。(5)在分类的基础上,结合基于实例的机器翻译技术,利用双语产品名对进行了模板细化,模板细化对于翻译质量的提高带来了显著效果。