ISCAS机器翻译和系统融合评测系统介绍

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:gsfv85
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文给出了参加第五届全国机器翻译研讨会(CWMT2009)评测的系统介绍,包括基于短语的统计机器翻译模型以及两个系统融合模型。翻译系统首先对训练语料进行预处理,构造了一个基本系统,然后利用大小写敏感的4元语言模型恢复英文的大小写.预处理部分使用了规则的方法,对翻译中的数字进行了单独处理。系统融合评测提交了句子级和词级融合两个参评系统.
其他文献
西双版纳新傣文的字符和标点符号依据其文字真实使用状况,还需要进一步规范。首先新傣仂文字符设计时应该遵循顶线原则,其次字符的具体形状应该正确,再次标点符号应该与汉字的一致。另外根据新傣仂文与国际音标的对应关系,再进一步设计字符的键盘布局。
语音语料是人类非常重要的语言资源之一。目前世界范围内已有很多国家建立了语音语料库,并采用高新技术手段进行相关研究,取得了众多的成果。蒙古族是世界民族的重要组成部分,有自己的语言文字,在人类历史上留下灿烂的一页,是人类文明的重要组成部分。我国政府非常重视少数民族语言文字资源的建设,在国家高技术研究发展计划863课题《多语言基础资源库研制和共享》中安排了蒙古语、藏语、维吾尔语语音库、语料库的建立计划。
在分析了民族语言电子邮件过滤所遇到的技术问题之后,提出了基于机器翻译的民族语言垃圾电子邮件过滤系统,经过对邮件正文进行文本解码,翻译,垃圾邮件识别三大步骤,在一定程度上解决了民族语言垃圾电子邮件的过滤问题,为垃圾邮件过滤提供了有益的探索。
本文介绍了机器翻译评测的基本原理以及常用评测标准,包括人工评测方法、基于n元匹配的BLEU和NIST自动评测方法、基于准确率和召回率的GTM评测方法以及若干引入了语言知识的自动评测方法。文章还介绍了国内外几个著名的机器翻译评测项目,同时讨论了评测对于机器翻译的研究与发展所起的重大推动作用。
以计算技术和语料库为基础的统计机器翻译方法,提高了语言翻译自动化程度。在汉蒙统计机器翻译中,由于源语言与目标语言存在着的差异,单纯应用统计机器翻译方法进行汉语到蒙古语的翻译,导致译文中出现的词形错误等问题,因为汉语属于形态缺乏的语言,而蒙古语却是形态非常丰富的语言,在从汉语对应蒙古语时会出现一种汉语形式对应多种蒙古语形式的情况。针对这种情况,本文提出利用目标语言的形态信息构造统计模型的研究方案。该
为了全面了解国内外机器翻译技术的现状,促进机器翻译技术的研究,按照惯例,第五届全国机器翻译研讨会((CWMT2009)继续组织了统一的机器翻译评测,以推进参评单位的实质性交流和机器翻译技术的发展。本文给出了此次评测的组织、准备过程及结果。为国内外研究单位在机器翻译方面的进一步研究提供了数据。
本文主要介绍微软亚洲研究院自然语言计算组参加2009年第五届全国机器翻译研讨会(CWMT2009)评测的情况。本单位参加了全部5个评测项目中的2个子项:汉英新闻领域单一系统和汉英新闻领域系统融合两个评测项目。文章将简要介绍本单位统计机器翻译系统的实现框架以及阐述它们在评测数据上的性能表现,并针对结果加以适当分析。
本文介绍了哈尔滨工业大学语言技术研究中心参加CWMT09机器翻译评测的情况。我们参加了汉英新闻单一系统、汉英新闻系统融合、英汉新闻机器翻译和英汉科技机器翻译4个项目。在评测中,我们使用了HiTree和water两个统计机器翻译系统,两个词一级融合系统(WordComb1和WordComb2)和一个句子一级融合系统wMBR。本文对各个系统进行了简要的介绍,并给出了各个系统参加评测时的数据配置情况和最
本文介绍了我们参与CWMT2009机器翻译系统评测的系统ZZX_MT,它是一个统计机器翻译系统,同时结合了简单的句法知识,以解决中-英及英-中翻译中的重定序问题。我们将简单介绍系统的基本组成及其参与CWMT09的汉-英新闻翻译及英-汉科技翻译的评测情况。
本文介绍了中国电子信息产业发展阶段研究院参加2009年第五届全国机器翻译研讨会机器翻译评测的情况。我们参加了机器翻泽的三个领域的测试:汉英新闻领域,英汉新闻领域和英汉科技领域。参加评测的系统包括基于规则和模板的汉英系统、英汉系统,以及一个基于短语的汉英统计机器翻译系统.文章介绍了这几个系统的主要设计思路,并对评测实验结果进行了介绍。