基于统计的汉英机器翻译技术的研究

被引量 : 0次 | 上传用户：huhf1984

【摘要】

：

随着Internet的迅速普及,机器翻译显示了日益广阔的应用前景。当前统计机器翻译的研究主要针对英语、法语、德语或其他西方语言之间的翻译,本文研究了统计机器翻译原理和技术

【作者】

：

魏瑾

【发表日期】

：

2006年期

【关键词】

：

统计机器翻译汉英机器翻译翻译模型词性标注对齐模型语言模型解码器搜索算法 A*搜索算法动态规划法 beam搜索算法短语对齐模型 ISA MI 对

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的迅速普及,机器翻译显示了日益广阔的应用前景。当前统计机器翻译的研究主要针对英语、法语、德语或其他西方语言之间的翻译,本文研究了统计机器翻译原理和技术,并在此基础上构建了一个基于统计的汉英机器翻译系统原型。我们的工作主要包括两部分:1、研究了基于单词对齐模型的汉英统计机器翻译,这部分的研究采用了基于信源信道模型的统计机器翻译方法,该方法是当前统计机器翻译研究中应用最广的方法。2、基于短语对齐模型的汉英统计机器翻译研究,这部分以第一部分工作为基础。在基于单词对齐模型的汉英机器翻译研究中,我们采用了IBM对齐模型。已有的研究表明,IBM的五个模型中,模型4的对齐效果最好,所以我们的研究以IBM模型4为基础。主要工作包括:构建汉英翻译模型、构建英语语言模型、实现解码器。具体如下:1)构建汉英翻译模型。在构建翻译模型时引入了词性信息,实验显示,引入词性信息后,提高了单词对齐的质量,参数更准确,在改进后的模型上进行搜索得到的译文质量更优。2)实现了A*和beam搜索算法。对A*搜索算法和beam算法的实验数据进行了对比,结果显示A*搜索算法在汉英统计机器翻译中表现更好。3)对A*搜索算法进行改进。A*搜索算法只扩展分值最优的结点,而汉语和英语是差别非常大的语言,在汉英机器翻译中,仅扩展最优结点会导致错误的方向,漏掉质量更好的译文。因此我们对算法进行了改进,引入了宽度搜索,为选择扩展结点制定了启发策略。实验结果显示,改进后的算法生成译文的质量有了较明显提高。4)在汉英统计机器翻译中,空单词对某些翻译的影响是非常大的。所以针对汉英翻译,对有关空单词的翻译模型进行了修改,通过实验显示,这种改进缓解了空单词对汉英翻译的不利影响。5)此外,我们通过实验对影响翻译的一些参数进行了分析,这些参数包括为汉语词选择候选英语单词的范围、A*搜索算法中假设队列的长度等,并通过实验对这些参数进行了设置。因为单词对齐模型没有考虑上下文的意义,其缺陷很明显,所以当前基于短语对齐模型的统计机器翻译成了研究的热点。我们在前面工作的基础上,进行了基于短语对齐模型的汉英统计机器翻译的研究,主要有以下工作:1)设计了将基于IBM模型训练得到的Viterbi对齐与使用集中切分和短语对齐算法(ISA)相结合的方法进行单词对齐,实验表明该方法进一步提高了训练语料单词对齐的正确率。2)我们在使用ISA算法时,通过实验为单点互信息(MI)设定了计算公式,并根据实验效果设置了MI的阀值。3)设计了使用词性信息构建对齐模板的方法。4)通过提高单词对齐的正确率,我们从训练语料中抽取了大量的短语实例,这使得在翻译过程中可以使用基于翻译记忆的方法。5)我们从训练语料中抽取了模板,翻译时先匹配模板,然后我们以IBM模型4为基础评估译文的质量,衡量译文的优劣,选出最优的译文。6)通过实验表明:由于抽取的短语实例质量较高,所以引入了翻译记忆的方法,提高了短语的翻译质量;并且通过采用对齐模板考虑了上下文的语义,在一定程度上克服了单词对齐模型在这方面的缺陷,提高了翻译的效率和正确率。

其他文献

对山东省中小学学生课余武术训练的研究

武术,是独具中华民族风格的传统体育项目,它以其独有的技击性、健身性和观赏性被全世界各国人民所喜爱。北京成功申办2008年奥运会加快了世界各国对中国的认识和了解,也加深

学位

武术中小学学生课余武术训练

娄底市农村义务教育教师流动状况调查及对策研究

义务教育是国家教育大厦的基石,教师是义务教育的第一资源,在人才流动日益频繁的今天,义务教育教师作为人才的一部分,也融入了人才流动的大潮。如何吸引优秀人才,如何留住优

学位

娄底农村义务教育教师流动对策

中学思想品德课堂学习情境的创设

长期以来,我们的中学德育课教材尽管发生了很大的变化,但许多教师还是习惯于把道德观念灌输给孩子,这样的道德教育必然缺乏实效性。中学德育课中,道德理念的建立、道德行为的

学位

中学德育学习情境创设

未成年人家庭责任观念与学校德育

未成年人家庭责任的养成是一个极为重要的社会问题,不仅关系到社会秩序的稳定和人际关系的和谐,而且与未成年人自身的成长有着密切的关系。未成年人家庭责任的培养是一个系统

学位

未成年人家庭责任观念德育养成

申报“中国傩戏之乡”和“国家级非物质文化遗产”

金黔在线讯德江努力打造傩文化品牌,目前正紧锣密鼓申报“中国傩戏之乡”和“国家级非物质文化遗产”。$$　　傩文化被称为“中国戏剧活化石”,是中国最古老的一种文化形态,

报纸

秦汉乡里制度和管理研究

秦汉时期的里是帝国的最小行政单位,人们生产生活的居住地;乡是郡、县之下的一级行政区划,上沟通县,下统辖里。秦汉乡里的诞生,经历了漫长的演变过程。殷商时期,邑、丘、里是

学位

秦汉乡里管理教化治安

基于LabVIEW虚拟仪器实验教学系统的研究

对于高等工科院校来讲，实验教学起着相当重要的作用。近年来各大高校纷纷扩招，学生人数急剧增加，实验室的设备和规模都难以满足需要，尤其是像自动测试、虚拟仪器及总线设备类的课

学位

虚拟仪器LabVIEW实验教学数据采集CAN现场总线

济南市城市营销战略研究

随着经济全球化进程的不断深入,区域日益成为全球经济活动的主要单元,城市则是这个单元经济活动的核心。而随着信息化以及WTO制度在全球范围内的逐步展开,城市发展必然面临信

学位

城市营销城市营销战略城市定位城市形象城市品牌

联合国人权条约监督机制评析

本文阐述了联合国人权条约监督机制产生的必要性及该监督机制的基本框架和主要特征；围绕联合国已生效的7个核心人权条约，对条约监督机构的人员组成、选举制度、运行规则及其与

学位

联合国人权条约监督机制评析

“互联网+”时代小学体育教学面临的机遇与挑战

"互联网+"是一种先进的生产力,能够推动经济社会的不断进步,为社会改革与开放提供宽广的平台。"互联网+"时代让互联网与教育资源深度融合,使教育资源能够得到更加充分的配置,

期刊

互联网+小学体育教育资源机遇挑战

基于统计的汉英机器翻译技术的研究

与本文相关的学术论文