基于字形的英汉机器音译改进研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yingzizhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器音译就是根据发音将给定的源语言中的专有名词自动翻译成目标语言对应的词汇的过程。相对于机器翻译而言,机器音译不存在语义层次的翻译要求,并且是一种顺序翻译的过程,不存在音译对之间调序问题,所以机器音译是一种相对弱化的机器翻译。因此机器音译的研究对于机器翻译而言具有重要的理论意义。目前不断增长的全球化趋势需要跨过语言壁垒获得全世界范围内的有效有价值的信息,因此机器音译在跨语言应用中的作用也日益凸现,机器音译的研究因此也受到越来越多的关注。不同语系间的机器音译存在着巨大的挑战性,如英/汉之间的机器音译。因其采用不同字母表和发音系统,音译过程相当复杂且存在众多导致音译性能下降的因素。目前关于中英文的跨语言应用研究有很多,本文调研了近三年机器音译研究现状,对重要会议上发表的所有16篇音译相关文献中提出的新方法进行了全面而详实的分析,通过比较,本文采用性能较好的基于字形的英汉机器音译框架,首先探索了语料规模的扩大对于音译性能的影响,进而引入判别学习解决英汉音译中提高性能的瓶颈问题,即改进音译单元对齐效果的问题,并探讨了不同的半指导学习样本对于判别式模型的作用,以期获得较好的学习性能。本文即是从提高英汉机器音译性能的可能途径入手,研究改进音译的方法。具体的讲,本文从以下几个方面进行了研究:1.本文进行了语料规模对于机器音译性能影响的研究。在基于字形的英汉机器音译框架下,采用了噪声通道模型(NCM)和联合信源通道模型(JSCM)建模以捕捉字形的上下文信息,并进行了两种模型下机器音译性能实验。进而进行不同语料规模的实验,研究语料规模给基于字形机器音译带来的改变。2.利用EM算法进行了英汉音译单元等级上的对齐研究,并引入判别学习方法解决英汉音译单元对齐中存在的问题。本文使用了新的音译单元对齐EMD方法,并通过实验比较了EM算法和EMD方法获得的对齐语料的性能。实验表明采用EMD算法提高了英汉机器音译单元对齐的性能。3.本文介绍了现有的机器学习方法,及判别学习框架下的机器音译单元对齐方法,并着重在半指导需要的标注数据的选取上作了讨论。使用不同的标注语料进行音译单元对齐的封闭测试和开放测试。讨论半指导机器学习方法对于提高音译单元对其性能的作用。同时分析根据不同的规则选择的半指导标注语料对于模型性能提高的作用。
其他文献
随着数字科技的迅速发展,从彩色图像中提取文本信息的研究越来越受到人们的关注。图像中的文本信息可以作为图像资料的自动注释、索引、压缩等方面的重要参考。在过去的40年
无线传感器网络,也称感知网,是一种由大量体形小、成本低,具有通信能力的传感器通过ad hoc方式形成的网络。其能够实时获取、分析、融合周边环境信息,反馈给后台用户,在环境
蚁群优化算法是思想源于自然现象的meta-heuristic算法,经历了十多年的发展已经成为解决很多优化问题的有效工具。最大团问题是经典的NP难的组合优化问题,它不仅在理论上有比
人体运动图像的背景分割是人体运动分析过程中的第一个步骤,是人体运动分析的低级处理部分。该阶段的处理效果直接影响到后续工作的进展,其分割结果对最终的人体运动分析结果
工作流管理系统是定义、创建和管理工作流运行的系统软件。它在企业级应用有着很大的市场,全世界有很多研究机构、软件厂商和大学都对工作流管理系统给予了极大的关注。国内
生长在不同的力学环境下的活体细胞将发生多种不同程度地适应性变化。定量研究细胞和亚细胞结构的运动和形态的动态变化特性,有助于理解力学刺激和细胞生长的关系,也有助于理解
可定向投放是网络广告的一大特点。数字时代的新技术使网络广告的定向投放成为可能:网络广告可以投放给某些特定的目标人群,甚至可以做到一对一的定向投放。数据挖掘作为一种先
目前世界上所有的数据库系统都没有提供故障排除的功能,全是容错概念,鉴于国内外技术现状归根结底都是容错技术,不可避免存在两个问题,一是允许故障共存,无法预防故障的发生,
使用IEEE 802.11协议的无线局域网(Wireless LAN, WLAN)当前已经有了广泛的市场应用,但是由于无线网络开放性的特点和802.11协议自身存在的缺陷,无线局域网的安全性一直受到
通过图形学的方法描述自然界的各类现象一直以来都是计算机图形学研究者所关注的重点,而对动态流体的模拟问题更是其中的难点研究问题。从流体模拟方法的发展进程来看,经典几