基于实例的汉英依存树到串机器翻译方法研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:jn27
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是自然语言处理领域的一个重点和难点问题,拥有着巨大的科学研究价值以及广阔的商业应用前景。近年来,基于实例的机器翻译发展十分迅速,取得了较为突出的成绩。基于实例的机器翻译其翻译性能非常依赖于实例库的质量,而实例库的质量体现为实例能够被正确检索的概率。如何有效提升实例库质量进而提升翻译系统性能,一直以来都是研究人员共同努力的方向,也是基于实例的机器翻译的研究热点之一。近年来,基于实例的机器翻译系统普遍采用结构化的方式存储翻译实例,在实例中融入更多的句法结构和语义信息,以提升实例的可靠性。句法结构实例的获得往往需要对原始语料进行分词、词性标注和句法分析的预处理,传统方法往往对这三大基础任务作管道式的依次处理,这会导致任务间既存错误的迭代传递进而影响结构化实例的准确性和可靠性。本文以此问题为切入点,以汉英实例机器翻译为主要研究方向,重点研究了基于实例的机器翻译中结构化实例库的构建方法。本文的主要研究成果包括:(1)提出了一种汉英依存树到串实例库的构建方法。一方面,融入中文词法句法分析联合模型对中文语料进行处理,旨在降低汉英EBMT中源语言端基础任务中的错误传递,提高提取层次间特征的准确性。其可靠性在大规模训练语料的实验下得到了有效验证。另一方面,基于传统方法的同时结合本系统的实际情况,提出了一种实例泛化的方法,可有效提高实例的实用性。(2)基于本文构建的汉英依存树到串实例库,对传统的相似实例检索及译文生成方法作了相应的改进,完善了系统的相似实例检索及译文生成模块。(3)对本文提出的系统各模块方法进行有机整合,形成了一个完整的实例翻译系统。系统性能在大规模训练语料的对比实验下得到了有效验证。本文方法首次将中文词法句法分析联合模型融入基于实例的机器翻译系统中,借以构建高质量的汉英依存树到串实例库,并完整实现了一个基于实例的机器翻译系统。机器翻译系统性能比较的实验证明了本文所提方法的有效性,可有效获取正确率较高的译文。融入联合模型的对比实验结果表明,本文将中文词法句法分析联合模型融入实例机器翻译系统中的方法可以有效提升译文质量,改善系统性能。
其他文献
本文致力于利用流量特征,设计面向入侵检测的流量选择方法进而构造与之相适应的DIDS系统,以解决主干网中IDS处理性能跟不上网络链路速度快速增长的问题。研究内容主要分为如下
网络模拟技术作为研究网络性能、设计网络方案所不可缺少的工具,得到了越来越多的重视。而在网络模拟研究中,路由策略是影响网络模拟性能最为重要的因素,如何在有限的硬件资
随着全球经济的高速发展,社会对交通运输需求持续增长,交通问题已成为世界各地城市,尤其是大城市面临的首要问题之一。近年来,随着智能交通系统的开发和无线传感器网络的研究
运用目标提取算法从连续视频图像中提取并优化运动目标,是运动跟踪、目标识别、视频监控、视频摘要、三维重建等问题的关键环节,由于其广泛的应用及本身的复杂性,运动目标检
汽轮机作为火力发电厂重要的大型旋转机械,处于生产环节中的关键地位,对其安全性和可靠性有很高的要求。为了保障汽轮机组的正常运行,汽轮机监测保护装置(TSI,Turbine Supervisory Instrumentation)在机组的保护中正在被越来越广泛的使用,由此可见,监测保护装置是否可靠在很大程度上也决定了汽轮机组的运行情况。目前汽轮机监测保护装置卡件的定期校验需要拆解送到实验室来进行,并且
近年来,随着高性能移动终端设备的普及,人们已经习惯将文档、音乐、视频等文件存放在自己的手持设备中。因此,如何使用户随时随地的进行文件共享,实现P2P (Peer to Peer)技术
集成学习使用多个学习器来解决同一问题,能够显著提高学习系统的泛化能力,成为近年来机器学习领域中一个重要的研究方向。尽管集成学习的经典算法族Boosting和Bagging已经研
最优化问题广泛存在于人类社会的生产与生活中,随着科学技术的发展以及相关问题复杂度的提高,人们对优化技术也提出了更高的要求。微粒群优化算法(Particle Swarm Optimizati
随着科技的不断发展,网络技术和数据库技术得到广泛的应用,企业存储的数据量也急剧上升。虽然企业拥有着大量的客户数据,但却无法从海量数据中提取蕴藏在其中的商业信息。如
作为网络通信的安全保障,安全协议是整个信息系统架构的安全基础。为了保证安全协议的正确性,研究人员提出了一系列基于形式化方法的自动化验证算法来对安全协议进行分析验证