大规模分布式统计机器翻译离线模型训练方法与系统

来源 :南京大学 | 被引量 : 0次 | 上传用户：fellting

【摘要】

：

随着信息技术的快速发展和全球学术、人文的广泛交流,一方面用于机器翻译的平行语料数据集呈现出爆炸性增长的趋势,另一方面实际生活中对机器翻译服务的应用场景也日益增多。

【作者】

：

杨文家

【出处】

：

南京大学

【发表日期】

：

2004年期

【关键词】

：

统计机器翻译分布式机器翻译模型分布式数据并行计算平台

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的快速发展和全球学术、人文的广泛交流,一方面用于机器翻译的平行语料数据集呈现出爆炸性增长的趋势,另一方面实际生活中对机器翻译服务的应用场景也日益增多。统计机器翻译的翻译质量很大程度上取决与平行语料数据集的大小。然而随着语料数据集的增加,传统单机机器翻译系统的模型训练耗时急剧增长,这严重制约了统计机器翻译模型的深入研究及其应用推广。因此,研究大规模分布式统计机器翻译系统具有很大的研究意义和实用价值。现有的分布式统计机器翻译工具存在模型并行训练性能和可扩展性不足的缺陷,并且难以支持完整的机器翻译离线模型训练流程。事实上,设计实现高效的分布式统计机器翻译离线模型的训练流程存在诸多困难。首先,统计机器翻译中繁多、复杂的任务对计算资源的需求各不相同,这使得在有限的硬件资源下设计高效的并行化算法具有一定的挑战性。其次,模型训练过程中产生的大量I/O和网络通信开销,会严重影响模型的并行化效率。最后,若对原始训练数据集或数据集分区中数据倾斜问题的处理不当,容易拖慢整个模型的训练流程。针对上述难点问题,本文在分析现有研究工作的不足和并行化统计机器翻译模型难点的基础上,基于广为使用的分布式数据并行计算平台研究并实现了一个完整、高效、弹性可扩展的大规模分布式统计机器翻译离线模型训练系统,为机器翻译的模型研究和应用服务提供了有利支撑。本文主要研究工作内容与贡献点如下:(1)针对耗时较长的离线模型训练部分,分析和研究了每个模型或算法的处理流程,完成在大规模场景下的并行化模型训练方法与算法的实现。其中,词对齐模型部分包括预处理和相应的词对齐模型的并行化训练,翻译模型包含三种翻译模型的并行化训练,语言模型支持四种概率平滑算法进行并行化训练。(2)系统负载均衡和网络通信优化。在词对齐模型中设置合理的分块阈值,在保证并行效率的前提下,降低I/O操作和节点间网络通信带来的开销。在翻译模型训练中对原始数据进行数值化处理,降低中间数据集的规模,以及系统负载和网络通信量,从而提高模型整体训练效率。(3)按照训练流程中需要多次模型参数的特点,研究实现了使用join算子的并行化最大似然估计优化算法。主要有两种优化策略,一是广播小表到分布式大表,避免全局join;二是对两个待join的分布式大表使用相同的partitioner,使得它们内部数据预先满足相同的划分规则,从而避免执行过程中的数据shuffle。(4)针对模型训练中存在的数据倾斜问题,研究实现了两种优化策略。一是适当提高模型训练并发度(或重分区);二是使用两阶段聚合策略,首先对初始key添加随机前缀,使其均匀地分布到各个计算节点。然后在每个节点进行局部聚合,最后去掉前缀进行全局聚合。(5)最后,基于广为使用的分布式数据并行计算平台Spark设计实现了上述大规模分布式统计机器翻译离线模型训练的原型系统Seal,并在大规模数据集下进行了性能评估与分析。实验结果表明,Seal的并行训练性能优于现有的单机和分布式统计机器翻译离线模型训练工具,同时还具有更好的可扩展性。

其他文献

Airtraq DL喉镜用于声门暴露困难患者的双腔气管插管5例

困难气管插管是麻醉医师经常面对的挑战.造成插管困难的主要原因之一是声门暴露困难[1],据报道声门暴露为Cormark-Lehane分级Ⅱb以上患者发生困难插管的概率可达67.4%[2].Air

期刊

喉镜双腔导管气管插管

韩—薛—柯氏综合征伴排便困难1例报告

期刊

组织细胞增生症儿童

真菌几丁质酶及其在植物真菌病害防治中的作用

真菌几丁质酶在几丁质资源利用和植物真菌病害防治中有广阔的应用前景。文中概述了真菌几丁质酶的特性、作用机制及其在植物真菌病害防治中的作用，并对真菌几丁质酶利用存在的

期刊

真菌几丁质酶真菌病害生物防治

早春鲜食花生生产技术

根据市场的需求,发展早春鲜食花生生产,不仅可以解决常规作物播种时的劳力紧张问题,还可以提高土地复种指数,增加农民种植花生的经济效益.现将早春鲜食花生生产技术介绍如下.

期刊

鲜食花生早春生产技术作物播种复种指数种植劳力土地市场

数字水文地质生态调查方法的新领域

20世纪末-21世纪初，新兴的信息技术得到突飞猛进的发展，这不能不影响到水文地质生态调查方法的完善。一方面，在计算机的生产能力不断增长的背景下各种数学方法的发展，另一方面，各

期刊

数字水文水文地质调查地下流体数字模拟模拟方法方向发展生产能力信息技术领域

加强对外交流提升地调科研水平

应俄罗斯科学院院士、俄罗斯科学院地质生态一工程地质和水文地质科学委员会主席、地质生态研究所所长B．и．奥西波夫的邀请，以中国地质调查局水文地质工程地质技术方法研究所副

期刊

对外交流科研水平中国地质调查局俄罗斯科学院基础科学研究地质生态地质科学工程地质水文地质科学院院士

猫叫综合征的细胞遗传学研究

期刊

猫叫综合征细胞遗传学儿童

我国房地产企业所得税的博弈研究

近些年来,我国房地产行业高速增长,房地产企业成为我国的“纳税大户”。但在其为我国带来财政收入的同时,我们发现房地产业为我国财政收入做出贡献的速度,与其行业产值的增长速度相比显得十分缓慢。有关税务部门的具体征管一直是热点话题,如何课税有利于防止税收流失,房地产业如何合理进行税务筹划都是令人关注的问题。金税三期上线以来,税务部门征管工作,不管是深度还是广度都迈上了一个新台阶,但是对于房地产业庞大的涉税

学位

房地产企业企业所得税博弈论

城市居民健身休闲满意度对休闲行为意向的影响研究

随着城市化水平的不断提高以及全民休闲时代的来临,休闲城市的构建与发展已经成为社会各界人士关注的焦点问题,而且随着城市居民闲暇时间的不断增多,参与健身休闲活动也已成为城市居民日常生活中主要的休闲活动之一,探讨城市居民健身休闲满意度与行为意向的关系则显得尤为重要。国外学者对于城市健身休闲空间中满意度与休闲行为意向的研究相对较早,主要探讨满意度评价指标体系,服务质量、感知价值、满意度及行为意向的影响关系

学位

城市居民健身休闲满意度行为意向结构方程模型

基于人机工程学理念的宠物医疗台研究与设计

随着经济的发展,老龄人口数量的增加、家庭人口结构的变化,豢养宠物的家庭越来越多,宠物也逐渐成为很多家庭的一员。近十几年来我国宠物数量快速增长,宠物医疗行业也逐渐形成规模。由于中国宠物医疗行业起步较晚,宠物医疗条件差,医疗设备落后,医疗过程中存在着较多不人性化的操作及安全隐患,这种现状急需得到改善。本课题主要是根据中国宠物医疗现状及需求,运用人机工程学的理念,对医生在治疗宠物过程中出现的各种操作问题

学位

人机工程学宠物医疗台智能化设计

大规模分布式统计机器翻译离线模型训练方法与系统

与本文相关的学术论文