基于神经网络学习的统计机器翻译研究

被引量 : 0次 | 上传用户:QiuWK
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,统计机器翻译(Statistical Machine Translation, SMT)研究蓬勃发展,机器翻译效果有了很大改善。然而,机器翻译研究也遇到了双语数据不足、缺乏有效特征表示等困难,影响词对齐、调序、翻译建模等机器翻译关键模块的进一步提升,机器翻译的效果仍不尽人意。与此同时,深度学习作为一种新的机器学习方法,能自动的学习抽象特征表示,建立输入与输出信号间复杂的映射关系,给统计机器翻译研究提供了新的思路。本博士论文的工作就是探索如何使用深度神经网络,对统计机器翻译中的关键问题学习能更好描述翻译现象的表示,提高统计机器翻译的性能。具体的说,本论文的主要工作和创新成果如下:·提出了一种基于深层神经网络的词对齐方法。我们的模型将一个多层神经网络和一个无向概率图模型结合,有效的利用了词汇的相似性和上下文信息对词对齐进行了更准确的建模。我们考察在单语数据和双语平行语料上进行半监督和无监督训练的方法。大规模的中文到英文词对齐实验表明,本章提出的模型相较基准系统显著的改善了词对齐的效果。·提出了一种基于神经网络的统计机器翻译预调序模型。本方法利用神经网络降维方法,从未标注数据学习任意调序特征的低维向量表示,然后利用一个多层神经网络,将低维特征表示和其他特征结合起来,融入到一个线性排序的调序模型中。中文到英文以及日文到英文的机器翻译实验结果表明,相比于基准系统,本文提出的基于神经网络的预调序模型上能显著提高机器翻译系统性能。·提出了一种新的递归重现神经网络对翻译解码过程建模。递归重现神经网络结合递归神经网络和重现神经网络,不仅能使用全局特征对翻译对应关系进行刻画,还在翻译解码过程中动态的对翻译解码树动态生成抽象表示。我们将此模型运用到机器翻译解码过程中,并提出一种分三步的半监督训练方法对此模型进行训练。此外,我们还探索了翻译短语对的表示方法,提出了一种基于翻译置信度的短语对表示。中文到英文的翻译评测实验表明,该方法能使翻译性能获得明显提升。本博士论文探讨了使用神经网络学习方法改善统计机器翻译中三个主要方面的性能。针对每个具体问题,我们设计了专门的神经网络结构,对相关特征学习了特定的抽象特征表示。在将来的研究中,我们希望对这些抽象表示进行总结,利用神经网络和统计机器翻译技术探索一种普适的语言表示,用以帮助其他的自然语言处理任务。
其他文献
本文通过采集2000年至2010年十年间我国专利数据,按照中药专利申请的年份、内容、权利归属进行统计分析,对比分析十年间我国专利申请的变化情况,以了解我国专利申请的发展情
1由测试器件、测试目的和预算确定暗室的种类和尺寸。2由暗室的种类和尺寸确定吸波材料的允许尺寸和吸波性能。
从经济学角度来讲,教师教育作为服务类产品既包括直接产品,又包括间接产品。教师教育提供的直接产品主要指对学生和教师进行的教育和培训;间接产品主要指受教育者个人和全社
近年来关于兰科植物手参属植物的研究越来越多,鉴于近几年报道的多样化,对手参属的特征、化学成分的分析、有效成分的含量测定、药理活性及临床应用进行了综述,以期对今后手
内蒙古自治区名老蒙医学术经验继承工作的开展及相关政策的制定,对蒙医从业人员的临床能力、科研能力、学术素养,甚至对整个蒙医药文化遗产的保护与传承起到重要作用。如果下
社会自我效能感作为个体对自身社会表现能力的一种主观预期和控制感,对个体的人际交往行为和社交表现起着十分关键的作用,此前的研究发现成人依恋作为一种内部资源,社会比较作为
<正> 随着浮法工艺在我国平板玻璃行业的逐步推广,它在产量、质量和经济效益等方面的优越性正越来越显著,因而它将最终取代传统引上法的趋势已经显而易见.根据统计资料表明,
本书对财富做出了全新的定义,讲述了生态财富革命、硬财富革命和软财富革命这3次财富革命,从全新的视角,结合丰富的历史资料给国家、企业、个人等不同层面在财富观和财富战略
本文概述了最近几十年英文论著中关于中国民国时期报纸研究的情况,梳理了近期包括文学研究者、历史学家在内的大量重要研究成果,分析了这个领域的现有研究主题,如民国报纸与
本文利用考古发掘资料研究西夏陵陵园布局与建筑特点,表明西夏陵不是模仿宋陵而建出的。西夏陵是经过吸收汉族文化、佛教文化、党项族文化,又混合了政治与皇帝个人意志后创造