基于神经网络机器翻译的机器译文质量估计研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:z30405060
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句子级别的机器翻译质量估计任务以源语言语句及对应的机器翻译译文为输入,对译文的质量进行估计。随着近几年机器翻译的发展,机器翻译质量估计逐渐成为自然语言处理领域内的一大研究热点。近些年,随着深度学习的发展,使得基于深度学习的神经网络机器翻译模型得到广泛关注和应用。并且,机器翻译质量估计任务和机器翻译关系紧密,所以本课题希望借助神经网络机器翻译模型来提升机器翻译质量估计模型的性能。本文首先进行了一些基础实验,包括采用语句单词的词向量平均值作为特征的机器翻译质量估计实验等。通过这些实验,得出了在译文质量估计问题上,选用合适的特征比模型对预测效果的影响更大的结论。目前借助神经网络提取机器翻译质量估计特征的方法中,有一种是直接将语句单词的词向量求平均值的方法,该方法完全忽略了语序、词语间的相互联系等有效信息,因此本课题提出了一个借助神经网络机器翻译模型来提取融合了翻译知识的特征的方法,并通过实验证明该特征相比于词向量特征预测能力更强。然后在此基础上,尝试对上述融合翻译知识的特征的提取过程进行改进,但是实验结果表明改进后的特征的预测效果并没有提升。最后,课题对该特征和其他特征的不同组合方式进行了探索,添加其他特征之后,预测效果有所提升,证明了该特征和其他特征在一定程度上互补。本课题提出的融合翻译知识的特征提取过程,相当于是分别对源语句和目标语句建模,而句子级别的机器翻译质量估计任务要求预测译文的质量HTER,这需要对源语句和对应的机器翻译译文之间单词级别的联系进行更加细致的建模。而词级别的机器翻译质量估计模型是对译文的每个单词输出错误还是正确的标签,相比于分别对源语句和译文建模,这种方式更加细致,因此课题还探索了使用词级别的机器翻译质量估计模型来对句子级别的机器翻译质量估计任务进行预测。最终取得了较好的研究成果。
其他文献
随着互联网的不断发展壮大,Internet已经成为世界上最大的信息资源库。同时,面对纷繁冗杂的网络资源,如何从中准确、快速、全面的获取人们所需要的信息已经成为一大难题。搜索引
人脸是我们最熟悉的器官,但真实感人脸合成却是计算机图形学领域中最困难的问题之一。自从上世纪70年代Parke建立了世界上第一个人脸合成系统以来,具有真实感的人脸合成就一
需要打印连续色调图像(Continuous Tone Images,例如照片)时,首先要经过一个加网(Screening)的过程,这一加网过程使得连续色调图像变成二值的数字半色调图像(Digital Halftone I
Universal Description,Discovery and Integration,简称UDDI,是构成Web Services的重要基础设施之一,在整个Web服务体系内提供服务发现功能,是 Web服务能够从实验室走向工业界必
信息安全风险评估,是依据国家有关信息安全技术标准,对信息系统进行科学评价并为受评机构提供具体安全措施建议的过程。没有准确及时的风险评估,机构将无法对其信息安全的状况做
通用串行总线(Universal Serial Bus,USB)是一种新兴的外设总线标准,具有即插即用、数据传输快速可靠、扩展方便、成本低、功耗低等优点,已成为当今个人计算机必备的接口之一,同
近两年来,流媒体技术在网络多媒体传输领域的应用越来越广泛。P2P技术的引入也使流媒体摆脱了完全依靠单一服务器的模式,降低了网络带宽占用率,提高了服务质量。涌现出了大量的
集成了传感器、嵌入式计算、网络和无线通信四大技术而形成的无线传感器网络是一种全新的信息获取和处理技术,它是—种新型的无基础设施的无线网络,能够协作地实时监测、感知和
无线网络近年来得到了大规模的应用,但是,无线网络链路本身具有信号衰落、外部干扰、多路访问竞争、节点移动等特点,使得链路的比特错误率较高,从而导致了无线网络下的TCP协
电力需求侧管理系统中汇集了各个厂商,各种不同型号的设备,使系统的功能日趋丰富。然而各个生产厂家在传输规约上基本没有统一的标准,不同厂家设备通信联接困难,给系统维护和升级造成很大的隐患。 本文对工业自动控制领域的规范--OPC技术(OLE for process control)和变电站需求侧分布式系统进行了深入的研究,针对的需求侧管理系统存在的问题,提出了在变电站需求侧系统中引入OPC技术的