基于SVM的机器翻译自动评价方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dozen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译自动评价是近年机器翻译研究工作中的热点问题。机器翻译的自动评价具有速度快、成本低、一致性强的特点,在机器翻译系统的开发周期中起着重要的作用。句子级机器翻译评价的性能目前低于系统级评价,而人们对句子级评价的需求,促进了句子级机器翻译评价的研究工作。  在句子级机器翻译评价的研究工作中,机器学习方法得到了广泛的应用。其中基于支持向量机(SVM)方法的应用最为广泛。支持向量机的学习策略包括分类、回归和排序三种,而本文主要研究了回归策略和排序策略。  在机器学习方法中,特征的选择是至关重要的。本文通过探讨语言学特征与传统的基于字符串相似度的特征间的相互作用,以及分析英汉翻译测试中各种翻译错误与人工评价间的相关性,得出了“在关键语言层次上设计关键特征,并与基于相似度特征相结合”的特征选择策略。  根据本文的特征选择策略,本文设计了六个基于语言学知识的特征,并将其与三个基于字符串相似度的特征结合起来,使用语言学特征、基于字符串的特征,以及所有九个特征训练了SVM回归模型,实验表明,六个语言学特征具有与基于字符串特征不相上下的表达能力,而两类特征的结合、互补,带来了显著提升的性能。学习曲线分析表明,几种特征组合均呈现了稳定的性能和良好的泛化能力。  本文在NIST和WMT两类数据集上对SVM回归和SVM排序上进行了性能、泛化能力以及鲁棒性的比较。通过实验,本文发现在同构数据集上,SVM回归的性能要优于SVM排序,而在异构数据集上,SVM排序则表现出较强的鲁棒性。而且,通过考察两种策略在基于译文质量排序的人工评价上的排序准确率,本文发现SVM排序方法在分辨译文质量差异上的能力要优于SVM回归方法,而且需要相对较少的训练样本就可以达到稳定的性能。
其他文献
对于分段光滑的一维信号,小波提供了简单有效的表示方法,在高维情况下,小波变换并不是最优的函数表示方法。多尺度几何分析发展的目的和动力正是要致力于发展一种新的高维函
本文在研究和分析现有的无线传感器网络基于位置信息的路由算法的基础上,结合物理学上密度的概念,给每个节点定义了一个新的状态参数――能量密度。能量密度的取值大小是与节
随着科技的快速发展各个行业领域对数字图像的运用也日益增多,图像的数据由于各种各样的外因会造成缺失,图像修复技术作为图像处理领域中的重要组成部分,该技术通过填充缺失
数字水印技术作为新一代的信息安全技术,为实现版权保护或跟踪侵权行为提供了一种有效工具。但同时要求算法具有较强的抗攻击能力,特别是对各种形式的几何攻击。本文在小波分
心脏是人体的重要器官,心脏疾病严重威胁着人类的健康,因此,对心脏生理机能的研究越来越受到人们的关注。传统的研究手段通常是借助于动物实验的方法。但是这些方法不仅周期
日益普遍的移动生活和工作方式导致传统的商务管理模式正在转向以企业信息化和社会信息化为基础的移动电子商务管理模式,以实现企业实时、高效管理为目标的企业移动业务管理
机器翻译是指借助计算机将一种自然语言转变为另一种自然语言,该研究是自然语言处理领域的一个重要分支。统计机器翻译作为机器翻译的主流方法,具有坚实的理论基础和成熟的翻
随着Internet的发展,例如大量影院网站的出现和网页网络游戏的出台,网络用户对Web服务质量提出了更高的要求。目前Web服务主要依赖TCP的支持,然而基于单宿的TCP难以满足大规
无线移动Ad hoc网络(MANET,以下简称Ad Hoc网络)作为没有基础设施的网络,在军事和民用方面具有广阔的应用前景,是目前网络研究中的热点问题。随着近年对Ad hoc网络安全的研究
在自认证密码体制下,用户的公钥由自己生成,一个称为认证中心CA(Certificate Authority)的可信第三方生成用户的部分私钥,用户利用这个部分私钥和自己随机选取的秘密值生成自