适用于汉蒙统计机器翻译的形态切分方法探究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:hongyanzhiji761112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译(Statistical Machine Translation,简写SMT)是机器翻译中的主流,也是当前非限定领域机器翻译中性能较高的一种。其基本思想是通过对大规模的平行语料进行统计分析,构建统计翻译系统模型,利用此模型进行翻译。   基于词的统计是最早的统计机器翻译系统方法,但是却因为建模单元过小而受到一定限制。基于最大熵模型的区分性训练方法的提出使基于词的机器翻译过渡到基于短语的翻译,并正在融合句法信息,以进一步提高翻译的精确性。   不论是基于词的统计模型还是基于短语统计模型本质上都是词汇化的。对于形态丰富的语言,由于其语言本身词法,语法变化繁多。词干后附加各种词缀及附加成分来表达词法的或语法上的意义。对于汉蒙统计机器翻译,两种语言的特征差异较大,从而产生严重的信息不对称,歧义,数据稀疏等问题。   形态丰富语言的词切分是对其进行信息处理的重要基础。近年来各种新模型、新方法的提出大大提高了切分质量。而应用形态信息的机器翻译方法并没有太多发展。不同于传统的严格基于语言学上的形态切分,我们主要针对汉蒙统计机器翻译系统中形态信息的应用,将基于短语的统计机器翻译模型与形态切分融合。我们的方法考虑了源语言的目标语言互译信息,提出了有针对性的目标语言形态切分。采用基于词典的搜索式切分对语料库进行预处理,后处理中运用最大熵模型训练蒙古语的形态生成。该方法有效的融合了形态信息的同时避免了传统的形态生成的复杂计算。   主流的统计机器翻译评测方法中,将单个词作为独立的基本单元实体进行评测,忽略了单个词中包含的形态结构信息。对于形态丰富的语言,大量构词构形信息包含在词缀中。对此类语言进行自动评测时,一个词素的错误导致整个词在评测中的错误。忽略了形态因子在译文中的价值,使得此类评测方法无法给予在形态信息表征上取得进步的系统更合理的评分。所以我们提出了一种基于形态因子的蒙古语机器翻译评测方法,在统计模型中加入语言特征的方法,解决了过度切分带来的粒度过小,结果不准确问题。丰富了对于形态丰富语言的评测方法和标准。
其他文献
一年一度的各级人代会相继召开,从《政府工作报告》上,总看到许多令人欢欣鼓舞的数字。然而, 在有些地方,不少与会的人民代表, 却感到有些数字与事实有不小出入, 基层的民情
行政事业单位在我国的地位不可忽视,其在许多方面都发挥着不可替代的作用,但从行政事业单位的现状来看,可以发现其日渐凸显出许多问题.行政事业单位加强内部控制建设,是帮助
随着我国国有经济体制改革的深化,石油销售企业也在寻求更大的发展和进步.在此过程中,石油销售企业需要紧抓市场机遇,并对自身的经营管理模式进行创新,以便为国家发展提供更
在企事业单位经营管理中内部控制是一项有效的管理措施,能够有效监督和调整企事业单位的各项经济活动,并以此为基础形成一种制约的机制和体系.企事业单位单位实施内部控制的
在当前国内外经济走势低迷的环境下,建筑施工行业发展动力不足,加强内部管理是企业当前发展的重点.而随着管理会计在我国企业应用的不断深化,管理会计工具得到了企业的重视,
伴随着生产技术的日益成熟和进步,我国制造业逐渐向数字化过渡,这对于制造业行业造成了一定的冲击,行业竞争日益加剧,走低成本战略成为企业发展的必要选择.制造企业健康发展
资金是保障企业正常运行的基础,资金短缺会造成企业资金链断裂甚至出现破产可能.对于我国高新技术企业而言,技术的研发更加需要大量资金的投入.我国改革开放以来,科技兴国的
在政府对基建事业的大力支持下,建筑施工企业的发展不断加快,在发展过程中面对的市场竞争压力日益加剧,建筑施工企业需要扩张业务规模,其费用加大成本投入,提升企业的综合实
对于国有集团企业而言,资金管控工作的加强不仅可以强化自身的资金管理工作,还可以提高自身债务风险防范水平,对企业经济效益的提升是十分有利的.但就目前情况看,很多国有集
介绍了自行设计、加工的模拟煤与瓦斯突出的二维实验装置及配套的压力数据自动采集处理系统。在二维模拟实验装置上做了一系列的实验。实验发现,煤样的破坏存在“开裂”和“突