短语切分概率在统计机器翻译系统中的应用

来源 :中国中文信息学会二十五周年学术会议 | 被引量 : 0次 | 上传用户:cqwzhy1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在统计机器翻译领域,基于短语的翻译模型的性能优于基于词的翻译模型.目前在基于短语的所有机器翻译模型系统中,源语言都是以均匀分布的方式进行短语切分,然后将所有可能的短语切分结果送入解码器,最终得到翻译结果.遗憾的是,这种基于均匀分布模型对源语言进行短语切分的方式没有充分结合源语言的语言学知识,可能会误导翻译模型以致选择错误的候选目标短语.本文提出通过对源语言知识进行统计学习,获得短语切分概率模型,以指导对源语言进行合理的短语切分.短语切分概率模型可以独立成为一个新的特征,因此能够非常容易的嵌入以最大熵模型为框架的主流统计机器翻译系统中.通过对中英翻译和法英翻译的实验评测,证明了该方法可以明显改善统计机器翻译系统的性能.
其他文献
分析了突发事件新闻的特点、建设突发事件新闻语料库的目的和意义,研究了突发事件新闻语料的分类体系和编码.研究结果对突发事件新闻语料库的建设、突发事件新闻信息检索、国
目的 观察曲普瑞林联合反加疗法治疗腹腔镜术后重症子宫内膜异位症(EM)的临床疗效.方法 选择2014年6月至2015年6月期间于本院接受腹腔镜手术的重症EM患者99例,随机分为对照组
中國實施現代式中等教育快够五十年,而一向被两個麻煩問題纠缠着。頭一個是:普通中學越來越被人嫌多,而中等職業學校雖然屢次得人提倡,可是老發展不起來。這個問題,若借用世
目的 观察喷他佐辛对坐骨神经慢性缩窄性损伤(CCI)模型大鼠疼痛阈值、皮肤中P物质(SP)及神经激肽1受体(NK1-R)表达的影响.方法 36只雄性SD大鼠随机分为对照组、模型组和治疗
olaratumab为一全人源化IgG1单克隆抗体,可选择性与血小板源性生长因子受体α(PDGFR-α)结合,阻断血小板源性生长因子(PDGF)与PDGFR结合,从而抑制PDGFR-α的活性,干扰受体的
网页检索结果中,用户经常会得到内容相同的冗余页面.本文提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法.该方法的基本思想是:首先,抽取新闻要素中关于事件发生
去京师西南遥约万九百余里。有城曰拉萨。拉萨西藏都会也。城建于南北朝之间。距今千四百余年。唐时属党项吐蕃。所谓逻娑是也。元封喇嘛帕斯八为法王。驻居此地。始倡红教。
本文通过对知识管理和机器翻译相关技术的对比分析,提出了以翻译知识库的构建为核心,以翻译知识的采集积累、加工处理和共享应用为手段,构建开放、动态的机器翻译系统的新思
apalutamide是一种由杨森制药公司研发的第二代非甾体类雄激素受体抑制剂.2018年2月14日,美国食品和药物管理局批准apalutamide用于治疗非转移性去势抵抗性前列腺癌.本文主要
本文介绍了中科院计算所机器翻译课题组在基于句法的统计机器翻译方面的研究工作.文章提出了两种基于句法的统计翻译模型.第一种模型定义了一种基于源语言句法分析的树到串对