基于短语的统计机器翻译性能改进方法研究与系统实现

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:ivanny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究如何提高现有基于短语的统计机器翻译系统的性能,并利用文中提出的思想实现面向特定领域的统计机器翻译系统.文中研究了两种改善基于短语的统计机器翻译系统性能的方法,并结合在通用领域和特定领域的应用给出了实验结果,同时实现了一个面向特定领域的统计机器翻译系统. 文中通过定义多种特征,利用单纯形算法实现了对统计机器翻译系统的翻译结果的重排序(rerank);同时还提出了一种人工定义翻译模板规则的泛化方法,以及翻译模板的匹配算法和翻译模板规则与统计机器翻译系统的融合策略;并基于上述两个思想,辅以记忆库、词典等常用技术,开发了一套面向专利领域的汉英统计机器翻译软件.取得主要成果有以下几方面:1、统计机器翻译中判别重排序算法的实现和特征的选择判别重排序(discriminative reranking)就是指针对某个评估标准对机器翻译程序输出的多个翻译候选结果进行重新排序,重新选择,从中选择出使该标准达到最优时的翻译结果.文中基于实验室开发的基于短语的统计机器翻译系统一孔夫子(Confucius)系统,实现了利用单纯形算法(SimplexAlgorithm)进行重排序,定义了多种特征,像英语的语言模型特征,句子序列的词性语言模型特征等,实验表明,无论是在开发集还是在测试集上,无论是在国际评测中的通用集合上还是在特定领域的测试集合上,BLEU值都有比较明显的提高,重排序过程对孔夫子统计机器翻译系统的整体性能的确起到了促进的作用.2、融合了翻译模板和统计机器翻译技术的翻译方法当前,主流的基于短语的统计机器翻译技术对于句子中短语间的长距离调序问题以及句子中非连续的固定搭配的翻译等问题,解决的都不是很理想,而传统的规则方法在这方面则具有一定的优势,因此,我们提出了在统计机器翻译系统中融合翻译模板规则的翻译方法,我们提出了书写人工翻译模板规则的泛化方法,以及翻译模板的匹配算法和翻译模板与孔夫子统计机器翻译系统的融合策略.我们利用传统中药领域的语料重新训练了孔夫子系统,并从语料中抽取出一部分作为开发集和测试集,实验结果表明,翻译模板规则的加入和使用使得系统的BLEU值有较大幅度的提高,并且比较好地解决了句子的长距离调序问题和句子中非连续固定搭配的翻译问题,一定程度上提高了孔夫子统计机器翻译系统的性能.3、面向专利领域的统计机器翻译系统--专译家系统以实验室开发的孔夫子统计机器翻译系统作为翻译的解码核心,加上上述两种性能改进的方法,同时辅以记忆库、词典等模块,我们开发了基于服务器一客户端模式的汉英统计机器翻译软件--专译家系统(TransAngel),该系统为用户提供了方便的操作界面,用户可以动态地添加自定义模板,词典等来指导和校正翻译结果,同时可以进行后台的批量文件翻译.
其他文献
学位
Internet已经发展成世界上最大的网络,并从根本上影响了整个社会的生活方式。但是随着其爆炸性增长,Internet遇到了许多问题。这些问题主要表现在网络地址问题、路由瓶颈问题、
学位
Internet上的计算资源一般都是独立开发并管理的,具有一定的自主性。而由于Internet本身所具有的开放性和动态性,Internet上的计算资源必将以某种方式实现互联、互通、协作、
交联质谱技术将质谱技术与交联技术相结合,在研究蛋白质结构与相互作用上具有速度快、成本小、蛋白质纯度要求低等优势。本课题组经过六年的合作探索,研发了应用于化学交联技术
变电站是输配电系统中的重要一环。提高变电站的安全与经济运行水平,减少变电站的运行值班人员并逐步实行无人值班,变电站综合自动化技术需要更深入的研究开发。目前流行的变电站自动化系统的主站大多选用双机热备容错系统,其目的是将单主机系统运行所带来的系统风险降至最低。目前的双机热备容错系统大多为专用的双机软件或集群软件,并配以专用的服务器及磁盘阵列柜。对于中小型变电站来说成本太高,对于老变电站改造更是难以采
数据仓库作为决策支持系统的重要分析工具多年来一直备受关注。在进行海量数据决策分析时,分布式数据仓库扮演着重要的角色。本文以天玑大数据引擎中的分布式数据仓库组件——
自主计算所要解决的是日益复杂的计算环境中所面临的管理与成本问题,提高系统的运行效率,使得IT系统能够自我管理.本文从基于主体的自主单元设计,自主计算的软件建模方法、基
层次式交换网络是一种适应下一代互联网的基于IP交换的新型网络体系结构,它按照层次构造网络拓扑,地址空间与拓扑结构严格匹配,以交换代替路由,克服了现有Internet的网络结构无序
学位
多媒体技术的飞速发展和广泛使用产生了大量的图像和视频等视觉信息,由于信息量增长太快而处理能力不足,这些信息往往不能被有效利用.通过对视觉信息进行有效存储,建立索引和
文本的主题分析旨在确定一个文本的主题结构,即识别所讨论的主题,界定主题的外延,跟踪主题的转换,觉察主题间的关系等,它是很多信息处理领域,比如文本理解、语言建模、信息的检索与
学位