基于造句法的英汉机器翻译关键技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:fgh45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模语料库的出现和计算机处理能力的提高,使得数据驱动的方法在某些自然语言处理的子领域里,如中文分词,词性标注,语言建模等取得了巨大的成功。但在语言建模,机器翻译等领域,随着数据规模的急剧增大,纯粹基于统计的语言学知识贫乏路线已经逐渐走向极限,效果提升不再显著。如何将语言的先验知识和内在规则,在不损害统计方法的优势前提下,在统一的数学框架规范下有效融入到模型中来,以达到改善的效果,成为人们越来越关注的一个研究课题。   本文的研究目标是机器翻译中的忠实、通顺。其语言理论来源是由曹青老师提出的英语造句法,该理论从思维和语言的对应关系入手,揭示英语语句的生成过程。受该理论中的层次语言单位结构的启发,我们重新定义了一组语言单位,结合已有的统计理论和方法,建立了话、充当者和词的切分与标注模型,设计和实现了标注工具与标注规范,并将其应用于大规模的语料库上。在这些自动获取的数据上,我们利用语言单位的内在生成过程,结合机器学习的方法,对英语建立了基于话、充当者和词的层次语言模型,并与传统的基于词的N元语法模型做对比,检验其对语句合法性的区分能力。根据语言单位的排序规则,我们设计实现了框式排序模型和缀根缀式排序模型,该模型从对齐文本中自动获得训练数据,并利用最大似然估计和回退模型进行训练。在机器翻译中,我们将该模型应用于输入文本,进行预排序,使之与目标语言语序接近,然后用主流的基于词组的统计机器翻译系统进行训练和解码。   合理的语言单位划分能够更准确地描述语言的生成过程与经验分布,细化的排序模型则有助于机器译文的通顺流畅,我们在本文的给出的对比实验结果也说明了这一点。
其他文献
目前国际国内对数据挖掘的研究方兴未艾,在很多领域,例如银行、电信、保险、交通、零售等商业领域,以及天文学、分子生物学等科学研究方面都有很好的应用案例,取得了许多研究成果
随着无线电通信的高速发展,频谱资源紧缺的问题日益突出。认知无线电网络通过对授权频谱进行“二次利用”,可有效提高频谱资源利用率。本文基于集中式认知无线电网络多信道频
肝癌的恶性程度极高,其自然生存期多小于1年。虽然各种诊断手段在不断提高,但仅有约20%的患者于确诊时能手术切除,且术后仍有30%~70%的复发率。栓塞治疗是80年代发展的一种非
随着计算机及互联网的飞速发展,诞生了许多新的技术和应用,同时也造成了大量包括存储资源在内的计算资源的闲置和浪费。对等网络,尤其是DHT网络的发展,提供了一种有效整合网
随着互联网络的不断发展,网络已经成为人们生活中不可或缺的一部分,而作为互联网络主要运用之一的电子邮件更为人们的工作和生活带来了极大的便利,甚至在某种程度上改变了人
网络拓扑控制是无线传感器网络的关键技术之一,用图论中的最小连通支配集思想在网络中组织一个虚拟的层次型骨干网络是实现拓扑控制一种常用的方式。而图论中的最小连通支配
随着信息技术的发展和网络应用的日益普及,人们之间的信息交流呈现出国际化、网络化、数字化的趋势。安全是网络发展的一个关键因素,信息安全理论与技术就变得越来越重要。数
随着Internet的应用普及及多媒体和网络技术的不断发展,数字图像的应用日益广泛,传统的基于文本标注的图像检索已不能满足检索要求,在人们试图找到一种最有效的检索方法中,基
随着XML技术的发展和普遍应用,XML已成为数据交换的标准,如何高效的实现XML的存储和更新成为非常重要的研究方向。本文的主要研究内容包括3个方面①XML文档的关系化存储方法;②
化学表达式在化学教育教学和科学研究领域占有举足轻重的地位,化学表达式的编辑也逐渐成为研究的热点。虽然目前已有相当数量的化学表达式编辑和分子结构绘制软件,但该类软件大