基于字形的英汉机器音译方法的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhulixiao66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文从英汉机器音译这一基本问题入手,进行了基于字形的英汉机器音译框架的研究及实现。具体的讲,本文从以下几个方面进行了研究:1本文着重于基于字形的英汉机器音译框架的研究,并最终实现了性能较好的基于字形的英汉机器音译系统。2本文在基于字形的英汉机器音译框架下,分别采用了n-gram音译模型和噪声通道模型建模以捕捉字形的上下文信息,并进行了两种模型下机器音译性能实验。实验表明了n-gram音译模型在该框架下的性能较好且易于实现和移植。3利用上述的n-gram音译模型建模框架,本文分别利用EM算法和Viterbi Traning方法进行了英汉音译单元上的对齐训练,并通过实验比较了EM算法和Viterbi Training方法获得的对齐语料对机器音译性能的影响。4为解决机器音译过程中的数据稀疏问题,本文采用了InterpolatedKneser-Ney平滑,提高了英汉机器音译准确率。
其他文献
生物圈中,光合作用是一个最重要、最基本的代谢过程,叶绿体是绿色植物进行光合作用的细胞器。关于叶绿体起源的问题一直以来都是生物学家们关心的热点问题,目前有代表性的研究成
PoC是Push to Talk over Cellular的英文缩写,是一种基于移动蜂窝公众网络、采用VoIP(Voice over Internet Protocol)技术的Push to talk业务,其借用了集群系统中的PTT特性。
企业为了适应不断的发展,一方面要提高自身的管理水平,增强自身的竞争力,另一方面则需要加强与伙伴企业的联系,形成更紧密的合作共赢关系,增强从供应到客户服务的整个供应链
植物模拟是一种运用计算机图形学的理论与方法对植物形态结构和生长过程进行仿真的技术。本文以植物形态结构的研究和意义为背景,在深入探讨植物形态结构的计算机模拟及其基
虚拟装配技术是集计算机图形学、数据库技术、并行工程、多媒体技术、虚拟现实等技术为一体的一项综合技术。使用虚拟装配技术可以在不制造真实产品的情况下生成、验证和优化
随着世界市场的竞争日剧激烈,现代企业的生存与发展面临更加严峻的挑战。企业产品设计日益成为企业赢得竞争的关键因素,产品的用户需求和市场需求越来越个性化、多样化,在这
Internet是一个分布式的异构的信息平台。基于Web的应用种类繁多,从简单的的WWW浏览到电子商务、电子政务、电子校务等。这些应用在开发语言上、部署平台上、通信协议上、对
目前,物联网中所采集的数据类型多种多样,不仅包括RFID读写器实时采集到的各类RFID信息,而且包括分布于各地的传感器实时采集的与物品相关的各类感知数据。此外,物联网采集的数据
随着国际互联网的快速发展,特别是最近十年来,网络中可供利用的各种信息资源以惊人的速率增长。然而,这些信息资源为不同应用服务,存储在如Oracle,Sybase等各种不同的数据源和不同
人脸检测是确定人脸的位置、大小、位姿的图像处理过程。近年来,在模式识别与计算机视觉领域,己经成为一个受到普遍重视、研究十分活跃的方向。本文针对复杂背景下的彩色图像