口语翻译知识自动获取方法研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:shi12345600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
口语自动翻译是语音、语言处理技术重要的应用领域之一,开展这项研究不仅具有重要的理论研究意义,而且具有极大实用价值。   翻译知识自动获取是口语翻译系统中的关键技术之一,翻译知识的质量对整个翻译系统有至关重要的影响。本文针对翻译知识自动获取中的语料库建设、翻译模板自动获取方法以及基于掌上电脑的快速翻译方法等问题进行了深入研究和探索,主要成果和创新归纳如下:   1.对大规模平衡语料库建设及词汇知识获取进行了专门研究。针对欧盟项目LC-STAR的具体任务,首先对国内外现有的语料库进行了研究与分析,然后对大规模真实文本进行了统计与分析,包括对来自不同网站的语料进行领域分布统计,并对不同时间段的《人民日报》语料的词汇信息及其变化情况进行了统计与分析等。结合以上统计分析的结果,最终得到通用领域语料库建设的领域分布与时间分布的原则,在基于该原则建立的大规模平衡语料库的基础上开发了面向通用领域多语言口语翻译的包含多种信息的电子词典。   2.在翻译模板自动获取方法方面,提出了一种从未经深层次处理的双语口语语料库中自动获取机器翻译模板的方法。该算法是一种无监督的、基于统计的、数据驱动的方法。在该方法中,首先通过语法归纳分别从源语言和目标语言中获取语义类和短语结构类;然后,利用动态规划的方法将短语结构类进行对齐。对齐的结果经过后处理就可以得到翻译的模板。该方法不仅可以避免人工标注的困难,自动实现模板获取,而且由于约束函数的作用,获取的模板还可以保持较好的句法结构,有利于它们在翻译系统中的进一步应用。实验表明,该方法具有较高的正确率和较强的有效性。   3.面向限定领域的特定任务翻译服务,在有限资源的掌上电脑(Personal Digital Assistant,PDA)上实现快速语音翻译这一实际问题,我们提出了一种基于suffixarrays数据结构的快速翻译算法。该方法采用suffixarrays这种数据结构实现了翻译实例的快速检索,是这种数据结构及相应的算法在机器翻译领域的首次尝试。在该算法的基础之上我们建立了面向旅游信息查询领域的基于PDA的汉英语音翻译系统。实验表明,基于该方法的语音翻译系统不仅具有较好的实时性和比较高的正确率,能正确处理一些语音识别产生的错误,而且在限定领域内可以达到较高的覆盖率,为语音翻译的进一步实用化进行了有益的探索。
其他文献
光电稳定平台是一类运用在动态环境中的惯性稳定系统。随着工程应用对于空间和体积的限制日趋严格,光电稳定平台对执行机构的需求逐步从直驱式力矩电机向微型齿轮传动电机转
该文选择了最具有代表性的三种结构类型的风力发电机组,对它们的结构方式,运行特点进行对比分析;介绍了建立单机组风力机的一般方法并给出"恒速"型风力发电机组的建模示例;采
炼油工业是关乎我国经济的重要基础工业之一。为确保生产过程能够安全、稳定、持续、高效运行,利用智能在线专家系统对炼油厂进行生产的实时监测及事故预报,对实现安全生产,优化
经过长期的进化,鱼类逐渐演化出较强的适应性和游动能力,并可以完成一系列灵活和复杂的动作。这些特性逐渐吸引了越来越多的学者去研究鱼类的高游速和机动性等特征,并逐渐引入到
视觉是人类获取外部信息最主要的手段。初级视觉皮层对于视觉信息处理有着至关重要的作用。传统观点认为初级视觉皮层是一个结构和功能单一的结构,然而这个观点最近正在被许多
本文以北京市优秀人才培养专项基金、2004国家旅游局中国旅游目的地营销系统为科研任务,在分布式人工智能(DAI)和Agent技术的基础上,以国家旅游局金旅工程为应用对象,对大规模网
随着科技的发展,人们对控制系统的性能提出了越来越高的要求,这就要求控制科技工作者不仅仅要保证系统的稳定性,同时还要求其最优性,最优控制越来越受到研究学者的关注。实际工业
本文针对流程工业间歇生产过程中不同类型调度问题的复杂性和不确定性,采用具有优良性质的免疫优化算法进行研究,建立了确定性和不确定性调度系统的数学模型,提出了基于智能
本文以国家十五‘863’课题“月球探测机器人智能信息处理与导航技术研究”为背景,重点研究了月球探测机器人导航关键技术。对机器人目前已存在的导航体系结构进行了详细分析
肺癌是世界上最常见的恶性肿瘤,由于其高致死率,被列为癌症第一杀手。它的早期发现和治疗能够大大提高患者的存活率和生活质量。通常,由于肺癌的早期表现形式是肺结节,因而肺结节