平行短语对的挖掘与应用研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:samuraitruong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于自然语言处理领域中的机器翻译等跨语言任务,平行结构是训练神经网络来学习不同语言之间的映射关系的重要资源。除了现有的平行资源外,近年来很多研究者们都在尝试从单语语料中挖掘平行数据。目前,大多数研究集中于从单语语料中挖掘平行词对和平行句对,而由于平行短语对边界确定困难、单词形态复杂,所以从单语语料中挖掘平行短语对的研究非常稀少。因此,本文尝试利用多种方法,从单语语料中挖掘高质量的平行短语对,并探索平行短语对在机器翻译领域的应用,以提高机器翻译模型的性能。本文的主要研究内容如下:(1)提出启发式平行短语对挖掘方法。启发式平行短语对挖掘方法将其他模型的知识融入到单语语料中,使平行短语对的挖掘过程更加高效。按启发方式不同,分为融合短语识别的平行短语对挖掘方法和基于锚定训练的平行短语对挖掘方法。融合短语识别的平行短语对挖掘方法通过训练短语识别模型得到高质量单语短语集,再借助双语词典,利用匹配算法从短语集中挖掘平行短语对。基于锚定训练的平行短语对挖掘方法通过锚定训练的方法构造伪平行语料,再通过锚点注入获得高质量词对齐结果,最后从伪平行语料中抽取平行短语对。实验证明启发式方法能够挖掘大量高质量平行短语对,在平行实词短语对挖掘和平行词对挖掘更有优势。(2)提出自引导式平行短语对挖掘方法。该方法是从一个种子词典出发进行平行短语对挖掘的过程。首先从种子词典中的一组平行词对出发,检索单语语料中包含该平行词对的短语集。然后,以翻译词典中的数据为线索,通过挖掘算法在短语集中挖掘平行短语对,并加入到扩展短语集中。挖掘过程按短语的长度分为多轮进行,从第二轮开始以上一轮挖掘得到的扩展短语集为起点进行挖掘,以达到自引导式挖掘的目的。同时,本章提出短语与子项平均概率的评价指标,以实现定量地对所挖掘的平行短语对的合理性进行评价。实验证明,自引导式平行短语对挖掘方法能够挖掘大量高质量平行短语对,在挖掘较短长度的平行短语对方面更加有效。同时,短语与子项平均概率也能够对平行短语对进行合理的评价。(3)提出平行短语对在神经机器翻译的应用。依据不同的应用场景,平行短语对在神经机器翻译的应用分为在不依靠平行语料的神经机器翻译和依靠平行语料的神经机器翻译的两种应用。具体来看,在不依靠平行语料的神经机器翻译的应用中,本文在单语语料中使用挖掘的平行短语对将源语言短语替换成目标语言的短语,目的是利用平行短语对来帮助提高翻译模型对句中更大粒度单元的映射能力。在依靠平行语料的神经机器翻译的应用中,本文在平行语料中将平行短语对进行显式标注,目的是以很小的代价帮助神经机器翻译模型更快更好地学习到更大粒度的平行短语对间的对应关系,进而提高机器翻译的质量。实验证明,平行短语对能够使神经机器翻译模型的翻译质量有较为明显的提升。
其他文献
问答匹配是自然语言处理领域的重要研究方向之一,主要包含答案选择和问题复述识别两个子任务。其中,答案选择任务的目标是判定“问题与答案”之间的语义相关性,用以优化问答场景下目标答案的召回质量;问题复述识别旨在判定“问题与问题”之间的语义是否等价,用以提高问答场景下同义问题(已知答案)的召回精度。两者皆是实现智能问答的核心技术,且在搜索引擎、社区问答以及智能客服等实用场景中有着广泛的应用。现有的预训练语
学位
命名实体识别作为自然语言处理领域的基础任务之一,影响着诸多的下游任务。命名实体识别旨在识别出给定文本中具有特殊含义的实体,比如人名、地名或者特定应用中预定义类别的短语。目前中文命名实体识别致力于获得更加情境化的向量表示,在特定场景下大都依赖额外的领域知识,无法同时适应规范和非规范文本,因此无法对两类文本进行统一处理。为了解决这一问题,本文从中文规范和非规范文本的结构特征出发,对命名实体识别展开一系
学位
嵌入式开发是行业内公认的难度高、门槛高,开发者不仅需要学习大量的软硬件知识,还要应对繁琐复杂的开发环境。为了解决学习嵌入式开发所面临的困境,将图形化编程引入嵌入式开发中以降低技术门槛。然而,传统的图形化编程大多采用C/C++作为应用的开发语言,无法满足嵌入式人工智能的开发需求。因此,本文设计并实现了一种基于编译型E-Python的图形化编程系统,主要研究内容如下。(1)针对图形化嵌入式编程对于硬件
学位
随着网络和数字技术的高速发展,隐蔽通信和数字版权保护等方面的迫切需求使古老的隐写术在网络时代焕发出全新生机。图像隐写是一门将秘密信息隐藏到图像中的技术,由于其简单易用、难检测、难提取,很容易被非法组织利用,从事危害国家安全的活动。本文主要研究的就是针对隐写术的检测问题,也称为图像隐写取证问题。近年来,学术界提出了多种基于深度学习的隐写分析方法,利用卷积神经网络自动提取隐写分析特征,取得了较好的检测
学位
随着P2P技术的发展,点对点分布式系统正逐渐取代传统分布式系统。由于其去中心化的特点,消息不再是通过中心服务器分发,因此设计一个去中心化消息分发算法存在很大的挑战。在传统中心化的“客户端/服务器”架构中,只需通过中心服务器就可以轻松将消息分发下去,而对于去中心化系统,需要有特定的消息分发协议。在消息分发过程中需要考虑分发速率、带宽占用、可靠性、安全性、负载均衡等重要性能指标,在不同的分布式系统中,
学位
随着经济的快速发展,社会出现了越来越多的闲置资源,互联网技术的发展为闲置资源的再利用提供了技术条件。共享经济这种新兴的经济模式逐步发展起来,对人们生活的各个方面产生越来越大的影响。目前,共享经济的运营模式主要是具有中心化特征的中心型共享经济,其面临数据孤岛、数据安全等问题。具备去中心化、非对称加密等特点的区块链技术有机会拓宽共享经济的发展方向,智能合约的利用也将为共享经济的发展带来变革,势必会创造
学位
随着短视频平台的快速发展,直播带货行业变得越来越火热。设计并研发细粒度多模态商品识别系统,可以极大地提升用户体验,具有实际落地意义。作为该系统的核心,多模态命名实体识别能够在众多多模态场景中挖掘有效信息,具有重要的研究价值。目前,多模态命名实体识别方向的研究者们主要关注文本和图像的特征提取以及多模态信息交互、融合,忽视了图像的深层信息以及不相关图像带来的噪声影响。因此,本文针对现有方法的不足,提出
学位
随着互联网技术的快速发展,跨境电子商务已经成为开展国际贸易的重要渠道,由此引发的对于商品信息的机器翻译需求不断增长。由于商品信息句子中的术语携带着重要的信息,对于商品信息的全面传达至关重要,目前学术界和工业界主流的做法是基于电商双语术语词典来搭建电商领域的定制化机器翻译系统。然而,电商领域双语术语的构建完全依赖于人工翻译,存在成本高、效率低的问题。针对此问题,本文分别从抽取式和生成式两个方向提出电
学位
在“万众创新”的时代背景下,高新技术企业已成为国民经济增长新引擎。但在快速发展的同时,部分高新技术企业因短视的经营行为而陷入经营危机,因此我们应更多的关注企业长远的发展。创新是企业漫长生命周期中维持竞争力不可或缺的手段,管理者在创新活动中扮演着重要角色,是企业创新研发与投资方案的制定与决策者,企业可以设计合理的激励体系激发高管创新的主动性和积极性,高管薪酬粘性便是这样的一种薪酬制度安排,它会包容高
学位
城市地下管网是保障城市正常运行的重要基础设施和“生命线”,负责提供能量与信息流,但随着城市化进程的不断加快,使得城市地下管网的维护难度日益增加,维护工作不及时导致地下管网事故频发。近年来,物联网技术发展逐渐成熟,运用物联网技术推动智慧城市建设是新的发展方向。本文基于管网监测系统的研究现状,设计并实现了具备稳定性、低功耗和可维护性的管网数据监测系统。主要研究内容如下。(1)搭建管网监测系统的软硬件平
学位