面向电商领域的双语术语自动构建与应用

来源 :苏州大学 | 被引量 : 0次 | 上传用户:fymps
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,跨境电子商务已经成为开展国际贸易的重要渠道,由此引发的对于商品信息的机器翻译需求不断增长。由于商品信息句子中的术语携带着重要的信息,对于商品信息的全面传达至关重要,目前学术界和工业界主流的做法是基于电商双语术语词典来搭建电商领域的定制化机器翻译系统。然而,电商领域双语术语的构建完全依赖于人工翻译,存在成本高、效率低的问题。针对此问题,本文分别从抽取式和生成式两个方向提出电商领域双语术语的自动构建方法,同时将构建的双语术语应用到电商领域定制化机器翻译中,提升商品信息的翻译质量。(1)基于跨语言预训练的电商双语术语抽取本文提出用抽取式的方法来构建电商领域双语术语:在给定一个源语言术语以及一个目标语言句子的情况下,模型自动判断并抽取出相应的目标语言术语。针对电商领域术语抽取问题,本文结合电商领域融入术语信息的跨语言预训练,充分利用源语言术语和目标语言句子之间的深层语义关系来判断并抽取出目标语言术语,形成电商双语术语。同时,本文构建了电商领域面向中文-英语、英语-法语的包含多个商品类目的双语术语抽取数据集,实验结果表明,本文提出的抽取方法明显优于各种基准系统。(2)基于领域信息融合的电商双语术语生成本文提出用生成式的方法来构建电商领域双语术语:给定一个源语言术语,翻译模型直接生成其对应的目标语言术语翻译。针对电商领域术语翻译问题,本文首次将其进行定义,并划分成有监督以及无监督的电商领域术语翻译任务,分别模拟双语术语资源丰富的语向以及双语术语资源稀缺的语向,并构建了相应的数据集。在此基础上,本文提出了基于领域信息融合的电商双语术语翻译方法,充分融合新闻领域平行语料和电商领域伪平行语料中所含有的领域信息,通过迭代回译的方式,提升模型的术语翻译能力。实验结果表明,本文提出的方法无论在有监督术语翻译任务还是无监督术语翻译任务上都显著优于各种基准系统。(3)嵌入双语术语的电商领域定制化机器翻译本文将构建的电商领域双语术语应用到电商定制化机器翻译系统中,提升商品信息句子的翻译质量,以验证本文提出的双语术语自动构建方法的实际意义。为此,本文构建了电商领域面向多个语言对及多个产品类别的商品信息句子翻译测试集,通过语码转换的方式实现训练数据增强,结合指针网络以及共享词嵌入表示,同时提出两种利用双语术语的解码前处理策略,将双语术语信息嵌入电商定制化翻译模型的解码过程,从而提升商品信息句子的整体翻译质量以及其中包含的术语的翻译质量。实验结果表明,通过嵌入本文构建的双语术语,电商定制化机器翻译系统对电商产品信息句子的整体翻译效果得到大幅提高,对商品信息中包含的术语的翻译质量也得到进一步改善,验证了本文提出的电商领域双语术语自动构建方法的实际意义。
其他文献
基于水蒸气的供暖工程是寒冷地带政府与居民关注的民生工程,阀门是供暖工程中的标配设备。传统无信息输出的供暖阀门存在后期维护不及时、故障定位不精确等问题,为居民带来安全隐患。利用远程无线通信及微控制器进行信息阀门的设计,来解决阀门状态信息采集与远程阀门控制的问题,成为供暖工程阀门设计开发的研究热点。本文基于2017以来国家大力推广的窄带物联网技术(NB-IoT),研发一款具备远程信息传输、远程开关阀控
学位
在日常生活中,多人对话的场合无处不在,作为人们交流沟通的主要方式,其蕴含着丰富多彩的信息。挖掘多人对话场景下的情感信息对许多工业界的应用有着十分重要的意义,例如社交媒体分析和智能客服。然而,不同于传统的文本情感识别,多人对话中话语的情感不仅受其本身和其所在上下文的影响,而且依赖于说话者的个性和他们之间的交互。另外,说话者的情感状态还会受到包括话题、观点、说话者的行为和意图等复杂因素的影响。针对上述
学位
由于互联网产业的特殊性,用户的一切操作都基于软件本身,此时庞大的用户体系真正需要的是一款质量过硬的软件产品作为技术支撑。软件质量好坏是由软件能的用户满意度决定的,如果软件质量不达标,用户体验度降低,企业将会面临巨大的流量流失,不利于企业的长期发展。近些年用户需求在时间、感知度以及多变性上也提出了更高的要求,企业为了尽快推出符合用户需求的产品就需要企业加快开发进度、缩短开发周期、积极响应用户随时变化
学位
问答匹配是自然语言处理领域的重要研究方向之一,主要包含答案选择和问题复述识别两个子任务。其中,答案选择任务的目标是判定“问题与答案”之间的语义相关性,用以优化问答场景下目标答案的召回质量;问题复述识别旨在判定“问题与问题”之间的语义是否等价,用以提高问答场景下同义问题(已知答案)的召回精度。两者皆是实现智能问答的核心技术,且在搜索引擎、社区问答以及智能客服等实用场景中有着广泛的应用。现有的预训练语
学位
命名实体识别作为自然语言处理领域的基础任务之一,影响着诸多的下游任务。命名实体识别旨在识别出给定文本中具有特殊含义的实体,比如人名、地名或者特定应用中预定义类别的短语。目前中文命名实体识别致力于获得更加情境化的向量表示,在特定场景下大都依赖额外的领域知识,无法同时适应规范和非规范文本,因此无法对两类文本进行统一处理。为了解决这一问题,本文从中文规范和非规范文本的结构特征出发,对命名实体识别展开一系
学位
嵌入式开发是行业内公认的难度高、门槛高,开发者不仅需要学习大量的软硬件知识,还要应对繁琐复杂的开发环境。为了解决学习嵌入式开发所面临的困境,将图形化编程引入嵌入式开发中以降低技术门槛。然而,传统的图形化编程大多采用C/C++作为应用的开发语言,无法满足嵌入式人工智能的开发需求。因此,本文设计并实现了一种基于编译型E-Python的图形化编程系统,主要研究内容如下。(1)针对图形化嵌入式编程对于硬件
学位
随着网络和数字技术的高速发展,隐蔽通信和数字版权保护等方面的迫切需求使古老的隐写术在网络时代焕发出全新生机。图像隐写是一门将秘密信息隐藏到图像中的技术,由于其简单易用、难检测、难提取,很容易被非法组织利用,从事危害国家安全的活动。本文主要研究的就是针对隐写术的检测问题,也称为图像隐写取证问题。近年来,学术界提出了多种基于深度学习的隐写分析方法,利用卷积神经网络自动提取隐写分析特征,取得了较好的检测
学位
随着P2P技术的发展,点对点分布式系统正逐渐取代传统分布式系统。由于其去中心化的特点,消息不再是通过中心服务器分发,因此设计一个去中心化消息分发算法存在很大的挑战。在传统中心化的“客户端/服务器”架构中,只需通过中心服务器就可以轻松将消息分发下去,而对于去中心化系统,需要有特定的消息分发协议。在消息分发过程中需要考虑分发速率、带宽占用、可靠性、安全性、负载均衡等重要性能指标,在不同的分布式系统中,
学位
随着经济的快速发展,社会出现了越来越多的闲置资源,互联网技术的发展为闲置资源的再利用提供了技术条件。共享经济这种新兴的经济模式逐步发展起来,对人们生活的各个方面产生越来越大的影响。目前,共享经济的运营模式主要是具有中心化特征的中心型共享经济,其面临数据孤岛、数据安全等问题。具备去中心化、非对称加密等特点的区块链技术有机会拓宽共享经济的发展方向,智能合约的利用也将为共享经济的发展带来变革,势必会创造
学位
随着短视频平台的快速发展,直播带货行业变得越来越火热。设计并研发细粒度多模态商品识别系统,可以极大地提升用户体验,具有实际落地意义。作为该系统的核心,多模态命名实体识别能够在众多多模态场景中挖掘有效信息,具有重要的研究价值。目前,多模态命名实体识别方向的研究者们主要关注文本和图像的特征提取以及多模态信息交互、融合,忽视了图像的深层信息以及不相关图像带来的噪声影响。因此,本文针对现有方法的不足,提出
学位