翻译引擎学习语料人工标注优化方法探索——语言桥翻译平台语料标注实验报告

来源 :三峡大学 | 被引量 : 0次 | 上传用户:xuyingheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器翻译领域,运用大批量的语料进行训练有助于提升机器翻译的效果。四川语言桥翻译公司的MTPE项目旨在通过标注一批涉及现有机器翻译错误类型的语料,让原有的MT模型深度学习相关语料来优化翻译引擎的实践效果。基于本实验的操作,对机器翻译错误类型标注实验进行个案技术经验总结和归纳具有一定现实意义。语料标注是MTPE项目实验的基本环节,包括四个阶段,即预标注、首次优化、二次优化(正式标注)和实验结果分析。预标注中,利用所有已知信息,借鉴人工译员常犯错误类型,分析机器翻译引擎的特点,对机器引擎在翻译中可能出现的主要错误类型进行预测;操作中还发现,初步错误分类的类型设置宜相对广泛,为后期改进和优化预留空间。首次优化包括翻译错误类型优化和语料优化。翻译错误类型优化先后经历了四个环节,即认识到设置有误的初始阶段、增减错误类型的优化阶段、调试错误类型的瓶颈阶段和确定错误类型的稳定阶段。实验中发现优化翻译错误类型的关键在于保证各个标签必须处在同一个语义层面,且各个标签之间不存在包含关系,确保每个标签的指涉唯一。语料优化环节相对复杂,不仅要识别存在问题的语料,对不同的语料进行错误分类,而且要根据不同的情况,对语料进行适当地删减、修改、增补。正式标注阶段发现新的标注问题,需要对新的问题语料进行类型和特征分析,在保证有效利用每一条语料的基础上,将各种问题进行归类,并确定相应的处理方式,便于后期对标注结果加以核对、修改。实验结果和反馈分析环节计算出各种不同错误类型的数量、所占的比例以及语料的实验数据反馈,验证语料标注实验的总体效果,可以发现语料使用的有效率为87.7%,但仍存在语料切分和语料选取不当等多方面的细节问题,需要进一步的语料清洗;同时,翻译引擎自我学习的效果较好,翻译正确率高达65.3%,但也存在部分语料虽经优化而目前仍无法学习的情况,需要进一步处理。本实验结果表明,机器翻译引擎能通过深度学习相关语料规避翻译问题,实现翻译质量的提升。
其他文献
高拱坝混凝土采用通仓浇筑方式快速施工,使得坝体施工期温控成为保障坝体安全的焦点问题。随着水利信息化时代的到来,大坝工程积累了大量的施工信息,正朝着智能化方向发展,为大坝温控防裂提供了新的思路。基于坝体施工期的温控数据,建立施工期温度数据库,并在此基础上采用数据挖掘技术分析影响坝体温度变化的施工信息,建立温度时程曲线预测模型,实现提前预知浇筑仓内温度变化,为实时采取合适温控措施提供决策支持,以降低坝
学位
近年来发展的钳形金属配合物在均相反应中表现出优异的催化活性,尤其是基于醇脱氢的偶联反应,因其通常只产生水或者氢气作为副产物,具有“绿色”、原子经济性高等特点。其中,甲醇作为生物质醇储量丰富、可持续且可生物降解,常用作溶剂以及用于合成高附加值的化学品、药品等。在各种应用中,化学合成家对甲醇作为C1源制备高附加值的化学品(如:C/N-甲基化合物、脲、聚脲等)开展了大量的研究。然而,前期的研究工作主要集
学位
研究背景:乳腺癌是发生在乳腺上皮组织的恶性肿瘤,是女性最常见的肿瘤之一,开发具有靶向能力的基因递送载体对乳腺癌的治疗具有重大意义。腺相关病毒(adeno-associated virus,AAV)具有安全性好、免疫原性低、表达稳定等优点,近年来AAV逐渐成为体内基因递送的主要载体,AAV的衣壳蛋白决定AAV的组织嗜性,因此对AAV衣壳蛋白的基因工程改造可以提高AAV对特定细胞的靶向感染能力,从而实
学位
胰蛋白酶是一种重要的碱性丝氨酸蛋白水解酶,专一水解精氨酸和赖氨酸的羧基端肽键,具有很强的氨基酸位点特异性。传统方法上,胰蛋白酶原料来源受限、分离纯化困难,且酶活较低。动物性来源的胰蛋白酶携带未知病毒和外源因子等风险,因此动物性来源的胰蛋白酶在药物制备中受到很大限制。本课题利用计算机辅助设计对胰蛋白酶进行定点突变模拟预测,然后通过分子生物学技术构建基因工程菌,来表达获得高活性的重组胰蛋白酶,并将重组
学位
随着科学技术的进步,经编织物逐渐在航空航天、医疗器械等高端领域施展自身独有的性能,经编技术在各行各业的应用使得其具有极为广大的市场,这使得经编机设备的需求也进一步增大。同时,对经编机械的机速、编织可靠度、换型的高效以及数字化控制等也有了更高的要求。因此,提高国产经编机在编织可靠度、换型的高效以及数字化控制等方面的性能,有助于提高经编设备的效率,具有重要的工程实际应用价值。本文以某拉舍尔双针床经编机
学位
熔喷法非织造布属于无纺布的一种,其被广泛用作复合材料、吸音材料、过滤材料、保暖材料、卫生用品、吸油材料及洁净布、电池隔膜等,具备庞大的市场需求,而我国熔喷布产量虽然庞大,熔喷装备上也已基本实现国产化,但纺丝箱、喷丝板等核心零部件的生产,仍与国外一流厂商有一定差距,因此本文针对熔喷纺丝箱开展了相关设计优化与研究。首先,为提高熔喷装备纺丝箱均匀分配熔体的性能,同时兼顾纺丝箱腔体制造技术、制造成本要求,
学位
近年来,为满足工程建设的需求如道路、房屋建设,受地形限制不得不对一些边坡进行回填加高、加宽处理。然而随着时间推移,回填之后的边安全隐患也逐渐显现出来。因此,对高填土边坡的稳定性分析和边坡加固治理的研究是非常必要的。本课题依托巫山县老林场高填土边坡为工程背景,对边坡工程地质条件和影响边坡稳定性的因素进行分析,并对稳定性现状和边坡失稳模式进行了预测。然后借助目前广泛引用的Geo-studio以及另一种
学位
在“双碳”背景下,为优化能源结构,提高可再生能源消纳,进而促进综合能源系统的碳减排工作,提出了一种基于碳捕集和电-氢-气双向转换的电氢碳协同运行的低碳经济调度模式。首先分析电转气两阶段过程中分别耦合氢储能、氢燃料电池以及碳捕集设备的运行机理,构建以清洁能源为主的能源供应和以电、热、冷、气负荷为终端消费的综合能源系统的能量流模型;然后针对其参与碳排放权交易市场,分析碳交易机制下系统各设备的碳成本;最
期刊
1937年8月13日,日本为实现其全面侵华的企图,悍然发动了“八一三事变”,激起中华民族的爱国热情,中国人民团结起来一致对外,共同抵抗日军的侵略行径。抗战时期的每年8月13日,社会各界都会举办“八一三”周年纪念活动。“八一三”周年纪念是抗战时期比较重要的一种纪念活动,在某种程度上甚至超过了“七七”纪念,因为“八一三事变”使社会各界认清了日军的真实目的是侵占中国。通过“八一三”周年纪念,不仅突出八一
学位
研究背景:淋巴结是免疫应答的主要场所,在抗感染、抗肿瘤中发挥着重要作用。淋巴结靶向调节对于提高抗感染、抗肿瘤效果至关重要。因此,开发具有淋巴结靶向功能的载药系统已成为现在研究的热点。目的:本研究拟构建具有SR-B1(Scavenger Receptor class Btype1)受体靶向的R4F多肽修饰的红细胞胞外囊泡(R4F-modified Erythrocyte Membrane Vesic
学位