抑制维汉神经机器翻译代词性别偏见的方法

来源 :厦门大学学报:自然科学版 | 被引量 : 0次 | 上传用户:tklsd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用神经机器翻译进行维吾尔语到汉语的翻译时,维吾尔语中的代词不区分性别,给翻译模型在汉语端使用正确的代词带来了挑战.另外,由于训练数据集中不同性别的代词使用频率差异明显,神经机器翻译倾向于输出阳性代词而不是更恰当的代词.基于此,利用汉语单语语料构造伪平行数据以扩展原训练集,缓解训练集本身的代词不平衡问题;并分别引入性别标记和翻译、性别预测联合建模两种方法,将代词性别预测显式地融入神经机器翻译的训练过程.在多个维汉翻译测试集上进行实验验证,结果表明该方法相对于基线系统,在不影响翻译质量的情况下缓解了翻译输出
其他文献
随着我国经济的飞速发展,国际贸易发展趋势也发生了变化.最近几年,跨境电子商务的崛起不仅仅引起了跨境电子商务对人才的需求,还凸显了国际贸易人才的大量缺失.高等院校作为
初中历史的教学职责之一便是培养学生的学习兴趣,使学生对历史各环节具有全面的认识,让学生在学习之余拥有更多属于自己的思考.教师需要根据学生的历史基础,采取各种各样的培
光顺曲线具有简单的曲率轮廓,在计算机辅助设计、轨道规划和相关应用领域有重要的需求.首先,针对给定的G2数据,构造一条含4个自由参数的空间五次Bézier曲线使其在端点满足特
为了探究集料化学成分、乳化剂含量、集料固含量对乳化沥青传质吸附的影响程度,测试了集料主要化学成分(SiO2、MgO、Al2O3、Fe2O3、CaO、CaCO3)的比表面积、表面能、pH值和碱
线性扩张状态观测器(linear extended state observer,LESO)是线性自抗扰控制(linear active disturbance rejection control,LADRC)的核心部件,其自身性能对控制效果至关重
针对物流场景中的关键设备和输送线布局问题,提出了一种结合多目标元启发式优化算法和布线算法的混合布局方法.在该方法中,首先建立以最优物料搬运总成本和输送线总成本为目
针对目前钢筋混凝土桥面板在车载反复作用下易开裂,以及焊钉剪力键锚固在混凝土中使得劣化桥面板难以更换问题,提出一种新型混杂纤维混凝土(HFRC)螺栓剪力键.为研究混杂纤维
在高中阶段,生物是理科生必修的一门科目,并且还在高考中占据着很大的分值比例,因此,高中生物的教学,是高中阶段十分重要的内容.但是,从实际情况来看,在高中生物的实际教学过
根据用户需求修改给定人脸图像,在美妆造型设计、异质人脸合成等领域具有重要的应用价值.目前已有研究基于生成对抗网络(GAN)模型实现人脸的语义属性迁移或者定性修改,但少有算法能够对用户指定的属性进行定量修改.针对人脸多个属性的分离(解纠缠)以及定量编辑两大问题,提出了一个基于属性法向量修改的定量人脸属性编辑算法.首先,端对端求解出隐藏空间中每一个面部属性的最优控制法向量,实现人脸多属性的解纠缠;然后
给出Hilbert空间中K-g-框架2种不同形式的含有参数λ的等式和不等式.当λ取相应的值时,该结论可得到许多由Balan等给出的关于经典框架和g-框架的等式和不等式.