基于序列到序列模型的无监督文本简化方法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:ssddhwl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
训练基于序列到序列(seq2seq)的文本简化模型需要大规模平行语料库,但是规模较大且标注质量较好的语料却难以获得。为此,提出一种无监督文本简化方法,使模型的学习仅需要无标注的复杂句和简单句语料。首先,利用去噪自编码器(denoising autoencoder)分别从简单句语料和复杂句语料中学习,获取简单句的自编码器和复杂句的自编码器;然后,组合两个自编码器形成初始的文本简化模型和文本复杂化模型;最后,利用回译策略(backtranslation)将无监督文本简化问题转换为监督问题,不断迭代优化文
其他文献
利用CFD软件分别对条缝送风方式下的大空间区域送风效果进行模拟,分析温度速度场并对气流分布性能和热舒适性评价指标比较。随着社会的发展人们对舒适性的要求越来越高,进一
本文简要介绍了BM干燥系统的空气脱湿机,干燥机等设备的工艺特征、分析了其性能,指出了生产中应注意的问题。