生成式对抗网络在自然语言处理中的应用

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:ching19846
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 生成式对抗网络(Generative Adversarial Networks, GAN)是一种非常简单易行的生成式模型,不依赖任何先验假设,通过采样的方式生成似真数据,且生成速度快。近年来,生成式对抗网络在图像处理及自然语言处理任务中得到了广泛的应用。但是,生成式对抗网络同样存在缺点,比如训练过程中不稳定、生成数据过程中出现模式坍塌现象等。本文从网络结构、损失函数定义出发来分析GAN,并介绍其在自然语言处理中的应用。
  关键词: 生成式对抗网络; 自然语言处理; 序列生成; 迁移学习
  文章编号: 2095-2163(2021)03-0181-05 中图分类号:TP391;TH166 文献标志码:A
  【Abstract】Generative Adversarial Networks (GAN) is a kind of simple generative model, for it does not rely on any prior probability and can generate real-like data using sampling with high speed. Recently, GAN is used widely in tasks of image processing and Natural Language Processing(NLP). However, GAN has many disadvantages such as instability in training process and mode collapse in generation process. This paper will analyze GAN from the architectures and loss functions, and introduce its applications in NLP.
  【Key words】 Generative Adversarial Networks; Natural Language Processing; sequence generation; transfer learning
  0 引 言
  生成式模型是機器学习算法中重要的组成部分,可有效地学习数据真实分布pdata(x)的参数θ。生成式模型越来越多地用于估计高维信号数据的结构并人工生成多样化的数据,如图像、视频、音频、文本序列等。生成式模型可用于表示学习[1]、半监督学习[2]、领域迁移[3]、图文转换[4]、超分辨率[5]、图像增强[6]等等。生成式模型可分为隐式和显式两种类型,显式生成式模型,例如VAE(Variational Autoencoders),以最大化其似然或最下界为目标函数,需要获取显式密度概率函数。但是,很多情况下难以获取并表示高维数据的真实分布[7]。隐式生成模型不需要显式的密度概率,例如生成式对抗网络利用采样机制生成新数据。
  生成式对抗网络由Goodfellow等人[8]提出,因其不依赖于对数据分布的任何假设,并且可以生成特别相似的假样本,受到越来越多的关注。GAN广泛应用在图像增强、风格转换、图像翻译、序列生成等任务中。
  本文的框架如下:首先介绍生成式对抗网络的结构原理及损失函数定义,然后探讨对生成式对抗网络在度量函数及网络结构上进行改进的版本,再给出GAN在自然语言处理中的应用,最后是本文的研究结论。
  1 生成式对抗网络
  生成式对抗网络一般包含一个生成器G和一个判别器D,结构如图1所示。给定数据x,判别器D负责判断x是真实数据、还是假数据,并输出各自的概率值。给定服从分布pz的噪声数据z,生成器G生成假的数据用来欺骗D。生成器尝试获取真实数据的分布pdata,使其生成数据x的分布px与pdata越来越近。
  给定真实数据x,判别器D的目标是最大化其输出log D(x),当输入的是生成的数据G(z),判别器的目标是最小化log D(G(z))。从生成器G的角度,目标是使得log D(G(z))最大。训练过程中,生成器G和判别器D依据函数V(D,G)进行min-max博弈,函数V(D,G)在二元分类问题中, 常为二元交叉熵损失函数。 具体数字定义公式为:
  基于判别器D的输出,D和G均进行参数优化。如果判别器D预测生成的数据G(z)为假数据,那么G会调整参数使其生成的数据更接近真实数据来欺骗D。反之,如果判别器D预测生成的数据G(z)为真数据,判别器D会更新其参数,避免犯此错误,使其具有更好的分类性能。生成器G和判别器D不断进行博弈,直到最终达到纳什均衡(Nash equilibrium)。不同的训练场景中,每次迭代中二者优化的步数可设置为不同的值。
  当生成器G固定时,给定真实数据x,最佳判别器D的输出为:
  KL散度用来衡量2个分布之间的差异程度,也称为相对熵。也就是说,生成器的训练目标是使生成的数据尽可能地接近真实数据的分布。
  2 GAN的演变
  随着研究的进展,原始版本的GAN不能满足日益变化的需求,GAN-Zoo(https://deephunt.in/the-gan-zoo-79597dc8c347)不断添加更新的GAN,迄今为止,已有几百个版本。本节主要从度量函数和网络结构上阐释解析GAN的改进版。
  2.1 度量函数
  生成器的目标是最小化生成数据pdata和真实数据pg之间的差异,所以选择合适的度量函数非常重要。很多研究者尝试了不同类别的度量函数,其中一种为f-divergence Df(pdata||pg),要求f是一个凸函数且f(1)=0,例如KL散度、JS散度、逆KL散度、Jefferey等[9]。以f-divergence为度量函数的GAN可称为f-GAN,比如LSGAN、EBGAN等。其对应的数学公式为:    另外一类度量函数为IPM(Integral probability metric),度量2个概率分布之间的距离,包括Wasserstein距离、Dudley度量、最大均值差异(maximum mean discrepancy,MMD)等。Wasserstein距离可以看作从分布pdata移动到pg花费的最小代价,也称Earth-Mover(EM)距离,使用Wasserstein距离作为目标函数的GAN称为Wasserstein GAN(WGAN)[10]。
  此外,有一些辅助的函数可作为GAN的目标函数,比如重构损失、二元分类交叉熵损失等等。自编码器可以作为GAN的判别器,从而重构错误可用于计算损失函数,比如Energy Based GAN (EBGAN)[11]、Boundary Equilibrium GAN (BEGAN)[12] 、Margin Adaptation GAN (MAGAN)[13]。该类GAN的判别器可以看作能量函数,而不是区分输入真伪的概率模型。
  AEGAN[14]将自编码器AE(Autoencoders)和GAN进行结合,分别对数据x和隐变量z计算对抗损失和重构损失,既缓解GAN训练的不稳定性,又缓解重构损失带来的模糊效应。
  2.2 网络结构
  深度卷积生成式对抗网络(Deep Convolution Generative Adversarial Networks,DCGAN)是GAN的一种变体,在判别器和生成器中分别采用了卷积层和转置卷积层[1]。DCGAN的判别器包含跨距卷积层、批归一化层、带泄露修正线性单元(Leaky ReLU),生成器包含转置卷积层、批归一化层、修正线性单元层。和原始GAN对比,DCGAN的结构大大提高了GAN训练的稳定性。因此,在結构上对GAN进行改善的版本,多将DCGAN作为基线系统进行对比。
  除了改进判别器和生成器的结构以外,还可以将多个判别器与生成器进行堆叠,比如CoGAN[15]、StackedGAN[16]、CycleGAN[17]等。
  3 GAN在自然语言处理中的应用
  当GAN处理离散符号时,有一定的局限性,因为难以完成梯度回传。因此,应用在自然语言处理中的GAN多采用强化学习中的策略梯度、Wasserstein距离度量等方式克服该问题。
  3.1 序列生成
  SeqGAN[18]是第一个生成离散符号的生成式对抗网络,结构如图2所示。SeqGAN将生成器G建模为强化学习中的随机策略,生成器G基于LSTM(Long Short Term Memory Network)网络,生成token等序列。判别器D基于卷积网,负责对完整的生成序列进行分类,判断是生成的序列还是真实的序列,将分类的概率值以奖励返回给生成器。SeqGAN在诗歌、语言、音乐等生成任务上得到了应用。
  MaskGAN[19]采用基于actor-critic的条件GAN,将原有序列按照比例进行掩码,根据其上下文预测候选词,以完形填空的方式克服模式崩塌的问题。MaskGAN的架构包括生成器、判别器和actor-critic网络,其中生成器和判别器基于Seq2Seq模型结构。MaskGAN采用了策略梯度,判别器的输出作为奖励值,且对每一步生成均有奖励值。实验证明MaskGAN可以提高生成序列的质量。
  TreeGAN[20]可生成具有句法意识的序列,比如SQL语句,其中判别器和生成器中均给定一定规模的真实序列以及一系列预先定义的文法规则。生成器采用RNN(Recurrent Neural Network)网络构造一棵句法树,判别器采用TreeLSTM判断序列是生成的还是真实的。TreeGAN可为任何上下文无关文法生成树。
  生成式对抗网络也用于对话生成[21]。给定相应对话历史,生成器利用Seq2Seq模型输出针对性的回复,判别器针对每步输出的奖励值回传给生成器,使得生成器生成与人工回复无区分的回复序列。相似的思路也用于提高基于神经网络的机器翻译任务中[22]。
  RankGAN[23]的生成器基于LSTM网络生成句子,判别器基于CNN对句子进行排名,判别器的目标是使得人工书写的句子比自动生成的句子排名靠前,而生成器的目标则相反。
  3.2 其他
  除了序列生成类的任务,GAN还应用在信息检索、学习隐变量表示、领域迁移、文本风格迁移等任务上。IRGAN[24]中的生成器为查询q生成或者选择最相关的文档d,判别器采用打分函数计算元组(q,d)的匹配度,判别器的目标是使得生成文档的分数比真实文档的分数要低,IRGAN采用策略梯度训练生成器。
  在迁移学习任务中,GAN的生成器将源领域的特征替换成目标领域的数据特征,判别器D负责区分真实的数据和生成的数据。文献[25]采用WGAN学习领域一致的词表示,有针对性地提高自然语言处理任务的领域迁移性能。文献[26]在没有平行语料的情况下,采用数据增强训练CGAN(Conditional GAN),分别对生成的句子进行风格分类和内容分类,从而完成句子的风格迁移。文献[27]输入源领域数据,通过GAN生成目标领域的数据,完成情感分类任务的领域迁移。
  4 GAN的优点及缺点
  GAN的优点是不需要先验密度函数、生成数据速度快。相对于VAE(Variational Autoencoders),GAN不需要引入下界来近似似然,但VAE可以计算重构损失,因此GAN与VAE结合使用未尝不是好的选择[28]。
  GAN的缺点是训练过程不稳定、模式坍塌、梯度消失问题。如果判别器性能较弱,生成器生成的数据多样性较弱,如果判别器性能较强,生成器越容易出现梯度消失问题。GAN的稳定性不单单由生成器或判别器来决定,而是二者对抗训练的交互过程决定的。需要根据具体任务决定生成器和判别器的网络结构,以及训练过程中的技巧,比如梯度截断、生成器与判别器训练的步数、损失函数及学习率的选择等等。   5 結束语
  生成式对抗网络是一个无需显式密度概率的无监督生成式模型,模型的训练过程为判别器与生成器的min-max博弈,最终达到纳什均衡点。本文介绍了GAN的结构及其在自然语言处理中的应用,包括序列生成、领域迁移等,并分析了GAN的优缺点。未来期待更多的工作,研究如何解决GAN的模式坍塌以及训练中的稳定性问题。
  参考文献
  [1] RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[C]//ICLR. Puerto, Rico:dblp, 2016:1-16.
  [2]DENTON E L, GROSS S, FERGUS R. Semi-supervised learning with context-conditional generative adversarial networks[J]. CoRR, abs/1611.06430, 2016.
  [3]GANIN Y, USTINOVA E, AJAKAN H, et al. Domain adversarial training of neural networks[J]. Journal of Machine Learning Research, 2016,17(59):1-35.
  [4]REED S E, AKATA Z, YAN Xinchen, et al. Generative adversarial text to image synthesis[J]. CoRR, abs/1605.05396, 2016.
  [5]LEDIG C, THEIS L, HUSZAR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[J]. CoRR, abs/1609.04802, 2016.
  [6]ZHANG He, SINDAGi V, PATEL V M. Image de-raining using a conditional generative adversarial network[J]. CoRR, abs/1701.05957, 2017.
  [7]NGUYEN A M, DOSOVITSKIY A, YOSINSKI J, et al. Synthesizing the preferred inputs for neurons in neural networks via deep generator networks[J]. CoRR, abs/1605.09304, 2016.
  [8]GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]// NIPS’14: Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA, USA:NIPS Foundation,2014, 2:2672-2680.
  [9]NOWOZIN S, CSEKE B, TOMIOKA R. f-GAN: Training generative neural samplers using variational divergence minimization[C]// NIPS’16:Proceedings of the 30th International Conference on Neural Information Processing System. Barcelona, Spain:NIPS
其他文献
摘 要: 本文通过进行大量预处理工作,将经过词袋模型和Word2Vec两种不同向量化方法处理后的文本数据分别输入到SVM和LSTM模型中,训练出可以识别文本情感倾向的模型。进而对新产生的评论进行分类。根据实际数据量的倾斜状况,基于传统机器学习算法支持向量机(SVM),本文提出双层支持向量机,采用2种不同的方法分别训练模型并预测。最后再使用深度学习算法长短时记忆模型(LSTM)再次训练并预测,并对这
针对铁路窗口售票服务质量的问题,提出一种售票窗口服务质量的表情识别监测系统。该系统通过售票窗口外侧的摄像头检测到人脸图像时,表情监测系统每隔一定的时间就会通过安装在售票窗口内的摄像头获取监控范围内的帧图像信息,由表情识别监测系统对图像进行处理和识别,将识别后的结果进行数据统计。基于表情识别技术的监测系统在铁路售票窗口的应用,不仅能够提高售票员的服务质量,也能够让旅客在购票的过程中体验到舒适感。
摘 要: 随着人机交互领域研究的不断发展,交互途径已经从传统的视觉和听觉途径扩展到触觉途径。触觉是人类感知外界信息的重要途径之一。非接触式触觉反馈能够在 AR/VR领域有更好的表现,为虚拟现实中的场景交互提供触觉反馈。本文提出一种基于相控阵技术的方法来使超声波的波束聚焦以模拟触觉。通过Matlab进行超声波换能器声场仿真分析设计开发了基于DSP(Digital Signal Processing)
摘 要: 多式联运是一种新兴的运输方式,通过整合多种交通资源形成一套完善的体系来提高运输效率。航空客运量可以用来评估民航业的发展状况,根据分析出的影响客运量变化的因素,可以为民航系统的发展提供方向。本文利用多元回归分析法,根据现阶段多式联运发展程度较高的上海虹桥机场数据,分析铁路、轨道、公路和水运的客运量对航空客运量产生的影响。  关键词: 多元回归分析; 多式联运; 客运量  文章编号: 209
渔业水质评价智能化对提高渔业生产水平起到关键促进作用.本文针对渔业水质评价设计了基于LBFGS优化的神经网络模型,深入讨论选取特征的有效性并优化了特征选择,实现了模型压
随着社交网络的快速发展,人们通常会上传、分享和记录食物图片,因此食物图像分类的应用价值也越来越大,对食品推荐、营养搭配、烹饪文化等方面都产生了积极的影响。尽管食物图像分类有着巨大的应用潜力,但从图像中识别食物仍然是一项具有挑战性的任务。为了解决食物的细粒度识别问题,本文提出了一种基于自我监督预处理的食物图像分类模型,通过自我监督的学习方式更高程度地学习食物图像特征。该模型在基于密集连接网络的食物图
考虑激光深熔焊过程中存在对流、辐射、热传导等传热过程以及蒸汽反冲作用力,表面张力,热浮力等力学过程,采用移动旋转高斯体热源来简化焊接的热过程,使用VOF方法跟踪自由界
摘 要: 当前国内道路交通管制仍然主要依靠交通信号灯,依然是传统的三色灯固定配时模式,这种模式最大的弊端在于不能针对交通流的实时变化进行动态配时调整,从而造成道路资源的浪费。对多目标算法进行优化,并提出一种交叉路口信号灯智能配时模型。又利用实际数据对模型进行了测试分析。实验证明,该模型能有效减少机动车的平均延迟时间和停车次数,从而提升道路的通行效率。  关键词: 交叉口; 交通流预测; 动态配时;
摘 要: 利用计算机和新媒体技术,网络犯罪案件则呈现出一些新的特征,云计算平台是网络攻击的最大目标。针对新媒体环境下云平台的安全隐患,以及传统电子取证的局限性,阐述云取证工作发展的迫切性,探讨了网络犯罪下云取证的研究热点及模型,以及现有工作所面临的各种挑战,并提出云取证领域今后的改进措施和研究方向。  关键词: 新媒体; 网络犯罪; 云取证; 云计算; 电子取证  文章编号: 2095-2163(
摘 要: 面对互联网交易中店家靠刷销量欺骗消费者的问题,提出使用k最近邻(k-Nearest Neighbor,kNN)算法进行欺诈检测。 针对传统kNN算法在搜索k近邻时耗时过多的问题,提出基于KD树结构的kNN算法。 为解决经典KD树算法由于每次回溯都要回溯到根节点而导致查询效率低的问题,提出使用最佳桶优先(Best-Bin-First,BBF)算法进行k个近邻的查询。 算法首先对待测数据集进