基于生成对抗网络的文本—人脸图像合成研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:guorui146105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习的突破使计算机视觉应用和图像生成技术获得了极大的进展。随着深度生成模型的引入,深度学习在图像生成领域取得了长足的进步。根据文本描述生成真实感人脸图像(Text-to-Face synthesis)在公共安全领域具有极大的发展潜力。这项任务旨在将描述性的文本语句转换为真实感的人脸图像,它不仅要求计算机理解文本所表达的语义内容,而且需要生成的人像图像信息与给定文本信息相匹配,这是一项非常艰巨的任务。由于人脸面部特征描述的复杂性和多样性导致脸部图像与对应的文本描述之间的联系要比常见的鸟类和花卉图像更弱,因此,在文本描述和面部特征之间找到令人满意的映射,是一个必须解决的难题。一方面,大多数文本到脸部的合成模型的文本描述只有包含几个形容词的单句,文本描述的缺失导致生成的人脸图像的面部细节不完整。另一方面,在文本—人脸图像合成(Text-to-Face synthesis)还存在着诸如生成图片质量不高、分辨率较低等问题。为此,本文针对现有文本—人脸图像合成领域存在的一些不足,提出了新的解决方案,主要工作和贡献如下:首先,针对现有文本—人脸图像合成模型中由于文本编码器处理复杂文本描述的能力有限导致编码语义不准确且编码效率较低,为了编码更准确的文本语义信息,进而合成更充分、更完整的人脸面部细节,在文本编码器部分使用一种新的文本编码方式——基于卷积—反卷积的单词级长短期记忆嵌入网络(Convolution-Deconvolution Word Embedding LSTM,CDWE-BLSTM)来处理复杂的人脸文本描述。该编码器从输入的词向量矩阵中获取语义特征,再生成和融合多个原型的过程中学习文本相关信息,然后将生成的结果送入BLSTM网络中,通过对文本编码过程的训练来实现对文本编码器参数的修改,从而将无监督的表征转移到有监督的模型的过程中。此外,为验证该模型在文本—人脸图像合成领域内的鲁棒性,本文将其与传统方法在COCO数据集和Face2Text数据集上进行了文本—图像特征分类任务以及文本—图像特征检索任务。最后通过横向对比实验充分验证了该方法在文本—图像合成领域能编码更有效的文本语义信息。然后,针对现有方法存在人脸图像生成网络训练难度大,以及合成的图像分辨率较低和面部细节不清晰等问题,本文提出了一种新颖的基于生成对抗网络的渐进式文本—人脸图像合成方法(Progressive Text-to-Face Synthesis with Generative Adversarial Network,PFGAN),该方法采用多阶段GAN(Multi-Stage GAN)网络,由多个生成器和鉴别器以树形结构排列,生成器位于树型网络结构最深处的分支上,最终目标是根据给定文本描述渐进式生成真实感的人脸图像。具体地说,在树状结构中,网络的输入被视为树的根部,树的不同分支分别生成不同尺寸的人脸图像,对应的分辨率依次为:64×64,128×128,256×256。在训练过程中,首先根据句子向量合成低分辨率人脸图像,然后结合单词级语义信息和前一阶段合成的低分辨率图像,实现对当前阶段合成人脸图像的修改。本文联合训练整个网络,以适应图像分辨率不同但图像分布高度相关的情况。最终合成的人脸图像与输入的文本描述高度一致,并且在实验结果中没有模糊或不清楚的面部纹理存在。为验证本文提出模型的效果,我们在公开数据集COCO上与传统文本—图像合成方法做横向对比,通过IS(Inception Scores)、FID(Fréchet Inception Distance)等指标验证了本文提出的PFGAN的优越性。其次,在公开数据集Face2Text做了对比实验,从图像分辨率以及面部细节是否充分等方面验证了我们的网络在文本—人脸图像合成方面的有效性。综上,本文在对传统文本—图像合成模型研究的基础上,提出了新的渐进式生成对抗网络分阶段合成真实感的人脸图像,并且使用了新颖的基于卷积—反卷积的单词级长短期记忆嵌入网络作为文本编码器,大大改善了编码的准确性进而丰富了合成人脸图像的面部细节特征。同时,通过大量实验从IS、FID等指标以及图像分辨率、面部细节是否充分等方面验证了我们模型的有效性和鲁棒性。
其他文献
陶行知先生认为:"真教育是心心相印的活动,唯独从心里发出来,才能打动心灵的深处。"由此可见,这句话针对小学语文教学来说也不例外,这样就要求教师端正自己的工作态度,有意识地将语文课堂教学有机的和生活结合在一起,让教学过程演变成学生愿意参与到活动来的过程,把课堂还给他们,让他们成为课堂的主人。
期刊
蛋白质翻译后修饰,是指在m RNA被翻译成蛋白质后,生物体对构成蛋白质的氨基酸上个别侧链残基进行修饰的过程。迄今,人们已发现多达200余种的蛋白质修饰类型。在如此众多、复杂的蛋白质翻译后修饰类型中,有一种罕见的特殊修饰方式称为消去化修饰(Eliminylation)。蛋白质的消去化修饰是指通过β-消去反应,消除半胱氨酸的巯基或者丝氨酸、苏氨酸残基的羟基的过程,从而生成不饱和氨基酸,如脱氢丁氨酸或脱
学位
目的 评价“学生-家庭-学校-医疗”四位一体的综合性干预模式对小学生姿势性脊柱侧弯的预防效果。方法 按照知情同意,自愿参加的原则,随机抽取赤峰市两所城区小学的四、五年级学生进行脊柱弯曲异常的筛查,结合学校对干预措施的配合意愿,将筛查无异常者按校区分为干预组和对照组,对干预组进行为期6个月的跟踪干预,干预措施采取“学生-家庭-学校-医疗”四位一体的综合性干预模式进行,对照组采取空白对照,主要结局为姿
期刊
重庆市渝北区地处华蓥山主峰以南的盆东平行岭谷地带,地势从西北向东南缓缓倾斜。自西向东由华蓥山脉、铜锣山脉、明月山脉三条西北至东南走向的条状山脉与宽谷丘陵交互组成的平行岭谷,生态系统多样,给鸟类提供了栖息场所,国家重点保护及濒危物种丰富,具有一定的保护与科研价值。采用样线与样点相结合的方法,于2020年7月、8月和2021年1月、2月对渝北区鸟类展开调查。对该区的鸟类群落进行了时空分析,从而呈现了渝
学位
甘薯[Ipomoea batatas(L.)Lam.]的茎叶为其地上蔓生部分,生物量可观。现有研究表明,甘薯叶片中含有丰富的酚酸和类黄酮等多种酚类物质,具有抗氧化、降血糖、抗肿瘤等作用,在食品、医药、保健品以及化妆品等领域都有广泛的应用。因此,开展甘薯叶片酚类物质含量及其在基因型间的变化规律、生物合成机制相关的研究具有重要的理论意义和应用价值。目前对甘薯叶片的研究,多集中在甘薯品种中的酚类物质含量
学位
动物从自然界中获取的能量需要在维持、生长、繁殖和储存等组分间进行分配。在维持需求中,感觉器官的能量需求占比较大,当可用能量有限时,可能存在视觉与非视觉感觉(如听觉)的能量和功能权衡。在黑暗的洞穴环境中,鱼类可获得的食物资源有限,因此可能导致不同感觉器官之间的能量和功能权衡。与视觉相比,听觉和侧线机械感觉的耗能水平较低,洞穴鱼类的视觉退化节约的能量可能减轻听觉和侧线机械感觉受到的能量限制。此外,在黑
学位
目的 探讨融入人文关怀的以问题为基础的学习(PBL)教学法在妇科住院医师规范化培训中的应用效果。方法 选取2019年9月至2021年8月在该院妇科进行规范化培训的43名住院医师作为研究对象,采用随机数字表法分为研究组(21名)和对照组(22名)。研究组采用融入人文关怀的PBL教学法,对照组采用单纯PBL教学方法。每批规范化培训结束后进行理论考试、临床技能操作考试、教学满意度调查和患者出院时对其管床
期刊
<正>4月20日,山东省民营经济高质量发展工作会议召开,会议深入学习贯彻党的二十大精神和习近平总书记关于民营经济发展的重要论述,旨在加快推动山东民营经济高质量发展。“支持民营经济发展是我们的重要职责和使命”,省农信联社党委书记王继东表示。近年来,作为地方金融机构,省农信联社指导全省农商银行始终坚守服务“‘三农’、小微企业、个体工商户、城乡居民家庭”的市场定位,聚焦民营企业“融资难、融资慢、融资贵”
期刊
目的:探讨口服抗凝血药利伐沙班在脑梗死合并心房颤动患者中抗凝时机的选择,及对患者临床复合血管性事件的影响。方法:选取2019年7月至2020年10月该院收治的脑梗死合并心房颤动患者153例,采用简单随机化法分为A组、B组和C组,各51例。A组患者于脑梗死后<3 d开始抗凝治疗,B组患者于脑梗死后3~14 d开始抗凝治疗,C组患者于脑梗死后>14 d开始抗凝治疗。比较三组患者治疗前后凝血功能指标[凝
期刊
托品烷生物碱(Tropane Alkaloids,TAs)是一类在结构上具有独特托品烷骨架的生物碱,主要包括莨菪碱(Hyoscyamine)和东莨菪碱(Scopolamine)。莨菪碱和东莨菪碱可用作麻醉剂、解痉剂、胃肠镇静剂等临床药物以及用于缓解晕动症、帕金森氏症等疾病,市场需求巨大。TAs主要存在于少数茄科植物,其中颠茄(Atropa belladonna)是商业生产TAs的主要药源植物,同时
学位