汽车评测图像中文描述生成技术研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:qiuzhilv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,互联网上的内容形式从传统的纯文本向图文、视频形式转变。各种图像文本形式的内容琳琅满目,极大地丰富了人们的阅读生活,给人们带来了诸多便利。图文内容形式已成为互联网上信息的主要呈现形式之一,同时,互联网信息服务商也越来越重视图文内容的生产效率以及发布速度。为了满足这样的需求,图像描述生成技术作为一项结合计算机视觉和自然语言处理两个领域的任务,将图像视觉和自然语言的研究联系了起来。其目的是给定一幅图像,然后为这副图像生成一句描述该图像的自然语言句子。该技术可以加快图文内容的生产和发布,具有重要的研究和应用价值。随着深度学习的发展,以编码-解码(Encoder-Decoder)框架为基础的图像描述生成方法得到了越来越多研究人员的青睐,其在连接图像视觉特征和文本特征方面表现出了显著的效果。本文以汽车评测文章中的图像中文描述生成为研究对象,针对实际应用中数据的特点以及在图像描述生成的过程中对描述的侧重点进行控制从而实现描述的多样性的需求,在以下几个方面做出了相关的研究工作。(1)针对实际应用中图像描述数据映射关系弱的特点,具体表现为相似的图像具有针对不同的侧重点的描述,本文通过图文数据的采集和处理,构建了一个“汽车图像-关键词信息-中文描述”三元组映射关系的数据集。利用关键词文本信息作为图像信息的补充从而加强图像到图像描述的映射关系。(2)针对实际应用中对生成的图像描述的多样性的需求,本文在基础的编码-解码结构中融合了描述关键词预测模型以引入关键词信息,将图像和关键词文本特征进行融合作为模型的输入。该方法可以加强图像到图像描述的映射关系,此外可以根据不同的关键词信息对生成描述的描述侧重点进行控制,使描述往不同的侧重点进行描述以增加描述的多样性。(3)针对多模态数据特征的提取和融合,本文通过使用迁移学习(Transfer Learning)的方式将在Image Net图像数据集上预训练的VGG-16网络模型作为图像特征的提取器;然后,训练了一个词向量模型作为关键词文本特征的提取器;最后,研究图像特征和文本特征融合方法。最后,为验证本文所提方法的有效性与实用性,本文利用构建的“汽车图像-关键词信息-图像描述”映射关系的数据集进行实验分析。实验结果表明,利用本文的方法可以为汽车图像生成流畅的中文描述句子,其在BLEU、Rouge-L和CIDEr评价指标上的评价得分优于没有引入关键词信息的模型。针对不同的关键词信息,模型能够在一定程度上控制图像描述的描述侧重点,生成更加多样的图像描述句子。
其他文献
随着我国经济发展,规模化猪牛养殖业成为农业发展、农田增收重要支柱产业。与此同时,养殖粪便成为一个巨大的污染源,给生态环境带来了严重的威胁。目前规模化猪牛养殖场普遍存在投资大、处理效率低、利用技术不配套、没有明确的规范与技术指导等问题,尤其是中小规模养殖场,由于存栏数量小,其治污费用比例远高于大型养殖场,严重制约了规模化猪牛养殖业的可持续发展。因此构建科学合理的中小规模猪牛养殖场粪污综合利用技术评价
路面结构出现的损伤将对交通运输安全以及经济发展造成影响,而车辆荷载长时间的持续作用是导致路面结构出现损伤的重要因素之一。因此,研究车辆荷载与路面结构响应关系有一定
中高折射率(n>2.0)介电纳米微球由于在可见光区存在光诱导电共振和磁共振的独特的光学现象,受到人们的广泛关注。高折射(n>3.0)的纳米微球制备需要复杂的物理工艺,大大限制了
锁是一种常用的同步机制,用于保护程序状态和数据的正确访问,然而基于锁的并发程序很容易受到锁竞争的影响,导致性能下降和可伸缩性变差。此外,编写并发程序具有挑战性,开发人员很难一次编写高质量的并发代码,很多时候会遇到粗粒度的同步问题,引入不必要的锁竞争。与粗粒度锁相比,细粒度锁只对一小部分代码进行加锁,可以有效减少锁的持有时间和线程等待时间,减少锁竞争问题的影响。但是,使用细粒度锁并非一件容易的事,开
本翻译报告选用 Paving of Sanniquellie-Loguat uo Road Section Bidding Document for Procurement of Works第二章为翻译材料,以莱斯文本类型理论作为理论指导。根据莱斯的文本类型理论,招标文件属于信息型文本。招标文件信息量大,主要是为投标人清晰准确地传递各项条款及规定。信息型文本侧重内容,语言逻辑性强。翻译时要保证原文
复合卷流燃烧系统是以双卷流燃烧系统和侧卷流燃烧系统为基础开发的,通过在燃烧室结构中加入弧脊和分流造型以实现燃烧室纵向和周向的燃油卷动,提高油气混合速率。现有复合卷
在线学习环境中,由于教师和学生时空的隔离,普遍存在情感缺失问题。学习者的学习效果会受到学习者的情感状态影响,学习者处于积极的情感状态时,对学习者的学习有促进作用,处于负向情感状态时,会降低学习者的学习效率。在线学习环境下,精准识别学习者的情感状态,当学习者出现负向情感时,给予情感支持将有效地提升学习者的学习效果和学习体验,因此研究一种在线视频学习环境下,对学习者无干扰且能精准地识别学习者情感状态的
改革开放尤其是我国进入新的发展阶段以来,经济结构调整与产业转型升级不断加快,社会对技术技能型人才的需求越来越紧迫,职业教育的地位与作用也越来越重要;我国职业教育的发展虽然取得了很大成就,但与建设现代经济体系和教育强国的要求相比,依然存在着诸多问题。作为一所中等职业技术学校,石家庄铁路职业技工学校也不例外,既面临着难得的发展机遇,同时也存在着重大挑战;为了提升办学和人才培养质量水平,亟需加强教师队伍
目的:本研究关注于精神分裂症患者的歇后语认知加工机制,以熟悉度为自变量,在研究一中,探究高低熟悉度下不同认知功能对歇后语理解的影响作用;在研究二中,通过眼动探讨精分患者是否存在异化的歇后语加工机制。方法:本研究主要分为文献研究和实验研究两部分。文献研究部分的研究方法主要是通过中国知网数据库(CNKI)、中国生物医学文献数据库(CBM)、维普全文数据库(VIP)、万方中华医学会期刊数据库及PubMe