【摘 要】
:
图像描述是连接计算机视觉和自然语言处理的基础任务,在人工智能领域有着广泛的应用。现有的图像描述算法普遍采用迁移学习提取图像特征,在生成描述语句时只使用视觉特征,导
论文部分内容阅读
图像描述是连接计算机视觉和自然语言处理的基础任务,在人工智能领域有着广泛的应用。现有的图像描述算法普遍采用迁移学习提取图像特征,在生成描述语句时只使用视觉特征,导致生成的描述语句不够准确、丰富。另外基于注意力机制的图像描述算法模型结构复杂、训练难度较大。针对上述不足,本文提出基于多模态注意力机制的图像描述算法。首先基于图像描述数据集构造关键词类别、关键词数据集,通过关键词数据集训练基于关键词的图像特征抽取模型,提取到更准确的图像特征。然后本文分别提出了基于关键词注意力机制的图像描述算法和基于空间特征注意力机制的图像描述算法。基于关键词注意力机制的图像描述算法通过关键词引导描述语句的生成,能够克服生成的描述语句不丰富的缺点。基于空间注意力机制的图像描述算法利用高层图像特征生成描述语句,简化了模型的结构。最后,本文结合关键词注意力机制和空间注意力机制提出了基于多模态注意力机制的图像描述算法。其中,空间注意力机制能够获得更优的视觉特征,关键词注意力机制能够引导描述语句的生成,从而获到更加准确和更加丰富的图像描述语句。本文在MSCOCO数据集进行了大量实验以验证本文提出模型的有效性和准确性。实验结果表明本文提出的算法明显优于其他对比的图像描述算法。
其他文献
激光自混合效应是激光器发出的光射到外部物体表面,经过反射或散射后其中一部分光又反馈回激光器,此时的反馈光携带了外部物体的信息,与腔内光混合后调制了激光器输出光的光
城市旅游的兴起给城市公园带来了发展的契机,城市公园不仅丰富了市民的文化生活内容,而且也增强了人们锻炼身体、增强体质的体育意识。城市居民参加体育锻炼的积极性越来越高
随着下游用户对冷轧带材板形质量要求的不断提高,板形控制理论及其相关技术不断得到研究人员的重视并逐步获得深化与发展。控制模型是控制系统的灵魂,实现高精度冷轧板形自动
目标检测是计算机视觉的一个重要领域,它在当前很多热门领域如自动驾驶汽车,计算机辅助医疗诊断,交通情况监测当中都有着广泛的应用。目标检测是一个从整体到局部的过程,在这
随着工业生产的不断发展以及人类对外太空的不断探索,国内外研究学者对机械臂操作性能提出更高要求,而影响机械臂性能的因素主要有以下三点:机械臂在运动过程中具有较大的惯
机械臂的运动学参数标定对提高机械臂的定位精度有着重要意义。由于现有的机械臂运动学参数标定方法所需要的末端执行器如激光跟踪仪、球杆仪以及三坐标测量仪等,有操作复杂
江西省森林资源丰富,古树名木种类繁多。古树名木集生态价值、经济价值、科研价值、历史文化价值、美学景观价值和社会公益价值等多种价值于一身。开展古树名木资源的调查与保护对于我省建设生态文明示范区,弘扬生态文化等具有积极的意义。本文以江西梅岭国家森林公园为调查区域,以每木调查法获得古树名木的基础数据,分析古树名木的种类特征、分布特征和生长特征等,以期为该区域古树名木资源与后续资源的保护,维护生态文明建设
语义技术的不断发展使RDF数据集的规模也逐年增大,这给RDF数据的查询带来了非常大的挑战。在面对大量查询语句和庞大数据集的情况下,如何优化SPARQL查询从而快速高效地得到查
随着国民教育的发展与改革,中等职业教育及其质量受到了普遍关注。那中职教育质量究竟如何?该如何提升它呢?中等职业教育质量高低取决于中职学生的学习投入程度。通过研究中
作为“互联网+”经济的典型代表,网约车从产生到发展至今一直处于争议之中。一方面网约车的产生确实解决了社会“打车难”、“打车贵”等痛点问题,另一方面由于网约车发展还处于初级阶段,其自身及配套的监管措施还存有很多不当之处,围绕网约车频发的一些侵权乃至刑事案件挑动着社会的神经。毫无疑问,网约车的产生是城市出租汽车行业的巨大进步,网约车也在不知不觉中倒逼传统出租汽车行业的改革,为城市出租车行业注入了新鲜的