基于硬注意力机制的多模态视频字幕的处理

来源 :计算机应用研究 | 被引量 : 1次 | 上传用户:soundbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的视频字幕生成模型大多都采用编码器—译码器框架。在编码阶段,使用卷积神经网络对视频进行处理。在解码阶段,使用长短期记忆网络生成视频的相应字幕。基于视频的时序相关性和多模态性,提出了一个混合型模型,即基于硬注意力的多模态视频字幕的生成模型。该模型在编码阶段使用不同的融合模型将视频和音频两种模态进行关联,在解码阶段基于长短期记忆网络的基础上加入了硬注意力机制来生成对视频的描述。这个混合模型在数据集MSR-VTT(Microsoft research video to text)上得到的机器翻译指标较
其他文献
针对现有基于注意力机制的多模态学习,对文字上下文之间的自我联系和图像目标区域的空间位置关系进行了深入研究。在分析现有注意力网络的基础上,提出使用自注意力模块(self-attention,SA)和空间推理注意力模块(spatial reasoning attention,SRA)对文本信息和图像目标进行映射,最终得到融合特征输出。相较于其他注意力机制,SA和SRA可以更好地将文本信息匹配图像目标区
通过对催化燃烧式甲烷测定器检定原理进行分析,在不改变规程要求检定环境的条件下,对检定装置进行重新设计并制作,通过配合“气体分流箱”的使用,可根据检定数量及所需标准气
目的:探讨胎儿心脏外翻畸形产前超声诊断及临床价值。方法:回顾性分析我院2015年1月-2020年2月产前超声检查发现3例胎儿心脏外翻畸形声像图及临床资料,并结合文献复习胎儿心
在全球一体化的发展背景下,科技期刊联盟既要服务读者市场,也要促进学术科研创新,更要承担维护国家发展建设的使命。文章以21世纪以来我国科技期刊联盟的发展现状为切入点,在
CT已经逐渐成为检查输尿管疾病的主要影像学方法,通过CT平扫和CT排泄期扫描观察输尿管疾病。研究者通过不同的辅助措施来改善CT排泄期扫描中输尿管的显影情况,这些辅助措施包
随着现代教学理论的发展和进步,班主任在班级管理中的创新管理措施也愈加多元,对促进学生整体素养的提升创设了重要条件。班主任教师在班级管理中要适应时代发展的需要,对学
科学既是最具客观性的学问,又最看重创新性。科学客观性作为文化规范深深植根于社会实践中,通常从本体论、认识论和价值论这三个不同的范畴对科学客观性的含义予以说明。科学
目的:探索以知柏地黄丸结合中药熏洗治疗老年性阴道炎的临床疗效。方法:将2016年8月-2019年8月期间于我院接受治疗的老年性阴道炎患者以区组随机化法分为参照组与试验组,每组
目的:观察穴位注射合腰大肌间沟阻滞治疗腰椎间盘突出症的临床疗效。方法:86例确诊为腰椎间盘突出症的患者随机分为对照组和观察组,每组43例。对照组予口服双氯芬酸钠缓释片,
初中数学教学中,创设问题教学情境,不仅能够培养学生数学思维,同时还有助于营造互动的课堂教学氛围。初中数学教师应当遵循趣味性、层次性、启发性等教学原则,立足学生生活创