基于语义空间统一表征的视频多模态内容分析技术

来源 :电视技术 | 被引量 : 3次 | 上传用户:ssdkln
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频是数据处理中综合性能最高,包含内容最广的载体。视频题目通过文字表达,内容通过连续图像帧表达,另外部分视频还包含背景音乐或者解说旁白。因此,视频处理即是对文字、图像、声音的多模态处理。着眼于多模态处理技术,提出基于语义空间统一表征的视频多模态内容分析框架,利用多种架构的深度神经网络,对视频的文字、图像、音频进行分别处理,为达到统一的功效,将不同结构的深度神经网络归结到语义空间,通过语义空间进行综合认知。提出的架构清晰、层次分明,对于视频理解的建模具有指导意义。
其他文献
提出了一种基于多特征融合的新闻节目高效检索方法。该方法充分利用媒资管理系统中新闻视频的文字描述和关键帧的图像特征,能够实现视频节目快速、准确的检索,提升新闻检索的性
我们学习的每一篇课文,就像我们每个人一样,都有自己的“窍门”,而这个“窍门”就是我们学习中要寻找的“突破口”,这就要靠我们老师在平时的备课中认真去钻研,在课堂中有意识地去
针对数字图像的版权保护,基于离散余弦变换和四元数小波变换,提出了一种新的改进的盲水印算法,先根据待嵌入水印的大小对载体图像进行四元数小波变换,获得与幅值和相位信息相对应
对超临界二氧化碳酶降解与常压条件下酶催化降解苎麻胶质进行对比研究。采用DNS、HPLC及咔唑法等方法对主要降解产物——糖类物质的变化规律进行分析,采用扫描电镜法对降解后
为了完成动态样板的设计,基于10名男性人体在静、动态下的1600个尺寸,采用因子分析和方差分析方法,研究了腰部及下肢运动对人体尺寸的影响,以及尺寸变化对服装松量设计的影响
针对静态图像中人体分割不能够聚焦所要分割区域,造成分割效果不佳的问题。通过对残差网络进行改进,使之能够适应人体分割这一任务,并在改进的残差网络中引入一种聚焦机制进行静态图像人体分割。根据静态图像人体分割问题,设计了具有聚焦机制的损失函数、辅助分割损失函数以及分割损失函数。另外,为了得到数据集的辅助分割类标、分割类标以及注意力聚焦图,提出了数据预处理算法。在Pascal-Person-Part数据集
《中国纺织》杂志刚刚度过60岁生日,中国入世也走过了10年,而作为“十二五”开局年的2011年也一眨眼就飞逝而去,无论是60年还是10年,时间永不停留,走过秒、分、时、日,又积成周、月
目的:分析研究胰岛素泵强化治疗与胰岛素皮下注射治疗初发2型糖尿病的临床效果。方法:选择2014年6月至2015年6月本院收治的92例初诊2型糖尿病患者,随机分为观察组和对照组,每组46
大数据时代,面对海量且复杂的结构化、半结构化和非结构化数据,传统的信令监测分析系统无法快速准确地分类、处理以及存储海量数据中包含的信息.针对这些问题,提出了一种基于
<正>(接2015年第6期)6.安装更换构件(1)更换构件连接部位的打磨为了让更换构件与车身纵梁之间紧密牢固,在进行铆接连接前,应对车身纵梁连接部位进行打磨,如图64所示,打磨时操