基于深度网络的视频行为识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:simetl21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十年来,得益于硬件设备的升级和计算机算力的指数式增长,深度学习在计算机视觉领域取得了巨大的成功,并且在诸多行业有了实际的应用。图像领域的研究趋近饱和,以及短视频数量的急剧增长,也让作为计算机视觉的一个重要组成部分的视频,越来越受到研究人员的关注。但是,由于视频本身具有的信息冗余性,时序性强,时间范围广等特点,基于视频的分析和识别仍然是一个较大的难点。本文通过不同架构的网络结构,在多个数据集上进行了视频行为识别任务的相关实验,并通过多模态融合的方式进一步提升了识别的精度。本文的主要研究内容可以分为以下两点:1)运动信息的显式编码。对于一些数据集来说,仅使用背景信息往往就能在视频理解和分类方向取得不错的效果,但是对于另一些时序性强,背景变化小的数据集,如何有效的对时序和运动信息进行编码显得十分重要。本文主要着眼于改进光流的估计方法,通过引入深度学习的方法来估计光流,并将其应用到视频行为识别中,在不损失过多精度的同时,实现了推理速度的成倍提升。此外,本文在FSD-10上进行了RGB和光流的融合,以及情感数据集Video-Emotion上RGB和深度模态的融合的相关实验。通过使用双流网络独立地训练每种模态,之后将两个网络提取的特征融合进行预测的方式,在两个数据集上实现了识别准确率的进一步提升。2)基于自注意力的模型。Transformer模型在许多大型视频数据集上取得了与基于卷积神经网络相当的性能,这得益于其自身强大的表示能力和巨大的数据量。然而,在很多领域中很难搜集到大量的有监督的数据,这限制了Transformer模型在这些小数据集上的应用。本文进行了将Transformer模型迁移到小数据集上的实践,通过引入自监督学习和新的损失函数,基于自注意力的模型在花样滑冰数据集FSD-10和情感数据集Video-Emotion上都能有一定的精度提升,验证了本文使用的辅助任务和损失函数的有效性。
其他文献
鲁迅先生的短篇小说集《呐喊》标志着中国现代新文学的开始与发展,其中文化负载词所蕴含的文化内涵吸引了国内外研究者的关注,也引发了不少译者的广泛兴趣。其中,尤以我国译者杨宪益、戴乃迭译本和美国译者莱尔译本为代表。译者的主体性体现在翻译的每个环节,从文本的选择和解读,翻译策略的运用,到原文文化内涵的再现,无不蕴含了译者个人丰富的思考和智慧。本研究拟通过观察不同译本中文化负载词的翻译,探讨译者在重现文化内
学位
在土壤科学、地下水水文学和环境工程等学科中,预测非饱和土壤中的流体运动是一项重要问题。尤其是在暴雨袭击时,了解水渗入土壤的方式对预测洪水和滑坡等灾害至关重要。由于Richards方程在灾害预测等方面有重要应用,快速且稳定的计算方程成为许多学科需要解决的重要问题之一。本文针对Richards方程做了数值计算方面的研究工作。在第二章中,我们建立了求解h-型Richards方程的半隐式线性化有限元方法。
学位
本翻译实践节选了史蒂夫·门兹的书Ocean进行翻译。Ocean是一本散文集,描述了西方文化视角下的海洋,用词优美、富有诗意。作者在书中表达了他的审美感受与对海洋文明的思考,充满了丰富的情感。根据文本内容和特点,本报告选择了切斯特曼翻译规范理论作为理论框架。本论文旨在研究译者在进行翻译活动时会受到哪些翻译规范的影响,并分析在这些翻译规范的影响和制约下,译者在进行散文翻译时会采取何种翻译策略。译者选取
学位
曲线和曲面拟合在科学和工程等领域里一直都是重要的研究课题.样条函数因其灵活性等优点,已经成为曲线曲面拟合中必不可少的工具.近些年来,随着研究的逐步深入,利用简单的样条来描述复杂的实际问题已经不再适用了,进一步研究更加灵活、高效的样条函数以及曲线曲面拟合方法就变得十分必要.本文主要研究和讨论如何利用样条函数来自适应地对曲线曲面进行拟合.一般来说,曲线曲面拟合问题都会涉及到解线性方程组的问题.但是随着
学位
巴金的作品以描写家庭生活为主,小说《家》通过对高公馆由盛转衰的描写,展现了封建专制制度必然崩溃的历史趋势,讴歌了青年们的觉醒和反抗。“把”字结构是汉语中的典型表达,其句法结构为“N1+把+N2+VP”(VP是动词短语)。“把”字使得宾语移位至动词前,动词后可附加更多成分。该类结构不仅广泛应用于书面语,在口语中也大量使用,对于小说和戏剧的人物刻画和心理表征具有重要的辅助作用。本文以巴金小说《家》及曹
学位
《文化中国》一书是中国现代新儒学代表人物杜维明先生缅怀其在东海大学的业师牟宗三和徐复观所著,系儒学主题著作,共收录杜维明先生有关新儒学的文章18篇。本文选取第三篇作为翻译材料,因其集中体现了作者的新儒学思想,具有深刻的中国文化思想内涵。根据纽马克的文本类型学,并通过对翻译材料进行分析,笔者判定原语文本既是表达型文本,又是信息型文本,兼具独特的原文风格与向读者传递信息这两种特征。鉴于此,为使译文保留
学位
顺序回归,又称为排名学习,是机器学习领域中的一种介于分类和回归之间的监督学习问题.顺序回归的目标是从带有排序标记的样本中学习一个多分类器来预测新样本的标签.许多现实问题都非常重视对标签之间顺序关系的处理,这些问题大多可以被建模成顺序回归问题.事实上,在那些重视人类需求、行为与偏好的领域,顺序回归已经得到了广泛的应用,比如医学研究、信用评级、文本分类、人脸识别、社会科学等.支持向量机(Support
学位
随着神经网络技术的发展,机器翻译迎来了新发展浪潮。在对国内语言服务行业进行的调查中,我们可以看到,机器翻译在语言服务行业的应用越来越广泛。而所涉及的翻译服务领域中,科技类文本占比最大。研究表明,机器翻译在翻译文学类文本时具有一定的适用性。但由于受到其机械性和自动性等特征的制约,机器翻译更适用于科技文本等非文学文本的翻译。在英语科技文本中,被动句是最为常见的一类句式,在运用机器翻译处理科技文本时,被
学位
近年来,应用张量分析解决可视化数据的恢复问题越来越广泛.以矩阵补全和主成分分析的矩阵形式为基础,将其推广至张量情形.但由于张量秩的定义的多样性,产生了不同的低秩张量补全(LRTC)模型和张量鲁棒主成分分析(TRPCA)模型.目前最为广泛的是基于张量Tucker秩和张量tensor-train秩的LRTC模型和TRPCA模型.相比于张量Tucker秩,张量Tensor-train秩更能体现张量的内部
学位
数学建模,曲线和曲面的构造以及形状保留是计算机辅助几何设计(Computer Aided Geometric Design,简称CAGD)中非常重要的研究领域。传统Bézier曲线由经典Bernstein基函数和控制顶点组成,具有对称性、端点性、非负性、线性精度、积分性、凸包性等优良特性。利用经典Bézier曲线的参数和几何连续性约束,可以很容易地构造任意曲线形状,但它的缺点是,设计者不能在不改变
学位