视听觉信息特征提取与融合方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lllwan1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的迅猛发展,使用图像或声音信息表征目标的方法日益增多。由于目标所处物理环境的信息多样性和复杂性,单独使用视觉或听觉信息难以完整表征感知目标。为此,本文围绕视听觉信息特征提取与融合方法展开研究,实现低信噪比环境条件下对目标视听觉信息的综合处理、融合与感知。主要研究工作如下:首先,本文建立了包含900秒声音和1150张图片的数据集,并根据实际环境中的噪声干扰、增益异常等情况,通过设定信噪比、增益等参数,对初始数据集进行扩增,获得了包含9955秒音频和12595张图片的扩增数据集。然后,本文分析了残差结构的顺序对网络性能的影响,提出了一种基于改进残差结构的听觉信息特征提取模型和基于多层卷积神经网络的视觉信息特征提取模型。对于提出的模型,分别在公开数据集ESC-50、CIFAR-10以及本文建立的测试集上进行了分类实验,并与预训练模型VGGish和VGG19进行了对比,证明了特征提取模型的有效性。接着,本文在模型融合、特征拼接和互关联自编码器三种视听觉信息融合方法的理论基础上,提出了一种改进的基于互关联自编码器的视听觉信息融合模型,该模型在自编码器的基础上添加了视听觉信息的隐层关联损失,从而获得视听觉信息相互关联的隐层表示,并在损失函数中添加了正则化项,从而避免视听觉信息隐层表示的过拟合倾向,保持隐层信息的可利用性。最后,本文使用F1分数评价指标与T-SNE评价方法对上述特征提取与融合方法的分类实验结果进行了评价分析。结果表明,仅使用听觉信息表征时,目标识别准确率最高为47.5%,F1分数最高为0.407;仅使用视觉信息表征时,目标识别准确率最高为60.8%,F1分数最高为0.611;使用基于互关联自编码器的视听觉信息融合方法时,目标识别准确率最高为84.2%,F1分数最高为0.846,比单独使用视觉或听觉信息表征时识别准确率提高了至少23.4%,F1分数提高了至少0.235,有效提升了低信噪比环境条件下的目标感知性能。
其他文献
动作识别任务拥有着很长的历史,近年来随着深度学习的发展,更是取得了长足的进步。但以往的动作识别任务都是基于RGB数据的,只是最近以微软的Kinect camera为代表的深度传感器的逐渐普及,才出现了基于骨骼点的动作识别方法。3D骨骼点数据相较于RGB数据而言,排除了人体形态、所穿衣着和光照等冗余信息,却纯粹保留了“人体动作”本身的关键信息,这使得基于骨骼点的动作识别任务吸引了越来越多研究者的注意
当前,集成电路不断发展,现场可编程门阵列(Field Programmable Gate Array,FPGA)得到了广泛应用,但传统的密钥存储方法容易遭到攻击,对FPGA的安全认证问题提出了新的挑战。物理不可克隆函数(Physical Unclonable Function,PUF)作为一种有前途的解决方案,能够为FPGA生成安全可靠的物理指纹。环形振荡器(Ring Oscillator,RO)
基于单目图像或者视频序列的深度估计算法,无需昂贵的深度传感器设备就可以得到场景的深度信息,受到了学术界和工业界日益增长的关注。高精度的深度估计在很多工业场景中具有很强的应用价值,包括机器人感知、导航、规划以及无人驾驶和虚拟现实娱乐领域。现有的基于监督学习的单目深度估计方法,通常利用单一视角的图像数据作为输入,直接预测图像中每个像素对应的深度值,需要大量的深度标注数据作为监督信号,而这类数据通常需要
教育治理是深化我国教育领域综合改革的重要举措,现已成为教育领域研究者的研究热点。文章以2005-2020年中国知网收录、CSSCI来源期刊刊载的369篇教育治理研究论文为分析对象,运用关键词词频与聚类分析等方法剖析教育治理研究的“知识地图”。整体而言,我国教育治理研究成绩斐然,但教育治理理论与实践研究尚不能满足我国教育现代化建设的需求。未来,教育治理在研究逻辑上,要立足于中国特色国家治理体系和治理
量子力学是现代物理学的两大基本支柱之一,是描述微观世界系统的理论。Schr(?)dinger方程是量子力学的核心方程,是将波动方程与物质波的概念相互结合所建立的非相对论的二阶偏微分方程。Schr(?)dinger方程显示了微观系统中粒子的状态随着时间变化的规律,每个微观系统都有一个相对应的Schr(?)dinger方程(组),绝大部分微观系统导出的Schr(?)dinger方程组都是耦合的,因此在
声音场景重建是一种根据音频信号中声音事件特征重建场景图像的新型信息处理方法,在场景感知、安全侦察、多媒体分析、电影场景制作等方面具有广泛的应用价值。目前用于声音场景重建的生成对抗网络理论依然处于初期发展阶段,模型训练过程稳定性欠佳,并且重建图像的分辨率与质量也难以满足要求。为此,本文重点围绕基于生成对抗网络的声音场景重建理论与实现方法,针对注意力机制、谱归一化、UNet网络、残差网络及金字塔网络等
作为变分不等式的一个推广,半变分不等式及其系统在力学、物理学、工程科学、经济学、最优控制等领域都起着重要作用。因此,以KKM定理、有限元方法或者满射性引理等为工具,各种类型的半变分不等式及其系统被广泛研究,并获得了丰富的研究成果。在本文中,我们考虑了一类广义的系统变分--半变分不等式模型,该模型可应用于研究一类热粘弹性体的摩擦接触问题。首先,在Bochner-Lebesgue空间中,本文研究了带有
盲源分离问题是盲信号处理领域中经典且非常重要的问题之一,在军事、通信、医学等众多领域有重要的应用价值。盲源分离的含义是在不知道源信号及信号混合参数的情况下,仅通过观测到的混合信号获得源信号的估计。通过观测信号的协方差矩阵或者累积量矩阵具有可近似对角化的结构,获得源信号的估计的方法称为矩阵联合对角化算法,是解决盲源分离的一类非常有效的代数算法,已广泛的应用于盲信号分离问题之中。根据联合对角化是否具有
得益于其卓越的机械性能,复合材料在各个领域内得到了广泛的应用。然而在复合材料的生产、运输和使用过程中难免会受到随机因素的影响,导致材料的失效,严重时甚至引发重大安全事故。因此,对复合材料构件的健康状态进行合理有效的检测和评估意义重大。红外热波无损检测技术,作为一种非接触式检测技术,具有适用范围广,方便直观等诸多特点,在近三十年内得到了快速的发展,并广泛应用于航空航天、军工、新材料、核电系统等各个领
旋翼无人机具有其体积小、灵活性高等优点,可在空中进行视觉方面的图像处理任务,相比固定监控设备在交通状况的检测中具有部署成本低的优势。但现阶段应用于旋翼机平台的检测与跟踪算法尚有不足之处,一是当前的检测与跟踪相关算法主要基于深度学习,网络结构复杂,而适用于旋翼机平台的机载设备性能有限,无法满足计算资源等相关需求;二是旋翼机航拍视角下的小目标居多,导致对图像特征信息提取难度较大,相应地会出现漏检或错检