基于视觉影像的语义理解算法研究

来源 :中国科学院大学(中国科学院西安光学精密机械研究所) | 被引量 : 0次 | 上传用户:wlflfxzq45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于视觉影像的语义理解是视觉影像处理和分析领域的重要研究课题。如何从大量的图像、视频数据中挖掘有用、有效信息,更好地为军事侦察、公共安全、现代医疗和智慧城市等国家重大需求提供服务,已成为视觉影像语义理解领域亟待解决的问题,而图像质量改善、场景识别、显著性目标检测和语义分割又是视觉影像语义理解领域不可或缺的重要组成部分。因其巨大的理论研究意义和广泛的实际应用价值,基于视觉影像的语义理解受到广泛关注并取得长足发展,但仍存在如下问题:1)对图像降质因素挖掘不到位;2)对图像判别信息表达不完整;3)对图像数据分布利用不充分;4)对图像结构信息刻画不细致。针对以上4个问题,本文主要研究内容归纳如下:(1)提出基于多任务学习机制的图像去模糊算法。该算法将图像去运动模糊问题转化为一种图到图的映射问题,即从“模糊域”到“清晰域”的映射。其利用数据驱动的方式学习不同域之间的转换关系,从而避免了传统基于核估计的方法中对先验知识的过度依赖。此外,该算法还发现当相同的模糊因素作用于纹理复杂度不同的图像时,其对图像带来的降质情况不同的。具体地,纹理越复杂的图像受到的影响越严重。基于此,该方法创造性地将图像的纹理复杂度信息纳入到图像去运动模糊框架中以指导其参数优化,并通过加权注意力掩膜策略增强了网络对图像中复杂区域的重构能力。(2)提出基于鲁棒空频联合表达机制的图像场景识别算法。该算法创造性地将图像的频域信息和空域信息统一到识别框架,其充分挖掘了不同域信息的优势。具体来讲,该方法分别用卷积神经网络和多尺度带通滤波网络提取图像的空域判别信息和频域统计信息,并利用一维循环卷积策略对两种信息进行了有效融合。由于频域统计信息的引入,该方法在一定程度上解决了高分辨率遥感影像由于其拍摄角度多变而引起的误识问题。另外,该方法通过对空域图像中不同区域之交互关系的编码,加强了空域特征描述算子的语义判别能力,从而提高了算法对复杂场景的识别性能。(3)提出基于显隐性困难样本学习机制的显著性目标检测算法。该算法将困难样本划分为显性困难样本和隐性困难样本,并根据其各自特点设计针对性网络结构和优化策略,用以来提高模型性能。具体地,显性困难样本是指目标边缘区域和近边缘区域的像素,这些样本由于其和周围像素表观特征的相似性和语义标签的异质性,其检测难度相应较大。隐性困难样本是指在上一轮迭代中预测结果和真值差异较大的像素。该方法通过加大对上述困难样本的惩罚来加强模型对其敏感性。另外,该方法根据目标尺寸和形状结构信息采用多尺度软注意力融合策略提升其检测精度。(4)提出基于空间结构保持特征金字塔网络的语义分割算法。该算法采用特征金字塔模型有效融合了深度卷积网络中不同层级的特征,包括浅层纹理结构特征和深层语义判别特征,保证了分割结果和准确性。为了避免训练样本不足带来的过拟合问题,该算法采用迁移学习策略用在大规模图像识别数据库上训练的神经网络提取不同层级的图像特征。另外,该算法根据输入图像不同区域块之间的相似性和上一轮迭代预测掩膜中相应区块间的关联性设计了空间结构保持损失项,其可以将输入图像中不同像素之间的交互传递到预测结果图中,从而在一定程度上避免了空域弥散问题。
其他文献
合成孔径雷达(Synthetic Aperture Radar,SAR),作为主动式微波遥感设备,具有全天时、全天候的对地观测能力。SAR成像算法通过对静止目标的回波信号进行距离向和方位向的二维
高功率窄线宽光纤激光器因其具有输出功率高、谱线宽度窄等特性而被广泛应用于合成孔径激光雷达、相干激光测距、相干激光测速、光纤传感等远距离相干探测领域。1.5μm波段是
随着现代制造技术的高速发展,许多机械产品和器件的日益小型化、微纳化。当机械系统结构或者材料特征尺寸减小到微纳米量级时,结构或者材料就会呈现出一些不同于其在宏观尺度
固体可燃物火蔓延在实际火灾场景中是一种十分常见的现象,一直是火灾安全研究的重中之重,因此吸引了大批的学者展开实验与理论研究。研究表明当燃烧区域和非燃烧燃料之间存在
液黏传动被广泛应用于风机、水泵的无级调速和刮板输送机、带式输送机的软启动,具有过载保护、冲击小、高效率和高可靠性等特点,对大功率设备的节能起着重要的作用。本文针对
非视域成像技术是计算成像领域中的一项新兴研究,该技术在众多领域中均有着重要的研究和应用价值,如深空探测、自动驾驶、医疗诊断、搜索救灾、反恐作战和历史考古。与传统成
科学的轨道几何状态评价方法是保障列车安全舒适运行的重要支撑,车辆响应是评价列车运行安全舒适性的重要指标。由于轨道几何与车辆响应之间关系复杂,轨道几何局部峰值和轨道
傅里叶叠层显微成像术(Fourier ptychographic microscopy,FPM)是新一代计算成像技术和定量相位成像技术。兼具了相位恢复和相干合成孔径的思想,它可以解决传统显微成像中分
[目的]血管内皮生长因子(Vascular endothelial growth factor,VEGF)除外其主要的促血管生成作用,还可以促进肿瘤细胞增殖,后者具体的作用机制仍尚未阐释清晰。本研究旨在应
2008年,美国次贷危机的突然爆发引发的国际金融危机重创全球经济金融体系,作为元凶之一的影子银行迅速成为全球经济发展的关注焦点。当前,房地产泡沫、地方政府债务和影子银