论文部分内容阅读
计算机视觉是当前人工智能领域最热门的研究方向之一,它的研究目标是让计算机具有从一幅幅图像中感知和认知周围环境的能力。图像识别是计算机视觉领域一个重要的研究方向,它在视频监控、生物识别、无人驾驶、人机交互、医学影像识别等行业应用中,具有重要的研究意义和应用价值。近年来,虽然基于深度学习算法的图像识别模型取得了突破性的成果,各种图像识别任务的准确率记录不断地被刷新。然而,模型在样本采集条件、语义理解、计算复杂度、模型鲁棒性和训练样本不足等方面仍然面临诸多问题和挑战。为了克服上述挑战,本文通过对深度神经网络相关技术进行改进,取得了如下创新性成果:1.针对现有特征池化(聚合)方法容易出现过拟合,导致图像识别模型鲁棒性差的问题,本文提出加权池化特征池化法方法,其首次基于信息熵量化出特征图的各个局部区域的信息量,并使用互信息衡量出每个局部区域中各个特征的重要程度(权重)。实验结果表明,本文提出的池化算法不但可以准确地选取出局部区域的激活代表,而且有效地提高了图像识别模型的准确率和泛化能力,其中模型在CIFAR-10测试集上的准确率比当前经典的特征池化方法提高了约1.81至2.77个百分点。2.当前深度学习模型收敛速度慢、梯度容易消失和陷入局部最优的问题,仍然是基于深度学习技术的图像识别模型训练时要解决的难点之一。本文首次使用多点矩估计法和权值衰减法提出自适应多点矩估计随机优化算法。算法的特点包括:每个矩估计点将模型误差梯度的偏度和峰度进行考查,提高了模型训练时参数更新的效率;权值衰减法的引入,进一步地增强了模型的鲁棒性。MNIST、CIFAR-10等数据集上的实验结果表明,使用本文提出的优化方法训练的图像识别模型无论是收敛速度,还是准确率都有很大提高。其中,在收敛速度方面本文提出的优化方法比基线算法快约3%,测试集上的准确率提高约1.1个百分点。3.针对深度学习模型,一方面需要大量样本进行训练,另一方面存在目标检测模型样本制作代价高昂的问题。本文通过改进像素权重计算的方法,提出一种以无监督的方式将图像分类数据集制作成目标检测数据集的方法,有效地解决了目标检测数据集制作代价高、样本数量和种类不足的问题。此外,当前目标检测模型主要依赖研究人员经验,手工设置检测模型初始边界框的形状和数量,然而,这种方法存在缺少客观依据、适应性差的问题。本文结合给定数据集的特点,首先改进k-means++聚类算法的距离计算方式,然后对训练样本中对象的形状进行聚类分析,得到模型边界框的先验知识,从而有效地提高了模型的检出率和收敛速率,最后,基于这些对象形状的先验分布和前面章节对神经网络所作的改进,提出自适应单网络目标检测模型。实验结果表明本文所提出的实时目标检测模型与其他模型相比,在PASCLE VOC和MS COCO目标检测基准数据集上,模型的准确率分别提高了约0.6和1.5个百分点。综上,本文针对图像识别技术存在的三个关键问题展开研究。在模型组件方面,提出了加权特征池化方法和自适应多点矩估计随机优化算法;在模型方面,提出了自适应单网络目标检测模型。基于公开数据集的实验结果表明,本文所提出的方法在图像识别任务中取得了良好效果,相关理论成果已经在人工智能领域的期刊发表。