论文部分内容阅读
近年来,信息化社会不断发展,人工智能在越来越多的方面渗透到我们的生活当中。随着卷积神经网络相关理论的提出和不断完善,传统模式识别难以自动提取图像自有特征的缺点被很好地弥补。新的模型的学习能力更强,对图像特征的把握更好,使得基于卷积神经网络的模型在目标检测、人脸识别、图像识别甚至自然语言处理上都取得了良好的效果。与此同时,数据清洗相关产业随着互联网信息数量的持续爆炸增长应运而生,但是相关产业中对于图像数据清洗的研究仍旧很少。如何针对来自互联网的图像数据进行清洗,以提高数据质量,进而得到优质训练集来提高卷积神经网络的识别效果,是一个值得研究且有重要意义的课题。针对该问题,本文在介绍了卷积神经网络目前发展和数据清洗的行业现状后,提出了一种针对互联网图像数据的清洗方法,主要成果如下:(1)提出了一种评价图像数据集质量的方法。对于不同的数据集,将其通过同样的方式随机制作训练集和测试集,并通过同一CNN网络结构进行网络参数优化训练,根据训练迭代结束时的网络测试识别率判定该数据集质量的高低。(2)提出了一种低识别率图像数据的清洗方法。这里低识别率是指数据集标注错误相对较多。每次使用某数据集训练出的CNN权值文件,可以反向用于构建一个单张图片识别的分类器,从而对数据集中的每张图进行识别。根据每张图识别为本类的伪概率可以通过具体算法找到低识别率图片进行数据清洗。同时,清洗后的数据集可以通过对图像数据类别数量的分析来找到当前数据集中的少数分类,并对其进行类别上的清洗。(3)提出了图像数据集清洗前后的合理对比方法。最终清洗所得的图像数据集,在图像总量和类别数量上很可能和初始数据集都不相同,无法直接比较。本文设置了合理的对比实验,使得两者在类别和测试集都相同的情况下,对不同训练集进行CNN网络训练,通过训练结束的网络测试集准确率来比较清洗前后的数据集质量,从而验证最终清洗效果。(4)本文在AlexNet和GoogLeNet上进行了两组实验。实验结果表明,经过清洗的图像数据集训练的CNN网络测试识别率较初始图像数据集分别提高了1.5%和2.4%,说明该方法能有效地提高互联网混杂图像的数据质量。(5)本课题根据清洗后数据构建的模型搭建了一个在线花卉图片识别系统,让用户通过Android手机进行简单操作即可进行在线花卉图片识别。