基于深度学习的图像数据清洗方法研究

来源 :北京工业大学 | 被引量 : 9次 | 上传用户:gn64954
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,信息化社会不断发展,人工智能在越来越多的方面渗透到我们的生活当中。随着卷积神经网络相关理论的提出和不断完善,传统模式识别难以自动提取图像自有特征的缺点被很好地弥补。新的模型的学习能力更强,对图像特征的把握更好,使得基于卷积神经网络的模型在目标检测、人脸识别、图像识别甚至自然语言处理上都取得了良好的效果。与此同时,数据清洗相关产业随着互联网信息数量的持续爆炸增长应运而生,但是相关产业中对于图像数据清洗的研究仍旧很少。如何针对来自互联网的图像数据进行清洗,以提高数据质量,进而得到优质训练集来提高卷积神经网络的识别效果,是一个值得研究且有重要意义的课题。针对该问题,本文在介绍了卷积神经网络目前发展和数据清洗的行业现状后,提出了一种针对互联网图像数据的清洗方法,主要成果如下:(1)提出了一种评价图像数据集质量的方法。对于不同的数据集,将其通过同样的方式随机制作训练集和测试集,并通过同一CNN网络结构进行网络参数优化训练,根据训练迭代结束时的网络测试识别率判定该数据集质量的高低。(2)提出了一种低识别率图像数据的清洗方法。这里低识别率是指数据集标注错误相对较多。每次使用某数据集训练出的CNN权值文件,可以反向用于构建一个单张图片识别的分类器,从而对数据集中的每张图进行识别。根据每张图识别为本类的伪概率可以通过具体算法找到低识别率图片进行数据清洗。同时,清洗后的数据集可以通过对图像数据类别数量的分析来找到当前数据集中的少数分类,并对其进行类别上的清洗。(3)提出了图像数据集清洗前后的合理对比方法。最终清洗所得的图像数据集,在图像总量和类别数量上很可能和初始数据集都不相同,无法直接比较。本文设置了合理的对比实验,使得两者在类别和测试集都相同的情况下,对不同训练集进行CNN网络训练,通过训练结束的网络测试集准确率来比较清洗前后的数据集质量,从而验证最终清洗效果。(4)本文在AlexNet和GoogLeNet上进行了两组实验。实验结果表明,经过清洗的图像数据集训练的CNN网络测试识别率较初始图像数据集分别提高了1.5%和2.4%,说明该方法能有效地提高互联网混杂图像的数据质量。(5)本课题根据清洗后数据构建的模型搭建了一个在线花卉图片识别系统,让用户通过Android手机进行简单操作即可进行在线花卉图片识别。
其他文献
制造业是国民经济的重要支柱和基础.是实体经济竞争中的主力军,是国防安全的重要保障。智能制造是世界制造业未来发展的重要方向.随着以数字化+智能化制造为核心的第三次工业革命
本文探讨了在内分泌科临床带教过程中实施PBL联合CBL教学法双轨制教学模式的优势,认为PBL联合CBL教学法双轨制教学有助于培养学生的自学能力和解决问题的能力,是提高临床带教
目的对比单侧与双侧开颅术治疗双侧额叶脑挫裂伤及颅内血肿情况的临床疗效。方法 73例双侧额叶脑挫裂伤患者,按照手术方式的不同分为参照组(34例)和实验组(39例)。参照组患者
为了准确分析大规模风力发电系统对继电保护选相元件的影响,针对双馈风电机组,将风电场的弱馈特性和低电压穿越措施相结合,通过对风电场故障特征的分析,指出Crowbar电路的投
日语教学的最终目标是培养学生运用语言进行跨文化交际的能力。具有跨文化交际能力的人才已经成为当今社会急需人才之一。本文通过对跨文化交际能力及其培养的必要性进行分析
针对农田与农机资源的匹配与调度应用需求,抽象出基于时间窗的农机资源时空调度数学模型,以动态规划的思想逐步分解决策过程,完成每个决策的最优解解算,并进行模型寻优分析和
全椒县科技特派员葛道林是县农业技术推广中心副主任、高级农艺师。1984年从安徽宿县地区农业学校毕业后,葛道林就在全椒县界首乡农技站担任技术员。在十多年的乡村工作中,他坚