基于深度学习的图像多标签分类算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wyn44298
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网时代的到来,图像和视频数据急剧增长,造就了图像大数据时代的到来。这就导致传统的图像单标签分类技术已经无法满足对含有复杂语义图像的分类识别的需求,亟待分类识别速度快、精度高的多标签分类技术的出现。本文针对图像多标签语义分类过程,研究其图像预处理、特征提取和多标签分类器训练算法。良好的图像特征对图像分类识别系统的性能至关重要,而图像预处理结果的好坏严重影响到能否提取到图像的本质特征以及提取过程的复杂度,同时多标签分类器决定整个分类识别系统能否充分利用上述获取的良好特征和标签本身的特性以提高最终的分类识别性能。本文的主要工作如下:1.阐述了图像预处理基本理论,针对图像具有尺度不一、像素之间具有很强的相关性及高维度等特性,以及对比度差异可能对图像特征提取过程具有不良影响等问题,提出了联合使用图像尺度归一化、亮度和对比度归一化、白化等技术预处理图像。2.阐述了多标签分类基本理论,得出充分利用标签间相关性对提高分类性能具有重要作用的结论,针对RAkEL算法需要设置较多参数及较多数据的交叉验证才能获得最佳性能的不足问题,提出了采用基于GPU的并行交叉算法。该算法充分利用GPU强大的并行运行能力,同时执行针对不同的参数验证过程,从而提高了训练速度。3.阐述了深度学习的基本理论,从隐含层层数、权值共享等方面重点阐述了卷积神经网络(CNN)模型,本文最终采用一个输入层、三个卷积层及三个特征映射层的卷积神经网络结构,同时采用池化技术低维度化特征向量以避免训练时的过拟合问题。接着提出了本文的核心算法CNN-RAkEL算法,并阐述了 CNN和RAkEL的结合原理及基于CNN-RAkEL的多标签分类系统的学习训练过程。基于GPU和Pylearn2的深度学习模型库在PASCALVOC2007图像数据库上进行系统试验和参数调优。仿真实验表明在图像多标签分类领域,本文提出的基于CNN-RAkEL的多标签分类系统识别率比CNN-SVM(PASCAL VOC 2007的最佳水平保持者)提高高达9.416个百分点。
其他文献
以中国干旱半干旱地区农业技术创新的制高点杨凌农业示范区作为创新扩散源头,以关中地区作为扩散区域,从构建评价指标体系入手,对关中地区各市区农业技术扩散环境进行定量化
2016年10月28日—30日,第十八次共产党和工人党国际会议在越南首都河内召开。本次会议的主题是:“资本主义危机和帝国主义进攻——共产党和工人党为争取和平、工人和人民权利
<正>师生共同品赏[滚绣球]三个"恨"字的含义。通过"恨"读懂柔肠百结的崔莺莺心灵中颤动着的痛苦、遗憾、愁怨、无奈、怨愤、不安……"恨"字反复出现,越"恨"其含义越深广。正
目的:研究食管鳞状细胞癌(esophageal squamous cell carcinoma,ESCC)组织中缺氧诱导因子(hypoxia inducible factor -1α,HIF -1α)、血管内皮生长因子-C (vascular endothelial growth
<正>破茎松罗(海风藤)Usnea diffracta Vain.入药部位:丝状体入药。性味:性平,味苦。功能主治:祛风除湿,清肝明目。治疗肝风头目昏花,咳吐脓痰,肝热目痛等症。生境分布:2500
目的:分析慢支合并哮喘患者的临床特点,研究阿托品、非那根治疗慢支合并哮喘患者的临床疗效。方法回顾慢支合并哮喘患者60例,按1:1比例将其分成实验组30例,对照组30例,采用临床常规
基于区域化变量理论,运用地统计分析方法的空间变异函数,以福建省为本底,从区域经济空间增长的视角入手,分析了自1990年以来福建省经济增长的空间变异特征、空间梯度形态演化
目的:探讨枸橼酸坦度螺酮在新型抗抑郁药所致性功能障碍中的治疗作用。方法:本研究为随机双盲对照研究。选取48例符合DSM-IⅣ抗抑郁药所致性功能障碍诊断标准的患者,按照1:1
本文在对《国语》作专书穷尽性描写的基础上结合断代资料,论证与现代汉语相同的复音词“可以”至少在战国初期就已经形成并在先秦文献中得到较为广泛的使用。全文共分四个部
本文对《酉阳杂俎》中的2个词语“羊”、“墨尿”进行了考释。