论文部分内容阅读
多标签图像分类旨在准确的分类出图像中的不同目标所属类别,其广泛的用于场景识别、属性分类等现实场景中。该任务的核心研究问题是利用多个标签之间的相关性,根据已经分类出的类别,推测出其他可能存在但是难以识别的类别。标签之间相关性的学习一直是多标签分类领域的核心研究课题,并且研究进展缓慢,精度较差,难以直接落地于现实应用。深度学习技术的飞速发展,加快了多标签图像分类的研究进程,也提供了标签相关性学习的新思路。针对标签相关性的学习问题,本研究提出使用基于度量学习的多标签识别算法,将图像和标签映射到同一个空间,在此空间中利用度量学习的方法聚类具有联系的特征和标签,学习标签之间的联系,并设计新的Ranking Loss监督度量学习的过程。另外,在复杂情况下多标签图像分类尤其是大规模多标签图像分类任务中,以往的研究忽略了两个更现实的问题:类别分布不均衡和目标大小差异较大,这两个问题都会对最终的分类结果产生坏的影响。本研究针对上述问题,提出基于自注意力机制的算法,设计的深度神经网络在训练过程中自适应的关注对识别有用的特征,并通过构建特征注意力矩阵间接的利用标签之间的联系。为验证算法的作用,本研究在国际权威数据集MSCOCO2014和PASCAL VOC2007上完成实验并与当前最优算法进行对比,实验结果证明,本文提出的算法在以上数据集上取得了最好的结果。