【摘 要】
:
人们在浏览电商网站或购物软件上的服装产品时,往往会产生多样化的检索需求,如希望找到在某些服装属性上与查询图片相似的服装,以及希望改变查询图像某一服装属性而保持其它服装属性不变的需求,即服装属性操作,这些需求即为细粒度服装图像检索,当前的搜索引擎对这些需求还无法很好的满足。针对以上的检索需求,需要提取图像与服装特定属性准确相关的特征,深度学习的发展使得这一操作成为可能,本文基于深度学习理论深入研究了
论文部分内容阅读
人们在浏览电商网站或购物软件上的服装产品时,往往会产生多样化的检索需求,如希望找到在某些服装属性上与查询图片相似的服装,以及希望改变查询图像某一服装属性而保持其它服装属性不变的需求,即服装属性操作,这些需求即为细粒度服装图像检索,当前的搜索引擎对这些需求还无法很好的满足。针对以上的检索需求,需要提取图像与服装特定属性准确相关的特征,深度学习的发展使得这一操作成为可能,本文基于深度学习理论深入研究了细粒度服装图像检索,其主要工作和创新点归纳如下:(1)根据两个真实服装数据集中的服装属性构建了一棵服装属性树,并基于属性树提出了一种用于服装属性表示的层级属性嵌入(HAE)方法。该方法能有效的纳入服装属性的层级关系,确保使用其作为服装属性的表示时,同一父节点属性下的两个子节点属性可以共享其父节点属性的特征。(2)提出一个基于层级属性嵌入的学习服装相似度的网络HAEN,该网络以服装图像和服装属性两种不同模态的服装数据为输入,学习多个特定属性的嵌入子空间,并在相应的子空间中度量细粒度的相似性,能够有效的支持给定属性的相似服装图像查询。网络中使用层级属性嵌入作为服装属性的表示,而对于图像特征,则是先通过Resnet50提取到服装图像的全局特征,随后将层级属性嵌入与提取到的全局特征输入到模型的注意力模块中,从而提取到与特定属性相关的图像特征,最后将属性相关的图像特征输入到嵌入分支模块(Embedding branch module)中,将其嵌入到与该属性对应的子空间中,并使用掩码模块选出与特定属性相关的特征维度,最后网络输出的向量用于计算服装图像间的相似度。(3)对于属性操作这一种更为复杂的服装图像检索任务,在HAEN的基础上基于特征替换提出了三种不同的解决方法,分别是基于服装属性均值特征向量的方法、基于服装属性重构特征向量的方法、均值特征向量与重构特征向量自适应结合的方法。其中均值特征向量采用总体代替个体的思想,由检索库中所有服装图像的特征计算均值得到;重构特征向量则是由本文提出的重构模块结合查询图像自身信息以及属性操作语义得到,最后是两种特征的结合使用,本文探索了这三种属性特征向量对于检索性能的影响。(4)在两个大型真实服装数据集中进行了大量的实验验证和评价,实验证明本文所提出的网络HAEN能有效的用于度量服装图像间的相似性,优于现有的最先进的方法。此外对于属性操作,本文提出的三种方法都优于基准模型,在属性操作服装图像检索任务上都有不错的性能表现。
其他文献
深度学习技术的迅速发展使得这一技术被广泛应用于各个领域,包括基础现实应用以及许多与安全相关的任务应用,这使得深度学习模型成为攻击者的目标。攻击者根据深度学习模型的脆弱性定制了相应的攻击策略。这种由模型暴露出的弱点衍生出的对抗攻击算法对图像分类领域的发展提出了挑战,同时它也为进一步探索深度神经网络提供了机会。在攻击者的推动下,越来越多的防御机制被提出来保证深度学习模型的安全。本文分别从防御机制的两个
本文主要研究了基于RGB-D相机的救援机器人语义建图方法,以及语义SLAM与导航算法相结合的相关技术。传统的SLAM算法在建图时只考虑环境的几何特征或者纹理特征,这使得救援机器人只能根据环境的浅层信息进行导航和探索,难以完成复杂的自主探索任务。语义SLAM可获取环境的语义信息,并将语义信息与环境地图相结合,帮助机器人从更高的层次去理解周围环境,进而丰富导航方式,使机器人能够完成复杂的自主探索任务。
基于语音对阿尔兹海默病进行识别被证明是一种有效的方法,相较于脑影像和量表,语音更具有经济性和可扩展性,能够适应大规模检测。目前的研究方法较多的采用降维-分类的方式进行,即将语音(通常在10万维以上)表示为低维的特征向量(通常在100维以下),再进行分类获得疾病识别结果。在特征表示方面,研究人员尝试使用局限性更小的内容无关(Content-independent,CI)特征来表示语音,但是传统的特征
近似最近邻搜索是信息检索技术中的一个基本课题,在数据库、推荐系统等领域应用广泛。与精确最近邻搜索算法相比,近似最近邻搜索算法内存占用较小,同时牺牲较小的查询召回率,从而达到极快的查询速度。基于图的近似最近邻搜索算法是最常用的近似最近邻搜索算法之一,相对于基于空间划分、基于哈希和基于量化的算法,因其查询速度快、查询召回率高而被各大商业公司广泛应用。基于图的搜索算法的目标是构建高质量的图索引结构,通过
人工智能模型的训练依赖于大规模高质量的标注数据。通过人工标注的方式可以获取高质量的训练集,但是人工标注效率很低并且代价高昂,尤其对于标注难度较大的文本语料,人工标注很难获取大规模的标注数据。远程监督可以用来自动构建大规模的标注数据集,然而通过远程监督得到的训练集质量并不高,训练集的质量决定着模型的上限,因此如何优化远程监督数据集已经成为当下研究的热点。远程监督在不同场景下面临着不同的问题,其解决方
针对永磁同步电机在弱磁运行过程中因参数变化导致的控制性能下降问题,提出了一种采用单q轴电流调节器的多参数自适应补偿控制策略,以提高电机在弱磁区域内的转矩控制精度。实验结果表明该方法对参数的辨识误差在5%以下,输出转矩与期望转矩的误差小于1%,该方法能有效地抑制多参数变化对电机性能的影响。
随着无线传能技术的快速发展和无人机在各个领域的广泛应用,利用微波无线传能为飞行中的无人机提供能量保障已成为延长无人机工作时间的有效途径。考虑到微波点对点直接传能在无人机供电方面存在局限性,本文针对面向无人机供电的微波无线传能链路进行建模与优化研究以在一定程度上提高无人机微波无线供电的环境适应性、传输效率和实际应用价值。首先,本文对微波无线电能传输技术原理及其在无人机供电上的应用进行分析,针对面向无
面部表情是人类情感信息传达的重要载体,在人们的沟通交流中发挥着重要作用。随着人工智能的迅速发展,让机器理解人类的情感具有重要的研究意义和实际应用价值。依托课题组视频动作识别与智能分析项目,本文研究基于卷积神经网络的人脸表情识别方法,并应用于课堂教学表情识别系统,协助教师对学生学习状态进行实时了解和事后分析,从而帮助提升教师教学质量。本文的主要研究内容如下:(1)针对轻量级网络Mobile Net
近些年,无人机的广泛应用对空域资源提出了更多的需求,无人机的运行空间将逐步由隔离空域向融合空域扩展,保证飞行安全是将无人机集成到国家空域管理系统的前提。感知与规避(Sense and Avoid,SAA)是实现无人机自主飞行安全的关键技术,设计无人机感知与规避系统时,如何配置和融合使用感知传感器是无人机实现空域信息获取的重要环节。本文首先研究了针对不同任务环境的无人机SAA系统的感知传感器配置算法