论文部分内容阅读
近年,伴随电子商务的快速发展,Web上的商品图像急速增长,如何有效地组织并管理商品图像,进而向用户提供准确、便捷的检索服务是制约电子商务发展的关键。对大规模图像进行有效管理的重要前提是使其“语义清晰”,即准确、有效地标注图像。图像标注包括手工标注和自动标注两种方法。手工标注的人工成本较高且不具备客观性;早期自动标注多采用名词标注,标注结果单一,易产生噪声和歧义。若采用高层组合语义(如句子或短语)标注图像,则需设计自然语言处理算法来分析单词之间的句法关系,算法复杂度高。因此,本文聚焦位于中间语义层的图像属性标注,提出商品图像属性标注新机制:一、基于传统特征与分类模型的商品图像材质属性标注。材质是刻画商品图像的显著特性,其优劣会影响用户的购买行为。建立全新的材质数据集MattrSet。围绕MattrSet,从形状、纹理等角度提取图像的LBP、Gist、SIFT特征,运用KNN、Na?ve Bayes等分类模型完成商品图像材质属性标注。此外,跨越异类商品进行迁移学习,以进一步提升材质属性标注性能。不同于名词性标注,属性标注对商品采用形容词标注,它能跨越商品类型完成材质属性标注,语义信息更丰富。实验表明:三种图像特征在不同材质属性分类中性能有差异,即单种特征对材质属性的刻画各有侧重,仅采用单种特征不能全面地描述商品图像。二、基于深度学习特征与ERGS(Effective Range Based Gene Selection,简称ERGS)算法的商品图像材质属性标注。引入深度学习特征:VGG-16、VGG-19,并运用ERGS算法,动态计算特征权重,实现多特征融合,生成判别性能更优的标注模型;同时,拓展材质属性深层语义描述,丰富材质标注的语义内涵。此外,运用迁移学习策略改进标注模型性能。实验表明:1)ERGS后融合后,属性标注性能显著提升;2)材质属性的深层语义描述中蕴涵更有价值的信息(也称实用属性),它能降低人类认知与低层特征之间的“语义鸿沟”;3)迁移学习策略实现了跨越异类商品的材质属性标注,标注性能稳步提升。三、商品图像相对属性标注。由于实用属性贴近人类客观认知,基于相对属性(Relative Attribute,简称RA)模型完成商品图像的实用属性标注:不同于传统的“非0即1”(二元)的图像属性标注,RA模型对商品图像的实用属性值做定量度量,以比较不同商品图像中实用属性的程度大小,进而更好地辅助用户的购买行为并改善其检索交互体验。实验表明:通过相对属性标注,零样本学习(Zero-shot learning)或少量样本学习所获得的标注性能优于传统的二元属性标注模型,模型的实用性大大提升。主要创新点:1)聚焦商品材质属性建立全新的商品图像材质属性数据集:MattrSet。围绕它,在特征学习基础上,构建基于ERGS算法的后融合模型及RA模型,从属性层面创新商品图像标注方法;2)聚焦商品图像属性标注,从特征、材质、核函数等角度设计多种定量的评估方法,更全面、客观地评判模型优劣。