论文部分内容阅读
巡检是指企业按照一定的周期和标准,指派相关人员对各个经销商的服务质量进行考察。近年来,移动巡检成为了工业界的新趋势,相关人员往往会通过手机APP上传图片和文本对经销商进行检核。以汽车经销商质量巡检系统为例,巡检人员需要以图片和文本两种形式来综合反映经销商的服务质量。移动巡检的图片往往只由专业人员上传,因此数据规模相对不大,且每张图只对应一个分类,但分类粒度较细,同时图片描述往往不够准确,在图片认知上存在较大的困难。传统的巡检流程主要包含以下两个问题:第一,巡检流程的自动化程度较低。由于检核项较多,区域经理在巡检过程中需要一一上传巡检图片和描述,会耗费大量的时间。如果系统能够支持批量上传图片进行自动化标注,就可以提升巡检的效率。第二,相关平台没有综合分析图片与文本的语义信息和对应关系,巡检图片与描述之间常常缺乏关联。经销商在整改时往往会参考其他门店的相关服务,现有的平台只支持按照检核类别查询的方式,没有有效利用图片的信息。同时,移动巡检领域的图片描述常常无法准确反映图片的信息,因此搜索准确率难以得到保证,也不利于最后的分类归档。针对以上问题,本文设计并实现了面向移动巡检的图片认知平台,实现了图片检索和图片自动匹配的服务;提取特征向量将图片转化为描述文本,完成图片标注的任务;将文本转化为向量,比较向量间的余弦相似度,提供语义查询的服务。本文的主要研究工作包括:一、提出了基于深度学习的图片认知平台框架,将平台划分为请求处理模块、文本处理与图片检索模块、模型训练模块和数据存储模块,提供图片检索和自动匹配、图片标注和语义查询服务。二、设计了图片内容检索与分类的模型,针对巡检流程自动化程度较低的问题,本文首先使用图片增强的方法解决图片数据不足的问题,之后通过修改VGGNet网络结构,将哈希技术运用到神经网络中,为图片生成对应的哈希值,通过比较图片间海明距离和欧氏距离的方法提供图片检索服务,从而解决了图片数据分类粒度较大的问题;同时利用VGGNet最后的分类层输出将图片匹配到相关联的检核点。三、设计了图片文本自动关联的方法,针对图片与语义之间缺乏关联分析的问题,首先对文本数据进行预处理。之后使用Encoder-Decoder的模型结构,通过VGGNet提取图片的特征向量,作为LSTM的输入。对文本进行预处理后使用集束搜索的方法为图片自动生成文本描述,解决了图片描述不够准确的问题;使用Doc2Vec模型将自然语言转化为文本向量,通过比较向量间的余弦相似度提供语义查询的服务,同时提供文本与检核点匹配校验的服务,提高了整个流程的自动化程度。四、设计并实现了基于上述研究方法的图片认知平台原型系统,通过开源API加载训练好的Caffe和TensorFlow模型,利用OSS和HDFS存储图像和模型文件,使用MySQL和Redis进行业务数据存储。