论文部分内容阅读
随着互联网的普及以及电子商务技术的快速发展,网上购物在人们的日常生活中变得司空见惯。与实体店购物不同,网购环境下用户无法接触商品实物,用户一般是根据电商网站提供的商品信息来决定是否购买。而商品信息中,除了一部分以文本、表格的形式给出外,越来越多的是以图片的形式呈现。在这种情况下,比较容易出现两种问题:一是商品信息图片中的内容和商品规格参数中的内容不一致,这将给用户带来理解困扰;二是某些商品信息采用图片的方式来规避对敏感或违禁词的检测,做虚假宣传、虚假广告。因此,需要运用图片字符识别技术设计一个系统自动提取商品信息图片中的文本信息,这样才能有助于电商企业更好地进行信息监管、商品推荐以及售后服务。针对此应用背景,本论文对图像字符检测识别领域进行研究分析,通过结合改进的现有技术进行商品信息图片的字符检测与识别,以期达到自动识别电商图片字符信息的目标。 本文首先调研了图像字符识别的研究背景及应用前景,研究了国内外该领域的研究现状,发现字符检测的研究对象大部分是英文字符,对其它字符,譬如汉字的检测研究很少;而且对汉字的识别方法需要更多的改进和探索。 接着,对字符检测算法进行研究,包括图像处理技术和角点检测算法。图像处理技术主要作用有两个:一是对图像数据进行去噪、增强处理(图像平滑、图像锐化),为后续运算提供高质量的输入数据(因为图片是人工采集的,可能存在不合要求图片,需要清理;而图片流转过程会带人噪声,因此需要进行去噪等预处理);二是字符检测需要运用图像处理技术(形态学处理)对字符的边缘强化。经过上述处理后,采用Harris角点检测法对图片的字符区域标记,得到字符候选区。 然后,介绍了字符定位方法,因为字符检测确定的字符候选区域包含部分背景区域,会对字符识别造成干扰,因此需要精确定位字符位置。字符区域比背景区域有更多的边缘特征,因此本文选择HOG特征提取法获取字符的特征向量,然后使用支持向量机进行分类,去除大部分背景区域,最后确定字符的精确位置。 最后,研究了字符识别算法。字符识别之前,首先进行字符分割,针对标记的区域利用平行投影方法确定文本行,再使用垂直投影在列方向进行处理,从而确定单个字符区域,最后完成字符分割。在字符识别步骤中,将输入图片归一化为32×32的大小,像素写成向量形式传给CNN的输入层,CNN经过卷积层、激活层、全连接层的处理,最后输出一维矢量,对应概率最大的字符作为识别结果。根据常用的评价指标:精确率、召回率和F-Score,分析字符检测和字符识别的性能及其影响因素。实验结果验证了论文所使用方法的有效性,该方法能基本完成电商图片字符识别的功能,具有一定的研究意义和应用性。