论文部分内容阅读
2006年以后深度学习已经成为了机器学习和人工智能领域的前沿研究。尤其是在2012年之后,深度学习在图像识别和分类上都取得了世界上最好的结果。在这篇论文中,我主要关注于深度学习方法和它在手写体识别之中的应用,尽管这不是一个新的话题,但是绝对是一个很有挑战的问题和领域。现在针对单个手写字符的识别问题,诸多研究人员已经提出了许多的识别算法,并且有些算法的表现已经接近甚至超越了人类。但是一串手写字符的识别任然是一个富有挑战的问题。在这篇论文中我将尝试利用深度学习的思想来解决这一问题。论文的主要工作如下:首先,在论文中我提出了一个用于图像降噪的能量模型。在测试中,该模型可以很好地复原被遮挡的图像。但是当图像尺寸变大时该模型的表现并不是特别令人满意。因此我又将卷积的思想引入到该能量模型之中。在卷积模型中,它主要是利用图像的局部特征而不是整个图像,这一点是十分合理的,因为在自然图像中,一个像素值仅仅与与之相近的像素值高度相关,和其他像素值相关性很小。其次,我对单个字符的识别进行了研究,并比较了不同算法的识别结果。当然深度神经网络的表现最好,并且无监督预训练算法可以有效地提高识别准确率。因此在论文中我将无监督学习的思想应用到了卷积神经网络的训练之中,提出了两种无监督学习算法。在预训练之后,我们得到了更好的结果,并且测试错误率呈现出了明显的下降。第三,在论文中,针对字符串的识别我提出了一个基于图像过分割和深度学习的识别框架。为了对图像进行过分割,论文中提出了一种简单但却有效的算法,该算法可以将原始图像分割成更小的片段。在该算法中,我还引入了低通滤波器来降低过分割小块的数目,从而降低接下来计算的复杂度。过分割之后,我们利用深度学习算法对这些分割后的小图像进行评价,生成一个解释图模型。在下一个环节就是利用Viterbi算法寻找一条罚值较低的最优路径,这条路径所对应的标签就是我们想要的标签。最后我们还提出了该系统的整体训练方法。最后,在论文中我还针对深度学习进行了大量的实验研究,这对于接下来的研究是很重要的。通过这些实验,我们可以很轻易地发现与其他算法相比深度学习可以学习到更加有意义的特征,并且它的这种强大的表示能力对于分类和识别大有裨益。总的来说该论文主要研究了手写体识别问题,并提出了一个用于识别的混合模型。