论文部分内容阅读
在信息技术与多媒体技术飞速发展的今天,传统的纸张文字已经无法满足人类日益增长的需求,所以我们迫切需要把传统的纸张文字信息转化为数字化信息。目前印刷体纸张文字相对来说比较成熟,然而手写体文字由于书写形态各异,识别起来比较复杂,还需要进一步研究。而手写体阿拉伯数字频繁在邮政编码、试卷、银行票据中使用,这种用途的特殊性决定了应用要求极高的识别精度。本文从手写体数字识别的正确率和识别速度着手,研究设计了完整的基于SVM的脱机手写体数字识别的算法。首先,在手写体数字图像的预处理部分,针对手写体数字的特点,提出了一种包括位置归一化与尺寸归一化的归一化方法。其次,在手写体数字图像特征提取阶段,结合CCH与DCCH特征,提出了DTP特征。将预处理后的图像进行分块操作,然后统计落在每一小分块的CCH和DTP统计特征,将这些数据统计好就提取到了图像的特征向量。最后,论文在对阿拉伯数字的分类识别阶段,提出了一种多级分类算法,先用水平穿越次数将图像样本一分为二,初步实现粗分类;然后二级分类器用SVM分别构造两个多分类器来对图像样本进行细分类。其中构造SVM多分类器时采用一对一投票策略,设定得票阈值,如果超过阈值即分类成功,不超过阈值就认为该样本是在粗分类时就错分了,则会把样本输入到第二个SVM多分类器中进行分类。本文最后在Matlab R2010软件环境中使用MNIST数据库中6万个训练样本和1万个测试样本进行了实验测试,实验表明:本文设计的手写体数字识别算法可以获得较高的识别率和较快的识别速度,有一定的应用价值。