论文部分内容阅读
脱机手写体字符识别作为模式识别领域中一个重要组成部分,发挥着其举足轻重的作用,具有很高的研究意义。纵观文字识别领域的研究历程,国内外对中文、英文、日文、韩文等优势文字的研究层出不穷,也切实地取得了令人可喜的成就,并且已有成熟的OCR应用。本文重点研究文字识别中关键技术的应用,以阿拉伯文字识别技术为研究对象,对脱机文字识别中的关键技术做了阐述和分析,并提出了两套改进方案。这对于研究开发新疆少数民族文字识别系统具有很高的借鉴意义。本论文首先分析了阿拉伯文字符识别不能获得理想效果的问题所在及其研究现状,并结合阿拉伯文字特点,引入BP神经网络分类策略;其次,对脱机文字识别中的关键技术做了阐述和分析,并给出了本文用到的图像预处理和提取特征方法;再次,详细介绍了神经网络分类算法的原理和主要应用,并分析了它的优势与不足;紧接着,论文提出了两种分类器改进算法,分别是PSO-BP算法和ELM算法,并对其性能做了分析,PSO-BP算法大大缩短了网络训练时间,对BP网络的结构有很好优化作用,ELM从BP训练机制上进行了改进,展现了其快速和高效特性;最后,结合IFN/ENIT数据库构造了本文的手写体阿拉伯文字符库,然后采用改进的分类器进行训练和测试。通过实验验证了改进方法的有效性和高效性,PSO-BP算法分类器识别率可以达到92.3%,ELM分类器识别率可以达到93.1%。