Research on Off-Line Arabic Text Recognition

来源 :安徽大学 | 被引量 : 0次 | 上传用户:love527351314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的40年里,人类阅读的机器仿真是很重要的研究方向。由于阿拉伯文字的复杂性,对阿拉伯文字自动识别的研究很少见。随着拉丁文、中文和日文在光学文本识别上的成功,光学识别阿拉伯文也重新得以大量研究。到目前为止,虽然有些这方面研究的报告,但还需要大量深入的研究。   在本文中,提出了一套用于阿拉伯文字结构和几何特征的提取方法。本系统重点运用了支持向量机(Support Vector Machines)作为模式识别的工具。假设每个阿拉伯字符的字形都是独立的类而忽略分割字符的特征。本系统主要分为三部分。第一部分是预处理,进行字符图像二值化,线性分割和单词分割。分割后的单词输入到第二部分--特征提取。提取的特征包括20个纵向滑动窗口特性的总和,纵向投影点密度的4个极大值和4个极小值,字符重心,连接部分的个数,角和重点的位置以及字符影像的平均值。最后一部分是分类,采用了具有一对多功能的多级支持向量机。   最后还针对打印和手写阿拉伯字符对上述的识别系统进行评估。打印字符选用Andalus,Arial,Simplified Arabic,Tahoma和Traditional Arabic等五个字体,进行了四组实验。第一组实验分别用三个具有42个特性的数据集进行所用字体的检测,识别率分别为97.344%,88.727%和88.582%。与之对应,第二组实验对所有字体的单组特性进行检测,每组不同特性识别率分别为95.287%,90.446%和80.690%。第三组实验用15组不同的数据集对不同字体的不同组特性进行检测,识别率均在97%以上且最高识别率为98.743%。第四组实验用手写字符数据集对手写字符进行检测,识别率为94.884%。
其他文献
机器学习是研究让机器具有学习的能力,集成学习是机器学习的一大研究热点,是将多个不同的单个个体模型组合成一个最终模型,这些模型就是我们所要生成的分类器。生成这些模型
数字半色调是一种使用黑白二值的像素点来表现连续灰度图像的技术。在数字半色调处理的各种技术中,误差扩散算法以其较好的半色调图像质量和较快的算法运行速度,得到了非常广
对于网络安全态势的研究是近年来一个新兴的网络安全研究课题,也是目前信息安全的研究热点之一。网络安全态势是对网络安全状况的一个整体反映,对于提高整个网络系统的应急响
互联网的出现与普及,给人们带了极大便利,同时也让我们承担着来自互联网的威胁和被欺诈的风险。近年来,流氓证书被恶意颁发的事件时常发生,如果流氓证书被不法分子获取并部署
科学计算正在从传统的以计算为核心的计算密集型时代转向以数据为核心的数据密集型超级计算的时代,数据已经逐渐成为企业或机构运转的枢纽与支柱,任何形式的数据损坏都可能带来
Web2.0和社会化标签系统的流行,使得Folksonomy和标签推荐系统得到了越来越多的关注。随着语义Web研究的深入,研究者尝试利用本体来解决Folksonomy的不足并为其构建统一的结
随着计算机技术的发展,嵌入式实时系统在众多领域得到广泛应用。相比于单核处理器,多核处理器能够使嵌入式系统获得更高的性能。在PC全面进入多核时代的背景下,嵌入式领域的
随着市场经济的不断发展,企业信息化显的越来越重要。物流被称作“第三方利润源”也受到了各行各业的重视并得到了较快的发展。将计算机网络,电子商务等技术与物流相关技术结
随着互联网的发展,越来越多的用户主动加入到互联网创造了大量的数据,比如微博数据、论坛数据、电子商务网站的评论等数据都是用户主动创造的数据。这些数据的一个共同点就是大
本文对织物染色配色问题进行了比较详细的介绍,并描述了此次建模所用的数学方法和分析过程。通过对传统的织物染色配色问题研究发现:基于Kubelka-Munk理论的织物染色配色方法费