论文部分内容阅读
在实际工作应用中,有很多要处理的数据是各种表格文本。表格文本作为一种常见文本,是日常工作中处理得比较多的一种文本,广泛应用于各种场合,例如:各种银行票据、税务、财务报表、图书卡片、人事档案及考勤表等。因此,表格字符的自动识别技术有着很大的研究和应用价值。 本文对表格字符的自动识别技术进行了一些研究和探讨,首次提出了一种新的基于Hough变换和BP神经网络的字符识别方法。该方法利用Hough变换的点——线对偶性,结合字符的结构特点,对识别字符进行Hough变换,将字符在参数空间中共线点的个数及其元素在图象空间中对应的位置坐标,作为BP神经网络识别系统的特征输入矢量,大大减少了字符特征矢量的维数,全面反映了字符点阵的总体分布情况极其形状的本质特点,简单易行,同时具有良好的稳定性。另外,本文对上述方法进行了扩展和改进,设计了增加骨架细化处理的印刷体字符识别系统和结合字符边缘特征的字符识别系统。进一步减少了字符的冗余信息,降低了特征矢量的维数。在保持了原始字符图象重要的几何和拓朴结构特征的基础上,进一步消除了噪声干扰,使字符的结构特点更加清晰,更利于本文的基于结构特点的特征提取,提高了识别率。同时,减少了系统的运算量,提高了字符识别速率。系统的测试结果表明,上述方法是可行有效的。 本文提出的基于Hough变换和BP神经网络的字符识别方法,是对字符识别技术进行的一些积极的探索,具有一定的扩展空间,还有待完善,如果与其它字符识别方法相结合,预计会取得更好的识别效果。