论文部分内容阅读
在当今社会中,99%以上的文字信息都是以可视化的纸质资料形式出现的,而盲人及视力障碍人士无法像普通人一样正常读书看报,视觉能力的缺失使他们无法以最直观的方式获取信息。盲人阅读器正是一种将可视化印刷品资料转化为声音信号,可供视力障碍人群直观获取信息的设备,该设备可使其在不借助他人帮助的情况下也能够方便地获取普通纸质文字信息。基于FPGA(Field Programmable Gate Array,现场可编程门阵列)的系统可充分利用硬件上的特性满足高速图像处理的需要,加上使用SOPC(System On a Programmable Chip,可编程片上系统)技术可使设计更加灵活,并实现软硬件在线编程及更新。本文设计了一个基于FPGA的盲人阅读器,以Altera公司的DE2开发板作为硬件平台,配合以CMOS(Complementary Metal Oxide Semiconductor,互补氧化金属半导体)图像传感器对纸质印刷体文字资料进行采集,VGA(Video Graphic Array,显示绘图阵列)显示器对采集图像和处理结果进行显示,当拨动相应的功能开关时,系统将通过音响输出识别文字内容后的语音信息。整个系统共分为图像采集、图像缓存、图像显示和文字识别四个模块。系统采用软硬件协同设计方式进行实现,其中图像采集、图像缓存和图像显示三个模块用Verilog硬件描述语言进行编写,文字识别模块通过搭建SOPC,在Nios Ⅱ IDE环境下采用C语言编程处理实现。其中,文字识别模块是系统的核心,关系到系统的性能。文字图像处理分为预处理、特征提取和匹配识别。本文讨论并分析了各部分算法的选取,在预处理部分采用中值滤波对灰度图像进行平滑去噪,再使用Otsu算法进行二值化处理,之后经过行字切分和归一化处理后,应用改进的八邻域细化算法提取出文字骨架。然后基于该单像素的文字骨架信息,对其包括端点、歧点、拐点及四叉点在内的特征点进行特征提取,并采用一阶Minkowski度量,即绝对距离度量,将特征向量与字典中的标准向量进行匹配识别,距离最短的即为识别结果。最后,在语音库中找到文字对应的语音文件,并通过音响输出声音信息。经过反复的调试和改进,该系统可以很好地实现盲人阅读器的功能。