论文部分内容阅读
随着“营改增”税改在全国各行各业展开,增值税发票的验真变得越来越广泛和重要。由于供应商进项发票可以成为抵扣税的凭据,直接关系到采购企业的经济利益。为了提高增值税发票认证的效率,研究利用计算机来自动识别增值税发票的关键信息具有重要而实际的意义。根据增值税发票的特点和识别的技术要求,构建了增值税发票字符识别的总体技术框架,详细阐述了字符识别的流程和主要技术。通过研读相关技术文献,对OCR的发展状况和相关技术进行了较深的研究分析和归纳。分析了几种常用的灰度图像二值化方法,本文选用了适应性广的局部动态阈值Bernsen算法对图像进行二值化;采用霍夫变换检测发票图像中的直线,从而得出倾斜角并将图像旋转校正;设计了一种以数学形态学为基础的颗粒噪声去除方法;利用了投影法对数字字符进行切分;提取了数字字符图像的网格特征和横向及纵向笔画交点数特征,组成了40维的特征向量。为了达到增值税发票高识别率的要求,本文设计了改进的遗传BP神经网络数字字符识别算法。研究了遗传算法和BP神经网络的基本理论,分析了两种算法各自的长处和短处,利用遗传算法去搜索BP神经网络的一组次优的连接权系数和阈值的初始值,可以很好地综合遗传算法优秀的全局寻优能力和BP神经网络良好的局部寻优能力,从而改善了BP神经网络可能落入局部极值的缺陷,增强了算法的可靠性。标准遗传算法存在缺陷,常常过快收敛而落入局部最优解,搜索没有方向性。这些缺点都和标准遗传算法采用不会随着种群环境的变化而变动的交叉和变异概率有直接关系。为了克服这些缺点,本文设计了一种改进的自适应遗传算法,在定义了种群收敛系数的基础上,设计了一种新的自适应交叉和变异概率调节公式,使得交叉和变异概率能够随着种群收敛性变化而自适应的改变,能够改善标准遗传算法过早收敛的缺陷,改善了遗传算法的全局搜索最优解的能力。设计了一种BP神经网络,综合改进的自适应遗传算法与BP神经网络,利用自适应遗传算法去搜索BP神经网络的一组次优的连接权值和阈值,然后再利用BP网络继续训练,使样本全局误差达到预设的误差限值以下,这种结合的算法可以改善BP神经网络可能落入局部最优的缺陷。在VS2010中,结合OpenCV,用C语言编码实现了本文算法,实验表明本文改进的自适应遗传算法具有一定的优势,改进自适应遗传BP神经网络算法具有健壮性和有效性。