论文部分内容阅读
科技文献对人类文明和科技发展起着至关重要的作用,在当今数字化时代的背景下,人们为了便捷高效的使用这些文献,便将其以图像的形式制作成电子文档保存到计算机中供人们使用。但是,随之而来也产生了不少的问题,例如:占用巨大的存储空间、在网络上传输速率低、图像中的公式表格等内容无法重用等。现有的OCR技术无法完全解决这些问题,尤其不能识别文档图像中的数学公式,而数学公式在科技文档中又是最重要的内容之一。于是,如何从文档图像中自动识别数学公式这一世界性难题,成为了人们研究的课题。本文主要是研究中文印刷体文档中数学公式的定位。本人在前人研究的基础上,实现了一个数学公式特征提取系统并使用所得到的特征数据和Parzen窗算法测定了文档图像中独立数学公式的定位率及其所对应窗宽的精确值。本人首先用扫描仪制作了200张实验图像,在图像制作过程中,由于被扫描文档的印刷质量、纸张质量、扫描仪的分辨率、扫描过程中操作不得当等因素的影响,使得实验图像需要经过图像裁剪倾斜校正转256级灰度二值化去除噪声等预处理步骤后方能使用。本系统能够从文档图像中提取出每个行的行高(HL)、上下间距(AS,BS)、左右缩进(RI,LI)、公式与其所对应序号的距离(LD)、密度(DE)等七个特征并可以将所提取出的特征数据及其相关信息导入进数据库中,从而建立起了一个约有10万多个数据的图像特征数据库。本数据库中共有4963条记录,分别对应从200张实验图像中提取出的4963个行;还有23个字段分别是记录序号(Serial Number)、图像序号(Image Number)、行序号(Line Number)、行的上边位置(Line Top)、行的下边位置(Line Bottom)、类别(Formula or Text)、行高(h,HL)、行长(l)、行内字符的平均高度(h0)、上间距(as,AS)、下间距(bs,BS)、左缩进(left indent,LI)、右缩进(right indent,RI)、公式与其所对应序号的距离(large distance,LD)、黑色像素数(NBP)、密度(DE)、分类结果(Recognition Result(‘F’or’T’))。在此基础上,将特征数据库中的数据分为了独立公式类、内嵌公式类、纯文本类和其他类四个类别,经过统计可知共有4959条有效记录,其中有704个纯文本行、1594个独立公式行、2410个内嵌公式行和251个其他类行。然后使用独立公式类、内嵌公式类和纯文本类中七个特征中的六个特征(HL、AS、BS、LI、RI、DE)组成待使用的特征向量,将独立公式类中的1/10的数据作为独立公式Parzen窗的训练集,将同样数量的内嵌公式类和纯文本类中的数据作为内嵌公式Parzen窗和纯文本Parzen窗的训练集,将独立公式类中剩余的9/10的数据作为三类Parzen窗的验证集,将它们带入到Parzen窗算法中以求得各自的类条件概率密度p ( x|ωi ),然后使用基于最小错误率的贝叶斯决策规则将验证集中的各待分类特征向量归入所属类别,从而得出了对独立公式的正确定位率。Parzen窗中的窗宽是一个非常重要的数值,它对最终的定位率起到很大的影响。由于窗宽h是一个大于零的实数,所以本人的想法是将窗宽的初始值和终止值分别设为一个较小值和一个较大值,然后以较小的步长值遍历此范围内的所有数值,从而在此范围内找出最佳的窗宽值。经实验表明,此方法是有效的。与以往文献相比,本文采用了与他们同样的方法,不但得到了比他们更高的独立公式定位率,而且确定了与其对应的Parzen窗窗宽的精确值,这是以往文献中所未见到的,这也正是本文的创新点所在。为将来的进一步研究奠定了坚实的基础。