论文部分内容阅读
表格文本图像版面中存在的大量的非表格框线对象,干扰正确提取表格框架结构。提出了一种基于字线分离的预处理算法。该算法在不提取表格框线的前提下,采用图像分块和连通域分析,实现字线分离。实验结果表明,该算法能够滤除大部分文字像素、准确有效突出表格文本图像中的框线信息,达到了预处理目的,是后续表格特征提取和识别的有效预备步骤。