论文部分内容阅读
随着信息技术的发展,文档图像在办公自动化、数字图书馆、电子商务、电子政务等项目中获得广泛的应用。在这些应用中,纸质文档通常采用扫描方式形成数字化文档图像进行存储、传输、显示和打印。为了保证对文档图像的有效处理,要求在用户能识别的前提下,对文档图像进行高倍的压缩。论文分析了文档图像的特点,指出文档图像是由一些具有特定性质的区域块组合而成,通常包括文字块、线图、连续色调图像(真彩色图)和半色调图像(带调色板的图)。其中,文字和线图保存了图像较多的细节以及结构信息,具有较高的空间分辨率特征,这一部分区域对颜色分辨率的要求不高;而连续色调和半色调的图像则保存了较多的颜色信息,通常要求较高的颜色分辨率,但对空间分辨率的要求不高。由此采用基于分割的文档图像压缩技术,对不同的分割区域采用不同的压缩方法可以获得更好的压缩效果。而对文档图像进行有效的层分割是论文研究的重点。借鉴1997年国际电信同盟(ITU)提出的文档图像层分割的建议标准,并结合目前的分割算法,论文提出了一种优化的文档图像分割模型。该模型将块分割和层分割的方法结合起来,采用改进的多尺度2色聚类的方法对块分割得到的文字区域进行再一次的层分割,从而得到文字的轮廓和背景颜色区域。然后将背景区域和块分割得到的图片区域进行逻辑合并,得到图像的背景层。这种优化的文档图像层分割的方法,有效地结合了块分割和层分割的优点,能够克服单一的文档图像分割算法的缺陷,得到较好的图像层分割效果,也为图像的后续处理打下了很好的基础。在文档图像的优化分割模型的基础上,为了解决多尺度聚类层分割算法中尺度选择的问题,论文进一步研究了基于Bayesian模型的多尺度分割算法。以树状结构表示图像像素以及特征空间之间的依赖关系,采用基于马尔可夫随机场的Bayes方法进行图像的层分割,以获得更准确的文档图像的层分割结果。论文的最后,完成了优化模型的分割实验并给出了示例图像的分割效果。并对分割的结果与单一的块分割和层分割的分割结果进行了比较。表明,优化的层分割模型能取得更好的分割效果。