论文部分内容阅读
随着计算机和网络技术的迅速发展以及各种数字化设备的出现,越来越多的纸质文档需要被转化为图像格式的电子文档,以方便存储、传输和编辑。与此同时,文档图像的信息获取成为计算机智能技术的研究热点,脱机手写文档的识别和检索更是技术难点。文档识别技术虽然取得了很大的进步,但是受识别精度的影响,不能够正确识别的词语就无法找到,导致召回率不够高。而关键词检索技术是在不需要对文档进行精确识别的情况下,计算关键词和文档中候选词之间的相似度,通过调节相似度的阈值来平衡召回率和精度,这样做可以找到更多有用的信息。本文对脱机手写文档检索的两个关键问题进行了深入的研究:手写文本行分割和关键词检索。本文在这方面的主要工作和贡献如下:(1)为了更好地提取手写文档中的文本行,本文提出了一种基于图聚类融合准则的文本行分割算法。该算法利用自适应游程平滑算法和最小张树聚类算法的文本行分割结果构造文档结构图,该文档图中的各顶点与文档图像的联通部件一一对应,而文档图中的边表示其连接的两定点所代表的的联通部件可能处于同一文本行。给出了基于误操作代价的文档图边的权值的评价准则,然后利用误操作(这里的误操作主要有两种类型:误分裂和误合并)代价最小化准则对文档图的边进行自动删除,以达到对同行的联通部件进行聚类以提取文本行的目的。同时利用基于监督学习的策略优化文档图的边上权值函数中的参数。在HIT-MW数据库上的实验结果为召回率99.31%、错误率0.94%。该实验结果充分表明了本算法的有效性和正确性。(2)对自适应游程平滑算法和最小张树聚类算法进行改进。对自适应游程平滑算法的改进主要有以下三点:(a)利用基于监督学习的方法对游程平滑规则中经验参数优化;(b)利用投影法对平滑后图像中包含行间粘连的联通部件进行切分;(c)利用一系列经验规则对较短的文本行片段进行合并。对最小张树聚类算法的改进主要有以下两点:(a)扩充了用于距离测度学习的特征空间,进一步提高了距离测度的判别能力;(b)利用描述相邻联通部件几何位置信息的特征训练的线性SVM对生成的最小张树进行预剪枝。从实验结果看,这些改进都提高了各自算法的性能并降低了计算复杂度。(3)基于贝叶斯决策(Bayesian decision)理论,本文给出了基于统计模型并融合多种上下文信息的关键词检索方法,提出了三种检索模型:(a)单字检索模型。该模型利用单字候选模式的字符分类器信息和一元几何上下文信息来判定其字符类别标记是否是待查询关键词的某个单字文本。(b)词匹配模型。该模型利用词内各单字文本对应的图像候选模式的字符分类器信息和一元几何上下文以及相邻单字候选模式之间的二元几何上下文信息来检索待查询关键词的图像候选模式。(c)扩展的词匹配模型。该模型利用词外扩展的单字候选模式与词内首尾单字候选模式之间的二元几何上下文信息、以及二元文法语言上下文信息对由上述词匹配模型得到的词候选模式进行过滤,进一步提高系统的检索精度。(d)为了克服词长对上述模型(单字检索模型除外)的影响提出了基于词长归一化的修正;最后,为了更好的平衡多种上下文模型,给出了一种基于两类交叉熵最小化学习准则,自动学习检索模型中各种上下文信息的融合权重。在实验中,与基于文本识别的检索方法进行了比较,该文本识别方法的切分-识别路径评价准则也是融合了上述多种上下文信息,并利用字符准确率最大化学习准则,自动学习识别路径评价准则函数中各种融合权重。从实验结果来看,在进行关键词检索时,本文的方法与基于识别后文本搜索的方法相比,在设置适当的阈值时,能得到更高的召回率。从在CASIA-HWDB数据库上进行的实验来看,该方法取得了较理想的效果。