论文部分内容阅读
有格式的文档资料在所有纸质资料中占有重要地位,其自动识别对于办公数字化有重要意义,它的类型识别是其自动识别的关键步骤。本文重点研究格式文档模式的提取以及文档模式的匹配,具体如下:格式文档的模式提取工作分三个方面:区域分割、区域属性提取及模式的表示。首先单一的分割方法无法完成所有类型文档的分割,本文提出由类型到方法的分割策略。利用表格线将文档分为表格类型及非表格类型,对表格类型在表格线基础上提取表格顶点及表格单元;对非表格类型文档采用自顶向下逐层投影的方法完成分割。然后,本文采用基于特征分析的分层识别方法,实现图像、标题和正文区域的快速识别。最后针对格式文档的结构特点,设计包含模式摘要及模式详情的两级模式结构,并采用XML语言实现文档模式的结构化表示。现有模式匹配算法均以参数的严格匹配为匹配准则,无法满足同类型的格式文档中可能存在的个体差异性要求。针对文档模式的数字化及差异性特点,本文提出了基于数字的量化节点相似度计算方法以及基于变权重的路径相似度计算方法。模式匹配中大量运算时间耗费于非匹配模式的运算上,为提高匹配效率本文提出了初步提取到精确匹配的两层文档模式的匹配方法,第一层匹配利用文档模式的摘要信息计算相似度,确定候选模式集;在候选模式集的基础上对文档模式详情进行精确的匹配完成第二层匹配,确定最佳匹配模式。实验表明本文的模式提取及模式配准方法能够有效提取表格、证件及名片等类型格式文档的模式,算法能够较好地适应光照变化及文档倾斜等情况,且模式匹配算法具有较好的容错性。