格式化文档图像模式提取及配准

来源 :中南大学 | 被引量 : 0次 | 上传用户:nihaoyuyue2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有格式的文档资料在所有纸质资料中占有重要地位,其自动识别对于办公数字化有重要意义,它的类型识别是其自动识别的关键步骤。本文重点研究格式文档模式的提取以及文档模式的匹配,具体如下:格式文档的模式提取工作分三个方面:区域分割、区域属性提取及模式的表示。首先单一的分割方法无法完成所有类型文档的分割,本文提出由类型到方法的分割策略。利用表格线将文档分为表格类型及非表格类型,对表格类型在表格线基础上提取表格顶点及表格单元;对非表格类型文档采用自顶向下逐层投影的方法完成分割。然后,本文采用基于特征分析的分层识别方法,实现图像、标题和正文区域的快速识别。最后针对格式文档的结构特点,设计包含模式摘要及模式详情的两级模式结构,并采用XML语言实现文档模式的结构化表示。现有模式匹配算法均以参数的严格匹配为匹配准则,无法满足同类型的格式文档中可能存在的个体差异性要求。针对文档模式的数字化及差异性特点,本文提出了基于数字的量化节点相似度计算方法以及基于变权重的路径相似度计算方法。模式匹配中大量运算时间耗费于非匹配模式的运算上,为提高匹配效率本文提出了初步提取到精确匹配的两层文档模式的匹配方法,第一层匹配利用文档模式的摘要信息计算相似度,确定候选模式集;在候选模式集的基础上对文档模式详情进行精确的匹配完成第二层匹配,确定最佳匹配模式。实验表明本文的模式提取及模式配准方法能够有效提取表格、证件及名片等类型格式文档的模式,算法能够较好地适应光照变化及文档倾斜等情况,且模式匹配算法具有较好的容错性。
其他文献
近几年,随着水资源的日趋紧张,灌溉成了制约我国农业生产的一个瓶颈。与一些农业比较发达的国家相比,我国的农业灌溉用水率相对较低,水资源浪费比较严重,灌溉相对不合理,在节
智能微电网可以接入多种分布式发电和储能单元,尤其是对可再生能源的有效利用,不仅可以为偏远地区提供稳定电能,而且并网运行时能起到"削峰填谷"的作用,提高公共电网稳定性,对解决化石燃料资源短缺问题和环境污染问题有重大意义。微电网中分布式发电及储能单元容量配置关系到微网整个生命周期经济性和供电可靠性,是微网规划设计阶段的重要工作。结合当前节能减排要求,研究碳税机制对微网配置的影响,可以为微网的低碳化配置
近年来,伴随着科学技术以及智能化交通的发展,车辆智能识别系统已成为研究的热点。车辆识别系统在桥梁路口自动收费、停车场管理、智能小区构建、违章车辆记录以及交通事故处
目的了解2016—2018年河北省流感流行特征,为流感防控提供科学依据。方法通过中国流感监测信息系统收集河北省2016—2018年流感样病例(influenza-like illness,ILI)监测数据进行统计分析。结果2016—2018年河北省流感监测哨点医院流感样病例就诊百分比平均水平为1.64%,2017—2018年ILI就诊百分比峰值高于去年同期水平,期间共检测咽拭子标本38 589份,