论文部分内容阅读
随着当今电子化办公的普及,复合文档扮演着越来越重要的角色。而在文档传输和存储过程中,复合文档往往由于高误码而不能打开,致使无法获得其中携带的有效内容,这一现状严重抑制了工作、生产效率的提高。因此,研究如何使破损复合文档承载的有用信息对用户可见显得尤为重要,尤其是在单向通信条件下的复合文档接收与还原工作中,双方不平等的通信地位使得破损复合文档修复的意义更为重大。本文以OpenXML复合文档为研究对象,以其修复过程中所面临的实际问题为切入点,展开对相关算法和应用技术的研究,主要的研究成果如下:1.建立了基于关键组件重组的OpenXML复合文档修复模型。通过探究OpenXML复合文档的信源组织结构,分析文档格式,总结文档潜在的协议冗余,以及评估差错位置对文档可打开性的影响,在此研究基础上建立了基于关键组件重组的OpenXML复合文档修复模型。2.提出一种基于关键组件重组的复合文档修复方法。OpenXML复合文档破损时,与文档内容无关的组件损坏同样会造成文档本身无法打开,针对这一问题,利用了文档自身鲁棒性,通过某些关键xml文件和关系文件重新构造复合文档,来降低文档修复的复杂度,最终实现对破损复合文档承载信息的最大化获取。相应的仿真实验表明该方法在一定程度上能够有效地还原文档承载内容,提取出有用信息。3.提出了两类有效数据字段容错定界算法:(1)考虑到近似模式串匹配算法相对于精确模式串匹配算法计算复杂度较高的问题,提出了一种基于字符串匹配二重机制的容错定界算法,实现复合文档有效数据字段的定界。将复合文档数据比特流预处理转换为数据字符流,再通过建立两种字符串匹配相结合的二重机制实现有效数据字段起始位置的容错定位,最后结合长度字段完成有效数据字段定界。结果表明,在高误码率条件下(10-610-4),该方法在保证较高定界效率的同时,取得了较为理想的定界效果。(2)针对破损OpenXML复合文档修复过程中各组件内容源数据区定界易出错的问题,提出了一种基于多重约束的内容源数据区容错定界算法。通过对文档协议冗余的分析与归类,将内容源数据区定界问题转化为对起始位置序列的最佳估计问题。在通过适当放宽匹配条件完成粗定界的基础上,利用冗余信息中的约束关系构建代价函数对观测数据进行筛选,有效地剔除“虚警”情况,进而实现对内容源数据区起始位置序列的最佳估计。实验结果表明,该算法有效地降低了定界错误率,能够克服常规定界方法对差错敏感的缺陷。4.设计了基于Windows MFC的破损docx文档修复软件模块。该软件模块具有仿真文档加噪功能,仿真文档修复功能,文档承载内容提取率统计功能以及一线实际破损文档修复功能,实现了破损docx文档修复的可视化操作。利用仿真和实际数据对该软件进行了功能测试,取得了较好的修复效果。