破损OpenXML复合文档修复关键技术研究

来源 :解放军信息工程大学 | 被引量 : 1次 | 上传用户:fancysoul
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今电子化办公的普及,复合文档扮演着越来越重要的角色。而在文档传输和存储过程中,复合文档往往由于高误码而不能打开,致使无法获得其中携带的有效内容,这一现状严重抑制了工作、生产效率的提高。因此,研究如何使破损复合文档承载的有用信息对用户可见显得尤为重要,尤其是在单向通信条件下的复合文档接收与还原工作中,双方不平等的通信地位使得破损复合文档修复的意义更为重大。本文以OpenXML复合文档为研究对象,以其修复过程中所面临的实际问题为切入点,展开对相关算法和应用技术的研究,主要的研究成果如下:1.建立了基于关键组件重组的OpenXML复合文档修复模型。通过探究OpenXML复合文档的信源组织结构,分析文档格式,总结文档潜在的协议冗余,以及评估差错位置对文档可打开性的影响,在此研究基础上建立了基于关键组件重组的OpenXML复合文档修复模型。2.提出一种基于关键组件重组的复合文档修复方法。OpenXML复合文档破损时,与文档内容无关的组件损坏同样会造成文档本身无法打开,针对这一问题,利用了文档自身鲁棒性,通过某些关键xml文件和关系文件重新构造复合文档,来降低文档修复的复杂度,最终实现对破损复合文档承载信息的最大化获取。相应的仿真实验表明该方法在一定程度上能够有效地还原文档承载内容,提取出有用信息。3.提出了两类有效数据字段容错定界算法:(1)考虑到近似模式串匹配算法相对于精确模式串匹配算法计算复杂度较高的问题,提出了一种基于字符串匹配二重机制的容错定界算法,实现复合文档有效数据字段的定界。将复合文档数据比特流预处理转换为数据字符流,再通过建立两种字符串匹配相结合的二重机制实现有效数据字段起始位置的容错定位,最后结合长度字段完成有效数据字段定界。结果表明,在高误码率条件下(10-610-4),该方法在保证较高定界效率的同时,取得了较为理想的定界效果。(2)针对破损OpenXML复合文档修复过程中各组件内容源数据区定界易出错的问题,提出了一种基于多重约束的内容源数据区容错定界算法。通过对文档协议冗余的分析与归类,将内容源数据区定界问题转化为对起始位置序列的最佳估计问题。在通过适当放宽匹配条件完成粗定界的基础上,利用冗余信息中的约束关系构建代价函数对观测数据进行筛选,有效地剔除“虚警”情况,进而实现对内容源数据区起始位置序列的最佳估计。实验结果表明,该算法有效地降低了定界错误率,能够克服常规定界方法对差错敏感的缺陷。4.设计了基于Windows MFC的破损docx文档修复软件模块。该软件模块具有仿真文档加噪功能,仿真文档修复功能,文档承载内容提取率统计功能以及一线实际破损文档修复功能,实现了破损docx文档修复的可视化操作。利用仿真和实际数据对该软件进行了功能测试,取得了较好的修复效果。
其他文献
谁说美丽就要挨冻?谁说冬天就该臃肿?柔顺贴身、质感十足、保暖透气性好的羊绒正当时!而米皇羊绒彻底颠覆了人们对羊绒的看法.羊绒越来越时尚多彩、年轻了。是时候摒弃棉服、热
人事档案管理工作如何主动顺应时代发展的要求,更新人事档案管理的内容、范围,档案收集的方式、方法以及人事档案服务的对象等,是我们人事档案管理者需要面对和认真思考的问题。
近日,大拇哥动漫时尚汇暨2013秋冬发布会“纷·漫童尚”在福建石狮举行。发布会现场,全都是动漫场景,置身其中,仿佛遨游在动漫的乐园;而幻影成像,更是把动画片中的卡通人物投影
目的探讨米索前列醇、经腹壁羊膜腔内注射依沙吖啶、经阴道羊膜腔外注射依沙吖啶这三种临床上用于终止孕14-16周的引产方法的安全性及有效性,以期为临床工作提供参考。方法选
随着针灸疗法"热"遍全球,国内外都广泛采用,但它的发展是不平衡的,特别在国外,笔者近年应邀赴多国讲学期间发现,施术者多为西医,由于理论体系不同,加上对中医学缺乏系统学习,
一、喷油器易损故障的类型及原因电控燃油喷射系统喷油器易损故障可分为机械故障和电路故障两种。
在缝机行业,提到富山,无人不晓:是全球最具规模的工业缝纫机研发制造企业之一,同时也是中国最早研制生产高端电脑缝纫机的企业之一。从2007年开始就只生产节能高效的机电一体化产品。多年来,富山公司成功研发出包括H8800-7C高速电脑自动平缝机、HX6800超高速电脑自动剪线包缝机、H9180N高集成机电一体化电脑直驱自动平缝机、H1310花样机等数款具有国际先进水平的全球首创高端产品。至2014年3