XML数据压缩技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：beargtg

【摘要】

：

作为半结构化数据的典型代表,XML已成为Web上数据表示和交换的标准。但它的自描述和半结构化特性使得XML中存在大量的数据冗余,极大地增加了数据存储、交换和处理的代价,严重

【作者】

：

祝园园

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2009年期

【关键词】

：

XML数据数据压缩生物XML数据 Twig查询

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为半结构化数据的典型代表,XML已成为Web上数据表示和交换的标准。但它的自描述和半结构化特性使得XML中存在大量的数据冗余,极大地增加了数据存储、交换和处理的代价,严重阻碍了XML数据库更深入更广泛的应用。因此,对XML数据进行压缩变得十分必要。针对生物XML数据中可压缩子结构高频重复出现的特点,我们设计了适于生物XML数据的压缩方法SCSC(Schema based Compressible Substructure Compressing)。首先,我们根据XML Schema提供的丰富结构信息建立XML扩充结构树,并从中提取用于压缩的子结构,包括极大可压缩子结构和完全可压缩子结构。然后解析XML文档,将其分离为结构数据和内容数据,且把内容数据归到不同的内容容器中。最后根据提取的可压缩子结构对结构数据进行压缩,并对不同类型的内容容器采用相应的压缩方法。理论分析和实验结果表明,在生物数据的压缩上,SCSC比已有的方法XMill具有更好的压缩性能。此外,SCSC不仅适合生物XML数据,也可扩展到其他具有高频重复子结构的XML数据。针对大多数XML压缩方法不能支持Twig查询的问题,我们提出了一种能够支持Twig查询的XML压缩算法XCTwig(XML Compression supporting Twig)。该方法主要包含两大部分—XML数据压缩方法和压缩XML数据上的Twig查询处理方法。首先,我们给出了XCTwig压缩算法的框架,设计了XML结构树的构建算法以及XML文档的压缩算法。然后,我们给出了压缩XML数据上进行Twig查询的框架,并给出了压缩数据上Twig查询操作算法。XCTwig压缩算法的基本思想是把具有相同路径的内容数据划分到同一组进行存储。在压缩XML数据上进行Twig查询处理时,首先把Twig查询模式分解为多个路径查询表达式,在压缩数据中依次执行并返回匹配的结果,且将先驱路径的中间结果用作当前路径查询中的过滤条件。实验证明,虽然XCTwig的压缩比低于XMill和gzip,却明显高于XGrind,且由于采用了路径存储的独特形式,其上Twig查询操作仍然具有很好的性能。

其他文献

XML在企业资产管理中的应用研究

随着信息技术的飞速发展，企业资产管理系统已经成为提高资产密集型企业效益的核心手段。但由于当前系统在越来越复杂的数据交互和通信中缺乏统一有效的数据模型，严重影响了系统

学位

企业资产管理EAM系统XML技术三层B/S体系结构关系数据库

分布式计量器具及检测证书流转管理系统的设计与实现

计量器具的检测是法定计量机构若干职责中的一项。计量器具的检测涉及对计量器具及检测证书流转的管理,它涵盖了从计量器具送检到计量器具和检测证书取走的全部过程。由于计

学位

.NET RemotingWeb Service移动终端流转

基于Web中国海监北海通信站数据中心信息系统

信息技术(Information Technology,IT)是当今使用频率比较高的一个名词,它随着计算机技术的发展和不断进步,在各个行业日益广泛应用,已经被越来越多的人们所重视,其慢慢体现

学位

信息技术数据库ASP.NETSQL SERVER 2000数据缓存

基于直推式回归的无线传感器网络定位与跟踪算法研究

无线传感器网络作为一种新型的数据采集技术,综合了微电子、无线通信和无线网络等多门学科,在军事、工业控制、环境监测、医疗救助等领域都有广泛的应用前景。在大多数应用中

学位

无线传感器网络定位算法直推式回归支持向量机回归非视距

基于页着色技术的多核实时系统中Cache共享策略的研究

随着多核架构成为处理器发展的主要方向,实时系统在多核系统上的应用已经成为了研究和探索的热点问题。共享缓存作为当今流行的多核架构设计,提高了通信的效率和缓存使用的灵

学位

多核处理器实时系统缓存空间隔离颜色分配

掌纹预处理算法的研究与实现

生物身份识别技术已经广泛应用于人们的日常生活中,尤其是对于身份验证比较严格的安全领域。掌纹包含着丰富的纹理信息,特征唯一和稳定,成为生物身份识别领域研究的热点。小

学位

掌纹识别预处理最长最可能手掌形态学关键点

变电站智能电子设备通信测试方法研究

随着智能电网的快速发展,智能电子设备(IED)已成为了变电站生产管理中必不可少的一部分,但不同厂家的变电站设备间仍因存在通信接口不一、协议不规范等问题而不能交互。研究对变电站智能电子设备的测试及检验方法对确保变电站通信可靠性具有重要意义,国内外当前在该领域的研究多依赖手动操作,系统化程度低,灵活性较差。本文针对变电站状态监测设备的测试要求,研究了智能电子设备的抽象通信服务接口(ACSI)与MMS和

学位

智能电子设备IEC 61850有限状态机自动化测试测试脚本

基于数字化校园高校教务管理系统的研究与设计

随着高等教育从“精英教育”向“大众教育”的过渡，高等教育的办学规模不断扩大，在校生人数飞速增长，教务管理工作日益繁重；近年来，学生素质教育的贯彻执行，各高校已陆续将教学管理

学位

教务管理系统软件模式需求分析网络安全高校管理

基于Web Services的航材保障系统的开发与研究

航材是军队的重要军事物资，航材保障是军事物流的重要组成部分。随着军队现代化、信息化的建设不断加强，航材保障呈现了新的特点，航材管理也有新的发展趋势，航材管理的目标实现了

学位

航材保障系统面向对象Web Services二维条码军事物流库存管理

数字内容保护系统中访问控制模型的研究与实现

随着计算机网络技术的飞速发展以及信息化建设的推进，数字信息在企事业单位内以及人们的日常生活中发挥着越来越重要的作用。然而，由于数字信息具有易于复制、修改和传播的特征

学位

数字版权管理数字内容保护访问控制模型信息安全

XML数据压缩技术的研究

其他学术论文