基于文件重构和质量调整的冗余数据删除技术

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:a2652765
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据的存储需求急速增长。尽管在过去的数十年中随着技术的发展,硬件的单位存储价格已经显著下降,但是因为每天出现的新增数据量非常巨大,因此优化存储空间使用,节省存储空间仍是非常重要的课题。现有的多数文件系统将块作为最小存储单元,这样的机制会引起内部碎片现象,进而导致一定的空间浪费,不同的块大小会导致不同程度的空间浪费。在文件系统中,如果块大小不合适,内部碎片导致的空间浪费将会非常可观。除此之外,随着使用环境和使用目的的变化,现有的很多文件会包含一些冗余信息,从而引起了空间的浪费。例如,在小屏幕移动设备上查看包含高分辨率图像的文件,这些高分辨率图像就会造成无谓的空间浪费。如果能够在删除这些冗余信息来调整文件质量的同时,还可以保留文件的信息并保证文件正常使用,就能够达到进一步节省空间的目的。本文中提出了基于文件重构和文件质量调整的冗余数据删除技术。该技术通过调整文件系统的块大小参数,同时对文件系统进行文件重构来实现减少文件的内部碎片的目的;同时对于某些具体类型的文件,该技术通过分析文件的内容,找出冗余数据进行删除和修改来进行文件质量的调整,从而取得减少空间浪费达到更高的空间使用率的目的。在具体实现的基于Ext2/3文件系统的文件重构方法中,文件重构过程中只有元数据和一小部分的文件数据需要修改,实验结果表明该方法可以节省3%-9%的空间。目前本文方法对微软公司的PowerPoint文件以及PDF文件实现了文件质量调整,经过试验测试可得方法实现的空间节省率可以到达16%-50%。
其他文献
分布式对象技术是90年代最重要的软件技术进展之一。该技术实现的组件使企业计算的分布性、可扩展性和异构性等的要求成为可能。在Internet上构造企业级分布式应用系统是许多
随着计算机技术的飞速发展,在软件系统日益复杂的今日,程序分析技术正在软件开发维护的过程中扮演着越来越重要的角色。其中,程序切片技术能够反应出程序中语句在执行时的相互影
该论文的工作是基于北京邮电大学国家重点实验室宽带网研究中心和北京亿阳信通软件研究院有限公司联合承担的"新一代互联网QoS机制、管理和计费"这一课题,课题组在多年研究和
智能网系统综合应用了电信技术和计算机技术,作为一种新型的网络体系结构,在社会生活中发挥着日益重要的作用.智能网运营支撑系统的提出是为了解决如何经营、管理、提出和推
本文首先针对一类不确定非线性系统,基于backstepping方法,利用监督控制,引入最优逼近误差的自适应补偿项,并利用Ⅰ型模糊逻辑系统逼近系统的未知部分,提出了一种鲁棒自适应模糊控
本论文根据电力负荷预测系统的历史数据集的特点及各种预测方法、OLAP及数据挖掘的对数据源的需求,研究了多维数据建模及实视图维护的理论,以增强数据源独立性、可维护性和提高联机分析处理和数据挖掘的效率。 本文分为五个部分。第一部分简单介绍了电力负荷预测的意义、现状和存在的问题,提出建立数据仓库支持负荷预测以解决现存问题,然后突出数据仓库研究中有关逻辑建模及效率的两个关键性的理论问题:多维数据建模
近年来,随着大规模定制技术的兴起,针对产品族的研究成为建模研究的热点。通过建立产品族可配置模型,按照用户要求对模型进行配置设计,可以快速变换出满足用户需求的产品实例模型
随着计算机技术的发展,地理信息系统逐渐走向务实,并且越来越多的与Internet相结合.数字城市和数字地球也由理论逐渐迈向实践,地理信息系统在人们的生活和生产中占有越来越重
TMN应用系统作为电信管理网的支撑软件,能显著提高电信网络的运行质量和效率,因而也越来越受到运营商的重视.文章按照ITU-T建议的TMN应用系统开发方法,描述了两个使用该方法
作者从2001年起,进入北京灵思信息系统有限公司,经过大量的用户调查和应用研究发现,NC管理软件在管理、推广该公司的NC产品——灵易网络计算机(灵易NC)过程中,起到了非常重要