论文部分内容阅读
随着信息时代的到来,科学实验、企业运作等诸多领域正不断地产生越来越多的数据,如何经济地存储、高效地处理这些海量数据已成为一个数据库应用中迫切需要解决的问题,具有重大的研究价值和实践意义。
传统的基于句法的压缩技术将数据集作为连续字节处理,未能利用数据表中隐藏的复杂依赖关系等语义信息,因此对海量、结构化数据表的压缩效果不佳。另一方面,对于探索性数据分析,并不一定需要准确的结果,能够保证误差范围,快速、近似的答案常常更为理想。本文提出了一种基于模式发现的语义压缩方法,将数据表中的冗余归结于其中存在许多可以被转化为压缩模型的模式,发现了这些模式也意味着得到了实现压缩的方法。
数据中的模式与其反映的概念有紧密联系,一个数据表通常代表了一个实际概念。然而现实中的概念是层次化的,因此还可以继续将数据表划分为多个包含更为具体的概念的数据子表。本文通过对数据表进行概念聚类,强化了区域内的模式特征,以便于模式定位方法的有效实施。特征驱动的方案分派机制保证了不同类型的模式对应的数据区都能交付给合适的压缩策略处理。
本文还在发现模式的同时实现了压缩表的语义索引,能提高压缩表的访问效率并为后续数据挖掘工作带来帮助。