论文部分内容阅读
随着计算机应用的飞速发展,数据流处理逐渐成为当前数据库领域新的研究热点。数据流是一种新型的数据处理模型。在许多应用领域中管理的数据都是数据流的形式。虽然数据流中的数据的基本单位还是关系模型中的元组,但是与传统数据库中的数据不同,这类数据不再是永久的关系形式,而是源源不断的到来,时间有序,瞬时变化的。大部分数据流处理系统是采取软件方法设计。但是由于软件的处理速度比较慢,数据流来的速度又比较快,所以软件处理数据流的速度相对就显得比较慢,很难保证数据处理的实时性要求,因此采用硬件设计的数据流系统将具有极大的现实应用意义。
本文在综合参考国内外同行对数据流分类器设计的基础上,设计了一种相对通用的硬件数据流分类器。由于数据流本身的特点,许多传统的数据分类算法并不适合应用于数据流。因为数据流不像传统数据那样静态存储在磁盘中,而是以流动方式出现的。因此许多数据如果没有被保存将无法重新访问,所以基于数据流的分类算法只能通过对数据进行一次扫描完成挖掘。如果数据流来的速度过快的话,由于内存无法存储全部数据,也使得数据流分类算法只能利用有限的内存提取数据流的一个样本作为算法的输入数据,所以分类的结果也是近似的,同时考虑数据流的特点,分类的结果也应该是实时的。论文在传统SPRINT算法的基础上提出了一种新的适用于数据流环境的快速SEU—SPRINT算法,并在该算法的基础上更进一步提出了并行算法PARALLEL—SEU—SPRINT算法。同时在PAPALLEL-SEU—SPRINT算法基础上提出了硬件分类器的设计思想和设计框图。