论文部分内容阅读
近年来,由于计算机及应用技术的高速发展,人们获取数据的能力得到极大的提高。数据流(Data Streams)作为一类重要的数据来源,受到越来越多的关注,基于数据流模型的数据挖掘技术及其算法研究已成为重要的应用前沿课题。数据流是一组顺序的、大量的、快速的、连续到达的、事先未知的数据序列。一般情况下,数据流可以被视为一个随时间延续而无限增长的动态数据集合。对流中数据的访问和处理代价通常比较高。因此,仅一次地访问数据成为数据流算法所追求的目标。数据流的特性对传统聚类方法提出了许多新的挑战。例如,仅一次地扫描数据流并产生高质量的聚类结果;任意时间段内的窗口分析等。当前,数据流聚类算法仍然面临着一些较难解决的问题,主要包括分割数据流造成全局信息缺损从而影响聚类效果;时间复杂度较高,难以实现有效的基于密度的聚类,以便发现数据空间中不规则分布的高密度区域等。本文针对数据流聚类算法及其应用进行了深入的研究,提出了一种改进的顺序数据流聚类算法以期解决或改善上述问题,并进一步研究了该算法在邮件过滤和入侵检测这两个领域的应用。其主要内容如下:首先,提出了一种改进的基于数据流的顺序聚类算法。该算法的目标是在尽量保留聚类质量的基础上,同时提高处理速度。对其中的难点采用了标准工具集解决。实验表明,该算法不仅没有损失聚类精度,处理速度也得到有效提高,适于数据流聚类应用。其次,针对当前垃圾邮件的特点,将本文提出的数据流聚类算法与支持向量机相结合,构造了一种邮件过滤模型。实验表明,该模型的处理速度,分类精度都有所提高,且具有良好的泛化能力和较强的自适应性。最后,针对现代网络的复杂性以及入侵手段日新月异的特点,用本文提出的数据流聚类算法对入侵信息进行聚类分析,并应用分析结果指导支持向量机分类,建立了一种入侵检铡模型。实验结果表明,该模型较之同类模型的检测效果有了明显提高,增强了模型的自适应学习能力,提高了处理速度。