论文部分内容阅读
随着不同类型传感器在网络中的广泛应用,多变量数据流的精确分类问题已经成为数据挖掘和机器学习领域的研究热点。由于网络中数据流的特征随时间和网络环境的变化而发生变化,数据流会不断有新的类别产生,导致分类精度下降。目前,已经有大量关于多变量数据流的分类方法,但他们都没有考虑到新类的产生。然而在现实生活中,很多应用领域的数据都会有新的数据类别产生,及时检测到新类别,可以提高分类精度,并且对于实际生活有很大的意义。在目前的数据流分类研究当中,仍然存在三方面的问题没有有效的解决:(1)多变量数据流当中的新类检测问题有待研究;(2)较少的考虑到多变量时间序列数据流当中流内特征之间以及不同流的特征之间的相互影响关系;(3)在单变量数据流的新类检测方法当中,现有的方法假设某一个时间内只出现一个新类,然而现实可能会同时出现多个新的类别。因此,针对上面的三个问题,本文所做的主要工作就是通过引入特殊的特征提取方法以及基于聚类的模型更新方法来研究数据流当中新类检测的问题,并将该方法应用到多变量时间序列数据流当中,研究了流挖掘中的一个重要问题,即考虑新类出现的多变量时间序列数据流的分类研究或CMCNC(The Research on Classification of Multivariable Time Series Data Streams Considering New Classes)问题。为了更加直观、快捷的度量多变量时间序列数据流之间的相互影响关系,本文借鉴了生物信息学当中基序的查找方法,通过提取基序以及时序关系特征,经过向量化处理之后,输入到随机森林分类模型当中进行分类以及新类检测,在对模型进行更新时,利用特征的权重和k-means方法对所有新类实例进行聚类,以达到正确检测新类的目的。实验结果表明,与现有的分类方法相比,本文提出的分类方法不仅考虑到了多变量时间序列数据流之间的时序关系,也达到了新类检测的目的,并且能够提升新类检测的准确率,最终该分类方法取得了显著的效果。