论文部分内容阅读
在当今大数据时代,我们可以采集到很多以流的形式产生的数据,比如传感设备产生的数据,购物网站不断产生的用户浏览和购买记录,还有社交网站用户构成的不断变化的社会网络等。数据流中常常隐含概念漂移,使得传统分类方法不再适用。概念漂移问题已成为数据流分类的重大挑战之一,重现概念漂移是概念漂移的一种子类型。另外由于数据流高速、海量的特性,导致实际应用中难以获得所有样本的真实类别,造成大量样本真实类别的缺失。针对数据流分类中的重现概念漂移和大量样本的真实类别缺失这两个问题,本文开展了以下工作:(1)针对重现概念漂移检测中的概念表征和分类器选择问题,提出了一种适用于含重现概念漂移的文本型数据流分类的算法。通过计算不同批次样本的主要特征及影响因子的差异度以识别重复出现的概念,为每个概念维持一个分类器且及时更新,并依据Hoeffding不等式选择最合适的分类器对当前样本集实施分类,以提高对概念漂移的反应能力。实验结果表明所提算法在含重现概念漂移的数据集上的分类准确率,对概念漂移的反应能力及对概念漂移检测的准确率均明显优于其他四种对比算法,且同时适用于对不含重现概念漂移的数据流进行分类。(2)提出一种含重现概念漂移的不完全标记数据流分类算法。该算法通过监测分类准确率以检测重现概念漂移,检测阈值根据分类器的泛化性能自动调整,以防止检测过于敏感或迟钝,同时避免了需要人工设置阈值的缺陷。该算法基于概念之间通常具有重叠区域的特性,利用各个历史概念的分类器辅助半监督分类以标记未知真实类别的样本,从而扩大训练样本集,以增加分类器的泛化性能。实验结果表明:所提算法有效地减少了概念漂移及真实类别缺失造成的分类准确率的损失。其中提出的重现概念漂移检测方法能够较准确地判断出两概念是否属于相同概念,从而能够利用重现概念提高对概念漂移的反应速度,大大减少了概念漂移造成的分类准确率的下降。提出的利用历史分类器辅助的半监督分类方法能显著提高标记准确率,从而能够更好地利用未知真实类别的样本以增加分类器的泛化性能。