论文部分内容阅读
在线预测一直是智能信息处理领域的前沿课题,在异常诊断、系统控制、信号监测和行为推理等工程问题中具有重要的应用价值。机器学习通过数据驱动的方式建立表征数据关系的非线性模型,能够对新数据做出有效预测。作为机器学习的代表性方法,极限学习机由于具有理论解析解和收敛速度快的优势,适用于具有海量、多样、高速和真实等特征的大数据环境。在实际场景中,由于实时采样的业务需求和计算机缓存的限制,数据呈现出逐个到达或片段式到达的特点,形成实时数据流。复杂多变的流式数据要求模型能根据当前数据片段的预测结果自动调整结构,无需人工参数调整和学习模型的重新训练,这对预测算法的有效性和适应性提出了挑战。极限学习机通过模拟人类学习行为,建立多层神经元连接结构,表征属性和标签的映射关系,实现具有语义特征的智能信息处理。在训练阶段,利用M-P广义逆计算输出权重,避免了繁杂的参数遍历过程。其中自适应极限学习机、惩罚加权极限学习机等能够有效解决复杂函数逼近问题,已经成功应用于离线预测。但是随着数据的累积,数据结构会随着时间显著变化,导致离线预测方法失效。如何建立参数和结构自动调整的在线预测模型,适应变化环境的学习任务仍有待深入研究和进一步完善。本文考虑不同类型的数据标签和不同结构的属性集合,围绕在线预测的极限学习机方法展开研究,解决长期累积数据、时变的不平衡标签、自增长特征空间和非结构化图像序列的在线预测问题,旨在提高机器学习方法在变化环境中的鲁棒性和适应性,探索大规模数据在线预测的新方法。论文的主要创新性工作如下:(1)针对长期预测中模型自动调整问题,提出了平衡方差和偏差的动态ELM方法,解决了经典ELM预测模型依赖初始结构,无法定量调整的问题。该方法引入了关于拟合程度的度量参数,将时间序列的误差进行分解,比较了方差和偏差的变化,实现了对过拟合和欠拟合的定量表达;建立平衡拟合能力和自由度的惩罚回归模型,采用粒子群算法实现了隐层节点数目和正则化参数的联合优化,形成了自动更新策略,避免了交互式的参数调整,保证了预测模型适用于长期在线预测。实验结果表明所提方法能够适应数据变化趋势,与代表性的在线预测方法相比,所提方法在4组不同属性维度的UCI标准数据中具有更低的泛化误差和更高的相关系数。(2)针对多类样本标签不平衡序列在线预测问题,提出了基于两步博弈的集成动态ELM方法,解决了数据标签平衡度偏移和重构数据不准确的问题。该方法采用了数据处理和模型更新联合策略,进而自动匹配样本的结构变化;在数据处理阶段,采用动态ELM博弈模型生成少数类样本,平衡不同类别样本分布;与传统的重采样方法不同,所提方法融合了零和博弈策略和主成分分析阈值判决,保证了每个样本片段的真实性;在模型更新阶段,利用信息熵量化整体的拟合程度,建立了权重与损失程度之间的关系,并采用博弈论中的集合模型计算组合权重,形成了稳定的网络体系结构,避免将多分类问题转化为多个二分类造成的模型适应性差的问题,提高了模型对快速变化数据的拟合效果。实验结果表明,在6组多类不平衡UCI标准数据集中,所提方法具有更高的G-mean和F-measure值,改善了动态ELM方法对少数类样本的预测能力。(3)针对特征维度增加的非平稳序列在线概率预测问题,提出了基于分位数估计的动态ELM方法,解决了非平稳序列特征维度增加,置信区间表征单一的问题。对于期望值的点预测,该方法考虑了不断增长的特征空间,定义特征向量和标签的相似度作为特征阈值,实现了对新特征的在线提取;建立集成学习模型,通过人工蜂群算法进行联合优化,得到最优的参数解向量,减少了输入层权重和偏置的随机性;根据片段平均误差调整模型过滤阈值,提高了模型的紧凑性。对于置信区间预测,该方法采用模糊推理和二维核密度估计判决预测值的置信区间,突破了误差必须满足特定概率分布的局限,得到平滑的概率密度表达。选取表征光伏电能转化情况的典型非平稳数据进行实验,结果表明,所提方法获得了较高的泛化性能和置信度,匹配了非平稳序列的周期性和波动性。(4)针对非结构化的图像序列在线预测问题,提出了基于目标主轨迹的多层ELM方法,解决了小样本图像序列特征难表征以及模型和语义无法关联的问题。该方法充分考虑了图像的时空特性,采用帧差法和k-means聚类分析,实现了不同运动目标的像素级提取;利用二阶指数平滑方法,计算每一个运动目标的主轨迹,实现对多个目标运动趋势的预测;通过多层ELM量化形状特征,建立历史序列和当前图像感兴趣区域的映射关系,重构了新的感兴趣区域,保证了新图像的真实性;利用FISTA方法加快了参数优化的收敛速度,简化了深度神经网络的求解过程。选取表征行人和车辆运动状态的图像序列进行实验,结果表明,所提方法提高了在线预测的准确性和图像分辨能力,有效挖掘了图像序列整体的语义特征,无需对每一个像素点建立模型,提升了预测效率。