论文部分内容阅读
预测是一种重要的数据分析方法,可以挖掘出数据库中蕴藏的大量重要信息或对未来数据趋势进行估计。目前预测技术已被广泛应用于能源、气象、环境、金融等领域,并且取得了较好的效果,为数据分析、政策制定、项目规划及科学研究提供了有力的支持。很多研究者已经分别运用机器学习、统计方法和模式识别方法提出了大量预测方法,然而预测模型在特征选择、样本处理、模型适用范围、模型输出、模型参数优化等方面有很大的差异性,这些特性导致很难有一个完整的预测模型可以适用于所有数据分析领域,亦即每个模型都有其自身的优点及适用的领域。同时真实的数据往往包含很多不确定因素,如噪声、随机扰动、失真、缺失值等,使得数据显现出不规则的分布,这些因素对预测模型的性能会产生很大的影响。组合预测模型是将不同类型的模型进行组合发挥其各自的优势,避免各模型的缺点以达到提高预测性能的目的。传统的组合模型是利用单个模型的预测性能建立统计分析模型,根据各模型的预测性能进行建模,这在一定程度上提高了组合预测模型的性能,但是仅将单独模型的预测性能作为建立组合模型的考虑因素,并不能完全发挥出组合模型的优势。此外,对于不同应用领域的数据,单一的预测模型并不能很好地满足预测的需求。为了更好地根据不同应用领域建立鲁棒性能更优的预测模型,本文在全面分析预测模型优缺点的基础上,用数据特征选择、预测误差校正、序列分解模型、启发式优化算法、深度学习模型和无监督分类方法的思想,提出了四个新的组合预测模型。研究结果表明,本文所提出的组合预测模型能更好地适用于具体的预测领域,拓展了组合预测模型的应用范围。论文的主要研究内容和结果包括以下几个方面:(1)对传统电力负荷预测模型进行了研究。针对传统预测模型难于精确刻画时间序列中线性成分和非线性成分之间的动态关系,为了能对时间序列进行更好地分析,提出了基于聚合经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)的相关向量机(Relevance Vector Machine,RVM)与季节自回归差分滑动平均(Seasonal Autoregressive Integrated Moving Average,SARIMA)组合模型(SERM)。该模型首先用SARIMA方法消除时间序列中的季节成分并预测序列的发展趋势作为线性成分。其次,用基于聚合经验模态分析方法的RVM模型预测随机波动成分,通过EEMD方法将原始序列中具有高度随机波动性的成分进行分解,将分解产生的多个子序列交由RVM模型进行预测并将预测结果作为非线性部分。最后,为了更精确地表示线性和非线性成分之间的关系,用改进的差分进化算法(Differential Evolution,DE)对两部分的权重进行优化,并用优化的权重对线性、非线性部分进行融合以作为最终的预测结果。通过对澳大利亚南部三个地区的电力负荷进行短期预测分析,验证了组合预测模型的有效性。(2)对传统的装袋和提升组合方法进行了研究。由于用于训练的数据样本分布相同,使组合模型中的各子模型学习到的特征在训练阶段趋于相似,各模型在训练时,并没有考虑整体模型的反馈信息,使整体模型的预测误差增大。由于系综的组合方法集成了多个子模型,导致时间复杂度升高。为了解决以上问题,本文建立了基于小波分析技术(Wavelet Analysis Technique,WAT)和粒子群(Particle Swarm Optimization,PSO)优化网络结构的负相关学习(Negative Correlation Learning,NCL)神经网络组合预测模型(WAT-NCL-PSO)。该模型首先用小波分析方法将原始时间序列分解成高频序列和低频序列,由于低频序列包含了原始数据主要信息,将主要信息的频率序列进行重构并作为去噪后的新序列。把该序列随机拆分为不同的子序列提交给NCL神经网络进行训练;其次,将误差矩阵作为PSO算法的适应度函数,并以改进的PSO算法对模型中各子网的权重矩阵进行优化;最后,将移除了冗余子网络的模型作为最终的预测模型。通过对甘肃河西地区风电场短期风速数据进行预测分析,证实了WAT-NCL-PSO模型的预测性能优于目前主流短期风速预测模型。(3)对长短期记忆(Long Short-term Memory,LSTM)模型进行了研究,针对该模型难于处理多因素和高维度数据的问题,为了能有效融合多因素和多特征数据,提高LSTM模型的预测性能,本文提出了基于深度置信网络(Deep Belief Network,DBN)特征融合的双向长短时间记忆(Bidirectional Long Short-Term Memory,BLSTM)组合预测模型(DBNLSTM)。首先,该模型用DBN对包含风向、温度、风速和海拔等多因素时间序列进行特征融合,提取出与风速密切相关的特征并重新构建新的时间序列。然后,用改进的BLSTM模型对不同周期的历史信息进行综合分析,并利用自适应矩估计(Adaptive Moment Estimation,ADAM)算法作为BLSTM网络的梯度下降优化算法,以加快网络的收敛速度。通过对美国堪萨斯州风力发电场风速数据的预测分析,验证了DBNLSTM模型具有更优的鲁棒性和可靠性。(4)对传统分类模型进行了研究,针对传统分类模型不能很好地预测不平衡类数据的问题,为了能更好地识别出不平衡类数据中的各个类别,本文构建了基于合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)和无监督分析的深度神经网络(Deep Neural Network,DNN)组合预测模型(SSCDNN)。该模型首先利用SMOTE使不平衡数据集中的稀疏类别和主要类别的分布达到相对平衡,然后将重构的数据集用谱聚类方法在数据空间中进行聚类,并按照聚类个数将数据集划分为不同的子集;其次,用改进了编码和解码算法的集成深度神经网络对各子集进行训练,使DNN能从数据集中学习到更多的规则和模式。最后利用SSCDNN模型对不平衡数据集进行了分类测试,实验结果表明,SSCDNN具有更好的分类性能。