论文部分内容阅读
在水环境治理及规划研究中,河流水质预测问题是一个被广泛研究的重要问题。由于水流动的多样性及不确定性点源污染原因,导致河网水系流态十分复杂。再加上水环境系统的结构参数和边界条件具有时变性和复杂性,而我们通常所获取的水环境系统信息是不完备,使得水质预测成为一个难题。统计学习方法可以根据现有的实测资料,建立影响河流水质因子和水质之间一种映射关系,从而达到预测河流水质的目的。支持向量机作为统计学习理论的新一代机器学习方法,能较好地解决小样本、非线性、高维数和局部极小点等实际问题,已成功应用于分类、回归和时间序列预测等领域。Suykens在支持向量机基础上提出的最小二乘支持向量机,不但在多个问题上表现出较高的建模精度和良好的泛化能力,还有效降低了算法的计算复杂度。然而,对最小二乘支持向量机算法及其在水质预测的应用,尚存在一些研究不足的方面。例如:回归预测模型输入的合理选择问题、峰值样本预测误差相对偏大问题等。本文结合河流水质预测应用,研究了最小二乘支持向量回归算法的-些相关问题。论文主要研究内容及取得的成果有:1)研究了回归预测模型输入的合理选择问题。根据信息论中的熵信息理论,提出了基于偏互信息的回归模型输入选择算法。该算法在给定输入变量条件下,通过估计备选输入与模型输出之间关联程度,来判定备选输入的取舍。多个线性和非线性测试用例输入选择结果表明,该输入选择算法,能正确识别预测模型输入变量,克服输入变量选择的冗余性问题。同时,输入被选定的顺序反映了该输入对预测模型输出的重要性程度。实际问题的应用结果表明,该算法选定的输入变量能反映系统的变化规律。2)提出了一种峰值预测的最小二乘支持向量回归算法,该算法可以用来提高峰值区域水质的拟合预测精度。在分析了学习样本分布对最小二乘支持向量回归算法拟合误差的影响基础上,按照加权最小二乘思想,利用样本分布密度因子和样本幅值加权因子修正最小二乘支持向量回归拟合误差,提高了最小二乘支持向量回归对峰值过程的拟合精度,降低了峰值区域样本的预测误差。文中采用了多个测试实例对算法性能进行了检验,最后将算法应用到了水质预测问题。应用结果表明峰值预测的最小二乘支持向量回归算法在保持水质整体预测精度的同时,能显著提高峰值样本预测精度,其峰值样本预测的平均百分比误差绝对值较LS.SVR算法下降27%以上。3)研究了大样本最小二乘支持向量回归算法的效率问题,提出了一种快速大样本最小二乘支持向量回归算法,并应用于咸潮水质预测。该算法采用无监督核硬聚类方法,首先将学习样本集按推广的欧氏距离相似性测度标准,在高维特征空间进行聚硬类。然后选定类中心样本作为支持向量进入支持向量集,再利用Nvstrom算法在低尺度支持向量集样本空间逼近初始样本学习机的核Gram矩阵,从而得到原问题的一个近似解。函数拟合测试及咸潮水质氯化物含量预测实际应用结果表明:该算法能够在拟合预测误差没有明显下降的情况下,将LS-SVR处理大样本学习问题的计算效率提高50倍以上4)针对最小二乘支持向量回归算法的单核映射性能及灵活性较差问题,提出了一种分组特征多核最小二乘支持向量回归算法,并应用于水质耗氧量预测。算法采用同一映射函数将所有具有同源特征的输入变量,映射到高维特征空间再进行回归建模。并将该回归拟合目标优化问题转化为半无限线性规划问题,利用交换集法求解。函数拟合测试及水质耗氧量预测应用结果表明:同源特征分组多核最小二乘支持向量回归算法较标准最小二乘支持向量回归算法,预测平均百分比误差降低了17%以上。