论文部分内容阅读
世界是充满联系的,这种联系通常以某种形式表现出来,从数学的形式就是一种映射关系,或者说是函数关系。在信息的时代里,这种映射关系蕴含于成千上万的数据中。基于这种背景,怎样才能准确的寻找到这种函数关系是需要解决的问题。本文正是为了更好得解决这个问题,对集成算法进行了深入的研究。因为在机器学习中,使用单个学习机通常很难实现准确的映射,特别是在实际数据的应用中,由于噪音、随机因素和错误的数据记录,通过单个的学习机更难较好的反映映射关系,实现较高的预测能力。因此,使用多个学习机共同预测的集成算法便是一种很好的方法。对所有种类学习机的集成进行研究是一个浩大的工程,由于人工神经网络是一种在预测学习中普遍使用的方法,因此本文对集成算法的研究主要基于多神经网络的模型。虽然这样的集成算法不能保证应用于所有种类的学习机都能够达到很好的效果,但对于学习机的集成研究具有一定的启发性和代表性,至少对于同类型的学习机,如决策回归树等,是同样适用的。
集成算法在当今的机器学习领域是一个研究的热点问题,研究人员提出了若干新方法,主要包括Boosting算法和Bagging算法两大类。本文主要针对如何进一步增强集成算法的泛化能力,从不同的角度进行研究,在原有算法的基础上提出新的改进,并对集成算法的在线学习形式进行了研究和阐述。
本课题的主要研究工作和创造性成果有:
(1)对传统基于Boosting的回归集成算法进行改进,在算法的目标函数中融入边际函数(Margin)的概念,在保证拟合精度的同时进一步增强泛化能力,并且对该算法的收敛性做出了简要的证明。具体的改进主要体现在学习机组合权重a的计算方式的改变上。通过仿真实验证明,该算法可以在减小残差的同时增大边际的值,比传统的回归集成算法和单个神经网络具有更小的泛化误差。
(2)在集成算法中,Bagging算法对不稳定学习机,如神经网络,树结构,有较好的改善,因为它可以起到减小方差的作用,而在偏置的减小方面,作用甚微。偏置和方差是学习机泛化误差的主要组成部分。针对Bagging算法的这一弱点,提出一种主要应用于回归问题的迭代Bagging算法,可在减少方差的同时减小偏置,从而进一步减小泛化误差。通过对标准数据和真实数据的仿真预测证实,对于输入变量较多的回归问题,迭代Bagging算法较普通Bagging算法确实有着更精确的预测结果。
(3)根据集成算法的指导思想,从增加个体网络间差异度和独立性的角度出发,提出了基于新型进化规划的异构神经网络集成算法,利用Bootstrap采样、负相关学习理论和改进的进化规划训练出多个异构最优网络,然后对异构网络进行组合。在构造异构网络的过程中,改变了传统集成算法中成员网络结构单一固定、精度不高的缺点,在提高个体学习机精度的基础上,削弱网络间的相关性。仿真计算结果证明本文方法可以获得较好的泛化性能,同时较传统的集成算法,可以使用较少的学机达到更高的泛化精度。由于无需事先指定网络的结构,减少了随机不确定因素,更适于实际应用。
(4)针对数据流量较大,存储资源有限的情况,对集成算法的在线形式进行了深入研究,提出了两种形式的在线集成算法,其中一种主要针对Bagging类算法(Improved Online-Bag),而另一种则主要针对Boosting类算法。改进的在线Bagging算法模拟离线采样的概率分布在线产生训练样本,对分类问题有着较好的学习效果:而基于Boosting的自适应在线算法则结合概念漂移的探察方法,对真实的时间序列有着较好的预测效果。两种算法都实现了使用较少存储资源,达到与离线学习相似的精度,对实际应用具有重要意义。
(5)对于具有周期性的时间序列,若将具有相同模式的子序列样本分别进行训练,可起到提高精度,简化计算的作用。根据该思想,将模糊聚类融入到多学习机学习中,并将其与集成算法相结合,提出一种基于改进的动态模糊C均值聚类的多神经网络模型,并将其应用于具有周期特性的超短期电力负荷预测当中。仿真计算证明,通过将模糊聚类后的样本进行分别训练学习,对新样本进行隶属归类后进行预测,预测精度较单个网络模型大为改善,相比与在线集成算法也有更高的精度。
总之,本论文以基于多神经网络模型的集成算法的理论和某些应用作为主要的研究内容,展开深入研究,取得了一些有益的成果。文中提出的改进算法对机器学习和集成算法研究具有一定的启发和促进作用。文章以理论研究为主,辅以一定的仿真计算。由于作者水平有限,文中难免有错误或不妥之处,恳请各位专家和读者批评指正。