论文部分内容阅读
学习自动机,是一种借助与环境的不断交互调整自身的学习机制,其理论模型隶属于机器学习中强化学习的范畴。学习自动机由于其所具有的快速收敛、全局优化、抗噪能力和完备理论等特点,已受到了相当程度的关注,并且已在模式识别、函数优化、路径规划等领域得到了初步应用。然而,目前学习自动机算法的性能在很大程度上受超参数设置的影响。为获得合适的超参数取值,需要寻优以调节参数设置,而参数调节通常会带来大量的计算开销。特别地,在与环境交互代价大的场景下,超参数调节可能会带来高昂甚至毁灭性的损失,从而成为学习自动机发展的一大瓶颈。因此,从免参数调节的角度拓展其理论使之适用于应用场景已经成为学习自动机领域的发展趋势。有鉴于此,本文深入研究了学习自动机算法的免参数调节机制,在有限与连续行为集合、平稳与非平稳环境下的免参数调节机制方面丰富和完善了目前的学习自动机理论,创新性工作归纳如下:第一,针对平稳环境下有限行为集合学习自动机(FALA)理论,本文分析了现有绝大多数含超参数算法对参数的依赖和寻参代价、以及唯一不含超参数算法无法摆脱概率向量的局限性,设计了使得采样策略和终止条件不依赖于概率向量的免参数调节思路,分别从损失函数和估计区间的角度提出了免参数调节的FALA算法。从损失函数的角度,本文设计了两行为与多行为的免参数调节FALA算法,并给出了严格的收敛性证明。从估计区间的角度,本文提出了基于频率学派置信区间和基于贝叶斯学派可信区间的免参数调节FALA算法。充分的仿真实验证明了所提出算法的优越性。第二,针对平稳环境下连续行为集合学习自动机(CALA)理论,本文分析了现有绝大多数算法对初始参数设置与含噪环境设置的敏感性,设计了概率密度函数更新及函数与环境映射的免参数调节思路,分别从参数不敏感和非参数化的角度提出了免参数调节的CALA算法。从参数不敏感的角度,本文设计了概率密度函数间接更新与sigmoid函数归一化的免参数调节CALA算法,并给出了严格的收敛性证明。从非参数化的角度,本文提出了概率密度函数直接更新与动态集合归一化的免参数调节CALA算法,并在此基础给出了层级式与自适应的精度提升算法。充分的仿真实验证明了所提出算法的优越性。第三,针对非平稳环境下学习自动机理论,本文分析了现有绝大多数算法窗函数设置带来的性能影响,设计了基于现有成果分析与基于前述成果扩展的免参数调节思路,分别从合并降维、突变检测、时间限定的角度提出了非平稳环境下的免参数调节算法。从合并降维的角度,本文设计了基于经典算法改进的参数缺省型算法,并给出了严格的收敛性证明。从突变检测的角度,本文提出了基于前述免参数调节FALA的扩展算法。从时间限定的角度,本文提出了基于前述免参数调节CALA的扩展算法。充分的仿真实验证明了所提出算法的优越性。综上所述,本文对有限与连续行为集合、平稳与非平稳环境下的免参数调节学习自动机算法进行了深入的探索和研究,提出了免参数调节的学习自动机理论,为基于学习自动机解决方案的广泛应用提供了参考和依据。