免参数调节的学习自动机算法研究

来源 :上海交通大学 | 被引量 : 2次 | 上传用户：qinzhenxing

【摘要】

：

学习自动机,是一种借助与环境的不断交互调整自身的学习机制,其理论模型隶属于机器学习中强化学习的范畴。学习自动机由于其所具有的快速收敛、全局优化、抗噪能力和完备理论

【作者】

：

郭颖

【出处】

：

上海交通大学

【发表日期】

：

2019年01期

【关键词】

：

学习自动机免参数调节有限行为集合连续行为集合平稳环境非平稳环境

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

学习自动机,是一种借助与环境的不断交互调整自身的学习机制,其理论模型隶属于机器学习中强化学习的范畴。学习自动机由于其所具有的快速收敛、全局优化、抗噪能力和完备理论等特点,已受到了相当程度的关注,并且已在模式识别、函数优化、路径规划等领域得到了初步应用。然而,目前学习自动机算法的性能在很大程度上受超参数设置的影响。为获得合适的超参数取值,需要寻优以调节参数设置,而参数调节通常会带来大量的计算开销。特别地,在与环境交互代价大的场景下,超参数调节可能会带来高昂甚至毁灭性的损失,从而成为学习自动机发展的一大瓶颈。因此,从免参数调节的角度拓展其理论使之适用于应用场景已经成为学习自动机领域的发展趋势。有鉴于此,本文深入研究了学习自动机算法的免参数调节机制,在有限与连续行为集合、平稳与非平稳环境下的免参数调节机制方面丰富和完善了目前的学习自动机理论,创新性工作归纳如下:第一,针对平稳环境下有限行为集合学习自动机(FALA)理论,本文分析了现有绝大多数含超参数算法对参数的依赖和寻参代价、以及唯一不含超参数算法无法摆脱概率向量的局限性,设计了使得采样策略和终止条件不依赖于概率向量的免参数调节思路,分别从损失函数和估计区间的角度提出了免参数调节的FALA算法。从损失函数的角度,本文设计了两行为与多行为的免参数调节FALA算法,并给出了严格的收敛性证明。从估计区间的角度,本文提出了基于频率学派置信区间和基于贝叶斯学派可信区间的免参数调节FALA算法。充分的仿真实验证明了所提出算法的优越性。第二,针对平稳环境下连续行为集合学习自动机(CALA)理论,本文分析了现有绝大多数算法对初始参数设置与含噪环境设置的敏感性,设计了概率密度函数更新及函数与环境映射的免参数调节思路,分别从参数不敏感和非参数化的角度提出了免参数调节的CALA算法。从参数不敏感的角度,本文设计了概率密度函数间接更新与sigmoid函数归一化的免参数调节CALA算法,并给出了严格的收敛性证明。从非参数化的角度,本文提出了概率密度函数直接更新与动态集合归一化的免参数调节CALA算法,并在此基础给出了层级式与自适应的精度提升算法。充分的仿真实验证明了所提出算法的优越性。第三,针对非平稳环境下学习自动机理论,本文分析了现有绝大多数算法窗函数设置带来的性能影响,设计了基于现有成果分析与基于前述成果扩展的免参数调节思路,分别从合并降维、突变检测、时间限定的角度提出了非平稳环境下的免参数调节算法。从合并降维的角度,本文设计了基于经典算法改进的参数缺省型算法,并给出了严格的收敛性证明。从突变检测的角度,本文提出了基于前述免参数调节FALA的扩展算法。从时间限定的角度,本文提出了基于前述免参数调节CALA的扩展算法。充分的仿真实验证明了所提出算法的优越性。综上所述,本文对有限与连续行为集合、平稳与非平稳环境下的免参数调节学习自动机算法进行了深入的探索和研究,提出了免参数调节的学习自动机理论,为基于学习自动机解决方案的广泛应用提供了参考和依据。

其他文献

德成功测试全自动汽车无人驾驶穿行自如

从前只有在影视作品中才能见到的全自动汽车已经成为现实。据英国《每日邮报》9月20日报道，德国科学家近日刚刚在柏林的街道上试验了一款完全由电脑控制的汽车，并且取得了成功

期刊

全自动汽车无人驾驶测试德国科学家影视作品电脑控制

多杀菌素抗性西花蓟马与番茄斑萎病毒互作关系研究

西花蓟马是一种世界性的农业害虫,也是番茄斑萎病毒最有效的传播媒介。杀虫剂的长期过量使用,导致西花蓟马对多种杀虫剂产生抗药性。多杀菌素类药剂是防治蓟马类害虫最有效的

学位

西花蓟马番茄斑萎病毒多杀菌素抗性传毒能力酵母双杂交转录组

煤炭工业可持续发展中的环境保护和矿区资源综合开发问题

根据我国国情和能源资源的客观条件,长期内以煤炭为最主要能源的格局不会改变,用好煤炭,发挥好煤炭这一优势资源在国民经济中的作用是个十分重要的问题.制约我国煤炭工业的关

期刊

资源综合开发环境保护持续发展煤炭工业environmental protectioncompreh ensive exploitation of res

浅论用闪式提取工艺提取显齿蛇葡萄中黄酮的效果

目的：研究用闪式提取工艺提取显齿蛇葡萄中黄酮的效果。方法：使用L9（34）正交实验法,用芦丁作为考察指标对显齿蛇葡萄中黄酮的含量进行测定,然后使用紫外分光光度闪式提取工艺提

期刊

显齿蛇葡萄黄酮闪式提取工艺效果

黑琥珀李高效栽培管理技术

内乡县地处暖温带向北亚热带过渡地带,为北亚热带季风型大陆性气候,具有明显的过渡气候特征,气候温和,雨量充沛,光照充足,境内地处山区,其中山地、坡地通风透光,区域温度低于

期刊

黑琥珀李内乡县中果枝短果枝栽培管理技术

兴发集团原料库后山滑坡勘察研究与防治措施

1998年，兴发集团原料库后山发生了滑坡。为了达到“防”与“治”相结合的目的，对滑坡周界以外20m的范围进行了勘察研究，查明了滑坡范围、地层结构、主滑方向、平面上分块、纵向

期刊

滑坡勘察研究防治措施地层结构主滑方向展布形态排水系统landslide exploration and research measures of

冰箱U壳生产线控制系统的设计

在家电行业生产的早期,钣金成型设备是由多台专机组成,生产过程中需要有专人上下料,因此每台专机设备都要配备操作人员。为了保证生产的人身安全,在人工上下料时设备需要停机

学位

冰箱U壳触摸屏逻辑控制配方

免参数调节的学习自动机算法研究

其他学术论文