论文部分内容阅读
Option的自动发现与生成是递阶再励学习的难点之一,论文提出探索密度检测(ED)法,通过检测状态空间中的探索密度来发现并构建Option。和现有的方法相比具有和任务无关、不需要先验知识等优点:能很好地工作于完全未知的环境中;并且构造出的Option,在同一环境下不同任务间可以直接共享。