论文部分内容阅读
多Agent系统,正朝着大规模、开放的、动态的和分布式结构的方向发展,在系统中拥有大量自私的 Agent,与其它 Agent交互时提供虚假信息或劣质服务来获得自己最大化利益。在任何时间Agent可以以不同角色进入或离开系统,因而具有自私性和不可靠性。在系统中建立信任机制不仅有利于增加Agent交互的可靠性且可以帮助Agent作出理性决策,因此信任机制在开放多Agent系统中有重要作用。 近年来,不同研究人员基于多Agent系统环境下提出了不同信任和信誉模型,然而当前信任模型都有不足之处:第一,基于概率论的 Beta分布信任模型仅能评价二元离散集,没有考虑到推荐第三方是否可信问题及算法难以适应动态环境变化;第二,基于马尔可夫决策过程和强化学习方法的信任模型假设 Agent知道自己所处的环境所有的信息,Agent在动态环境下缺乏学习和决策能力以及没有考虑到“维数灾”问题。 针对以上这些不足之处,本文提出基于狄利克雷分布的信任模型,以及基于机器学习理论的信任模型。本文主要内容和贡献包括如下方面: (1)基于狄利克雷分布的信任模型 利用狄利克雷后验分布计算直接信任度,可以更加有效地避免策略性欺骗对计算直接信任的影响。为了得到最准确的推荐信息,使用最优无偏估计方法对推荐信任度进行估计。由于本文中是以第三方推荐作为计算信任度参考量的,所以就存在第三方是否可靠的问题,因此提出了层次过滤算法对第三方推荐得到信息进行过滤。 仿真实现表明信任模型能够有效抑制简单的,不诚实推荐和策略的恶意 Agent攻击。 (2)基于机器学习理论的信任模型研究 在多Agent部分可观察马尔可夫决策过程框架中加入信任能使Agent作出更好决策。由于Agent是隐状态,用信念状态来评估更新Agent交互状态。在交互状态评估函数中的转移概率分布和观察概率分布是部分可观察或完全未知的,因此采用贝叶斯学习方法学习未知参数。随着Agent交互次数不断增多,信念状态空间会出现“维数灾”问题。采用分解联合状态、行动和观察方法来压缩状态空间,并提出基于模型贝叶斯强化学习算法思想的多Agent信念状态空间压缩算法寻找最优值函数和策略。 仿真结果表明该算法能有效抑制恶意Agent数量,并使得Agent获得最大化期望回报。