论文部分内容阅读
社交网络,知识图谱等在大数据时代都变得至关重要,然而,与图片和视频等欧几里得式数据不同,交错复杂的非欧几里得式结构数据面始终具有特征提取困难的问题,复杂的数据交互形式和庞大的数据体量,使得对网络结构数据的挖掘和分析变得相对困难。传统的网络结构数据挖掘通常采用表示学习方法,即将网络中的节点和关系获得嵌入向量,向量的方向和模长均具有表示意义。另外,随着强化学习方法的兴起,出现了将强化学习模型应用于网络结构数据处理数据挖掘任务。本文面向知识图谱以强化学习视角对数据分析与挖掘,其中一个主要问题是知识图谱实体补全问题。因此,本文以知识图谱补全任务入手,其任务表述为给定初始实体和该实体相关的关系,补全出关系对应的目标实体,构成完整的(头实体,关系,尾实体)三元组。该任务可应用于知识图谱补全,问答系统,推荐等诸多下游任务。本文将补全任务过程形式化定义为马尔科夫过程,采用强化学习思想学习解决补全问题,其中的网络特征提取与策略学习方法能够适应多种任务。首先,本文详细定义了知识图谱补全任务的马尔科夫过程,明确了过程四要素即状态空间、动作空间、转移函数和回报函数,进而使得该过程能够以强化学习方式对任务目标学习。然后,本文构建深度智能体网络(Graph-Agent,GA)用以学习环境中的不同状态下的动作决策策略,其中针对状态的序列化问题提出基于时域卷积网络的状态特征提取层网络;针对不同状态下动作空间不定问题提出基于共享参数的完全动作空间映射和灵活的策略层网络,共同组成完整的强化学习中的深度智能体网络。深度智能体网络对于环境的探索过程采用智能体决策结合蒙特卡洛树搜索方式以获取训练数据,解决了图结构数据上游走采样的低回报率问题,并采用轨迹存储池和离策略训练智能体对补全模型进行更新。最终,模型的预测阶段采用与探索过程相似的Q值结合蒙特卡洛树搜索方式,对搜索结果以加权评分排序。实验在NELL995的十个关系数据集和WN18RR数据集上进行,并采用平均倒数排名(MRR),HITS@K,平均精度均值(MAP)等信息检索评估算法,对模型效果进行验证,同时与目前在该任务上常用的三类算法中的经典算法进行比较,并对模型的可解释性进行了一定分析。模型中状态编码网络的训练速度相较于循环神经网络模型有着较大的提升。实验结果表明,在NELL995的十个关系数据集上预测的平均MAP达到89.9%,在WN18RR数据集上预测的MRR达到43.5%,模型的评估在部分任务上取得了与其他方法接近的效果,在多个补全任务上取得最优的效果。