论文部分内容阅读
文献信息的获取是开展科研工作的重要环节,如何高效地从海量的文献数据中挖掘出有用信息,是科研工作者需要解决的共性问题。文献数据可建模为网络形式进行分析,复杂而庞大的文献网络增加了计算机处理难度。如何将文献网络表示成合理的形式,并高效地运用于作者分类、文章相似性搜索和合著关系预测等文献网络应用任务,对解决现实应用问题具有重要意义。为克服传统网络表示方法计算复杂度高、难以有效融合网络异质信息等问题,研究学者提出网络表示学习(Network Representation Learning),又称网络嵌入(Network Embedding),旨在将网络中的节点表示成低维稠密的向量,以将其作为机器学习模型的输入运用于后续的网络应用任务之中。随着科学技术的飞速发展,文献数据呈指数型增长,现有网络表示学习方法在处理文献数据时主要存在以下挑战:1)文献数据包含作者、论文、会议等多种实体,实体间的复杂交互包含了丰富的语义信息。现有异质网络表示学习方法在处理由文献数据构成的文献信息网络时,难以有效结合用户导向对网络语义信息进行保留;2)文献数据随时间不断变化,其构成的文献信息网络呈现出明显的动态特性,而现有动态同质网络表示学习方法难以有效捕捉网络演化特性和网络历史结构信息;3)文献数据包含的多种语义信息随时间不断变化,当前语义信息与历史语义信息具有紧密关联,而现有网络表示学习方法难以有效保留网络历史语义信息。因此,针对以上问题,本文将文献数据建模为不同的网络形式,对面向文献数据的网络表示学习关键技术展开研究。具体研究工作如下:1.针对现有网络表示学习方法难以有效捕捉文献信息网络中多种语义信息的问题,本文将文献数据建模为异质信息网络,提出一种基于同质子图变换的异质网络表示学习方法(Subgraph2vec),提高了节点分类的效果,并可有效进行节点的相似性搜索。该方法结合不同元路径所包含的语义信息,在同类节点间构建能表征节点关联程度的带权连边,从而构建出多个带权同质子图。通过在带权同质子图上进行带偏置的随机游走获取包含语义信息的同类节点序列,并将节点序列作为节点“上下文”输入Skip-gram模型,以学习节点的表示向量。在多个真实数据集上的实验结果表明:该方法不仅能根据用户需求选择性地对节点进行表示学习,其学习到的节点表示向量在节点分类任务上的准确率较对比算法有一定的提升,并可有效进行节点相似性搜索。2.针对现有网络表示学习方法难以有效捕捉文献信息网络在时间维度的动态演化特性和历史结构信息的问题,本文将文献数据建模为动态同质网络,提出一种基于霍克斯过程的动态同质网络表示学习方法(MHDNE),提高了节点分类和链路预测的效果。该方法将新连边的产生过程建模为时间序列,然后基于霍克斯过程建模网络历史结构和演化特性对产生新连边的影响,使得学习到的节点表示向量更全面地捕捉了网络历史信息对当前连边产生强度的影响。在多个真实数据集上的实验结果表明:MHDNE算法能有效融合网络的动态演化特性和历史结构信息,通过MHDNE算法学习到的节点表示向量在节点分类、链路预测等应用任务中的准确率较对比算法有一定的提升,在可视化任务中类别划分更明显。3.针对现有网络表示学习方法难以有效融合文献信息网络历史语义信息的问题,本文将文献数据建模为动态异质网络,提出一种基于网络增广图和改进的Skip-gram模型的动态异质网络表示学习方法(DHNE),提高了节点分类和节点时间轨迹分类的效果。该方法将时间步长内的动态异质网络看作不同时刻的网络快照,在时间步长上构造包含多个网络快照的网络增广图,以融合网络的当前信息和历史信息。并在构造的网络增广图中,基于元路径的语义信息,进行带偏置的随机游走以获取包含语义信息和结构信息的节点序列。最后利用改进的Skip-gram模型学习节点的表示向量。在多个真实数据集的实验结果表明:DHNE算法能有效融合网络的多种历史语义信息,其学习到的节点表示向量在节点分类、节点时间轨迹分类等网络应用任务上的准确率较对比算法有一定的提升,且在可视化任务中社团划分更明显。