论文部分内容阅读
在当前网络时代,随着智能社交媒介的普及和在线应用的丰富多样,网络信息空间时刻都有海量数据的产生。如何在纷繁复杂的数据中捕获有效信息并且智能分析,是大数据和人工智能时代一个历久弥新的研究课题。网络大数据的产生与网络用户数量爆炸式增长有着密切关系,同时人们将更多的生活行为从现实空间转移到网络空间,符号社交网络中包含的大量用户数据信息值得被挖掘发现。用户关系不仅是社交网络结构的直观反映,而且是信息数据在社交网络中的流通路径,因此研究用户关系对于社交网络的发展和相关在线应用都具有积极的意义。但是当前符号社交网络中用户间负关系的发现是一个研究相对不足的方向,相比于正关系,负关系在社交网络中依然具有举足轻重的作用,因此本文重点关注了符号社交网络中负关系信息的挖掘。大数据时代,实体之间的关系网络不再是单纯的用户之间的关系,人与人、物与物、人与物等复杂关系的混合已然是当前信息网络的本质特征,而且网络维度也在不断加大。这对于数据挖掘提出了新的挑战,并且给人工智能相关数据分析领域也带来了不确定性。本文从社交网络的研究拓展到一般信息数据网络,通过研究高维复杂数据网络的嵌入,实现了信息网络的低维表示。显然,随着信息数据的持续增长,网络嵌入对于当前大数据研究具有迫切的学术意义和应用价值。本文立足于信息网络中的数据挖掘,重点研究了符号网络中用户之间负关系的预测以及信息网络的嵌入表示。本文主要研究内容以及创新之处具体如下:(1)基于符号社交网络拓扑预测不信任关系社交媒介服务的快速增长带来了巨量的社交数据,大量有价值信息值得被挖掘发现。在社交网络的研究中,用户之间关系的发现吸引了众多研究学者的关注,这是因为用户关系的发现不仅可以辅助许多在线应用,而且可以通过用户关系预测社交数据的流向以及分析社会舆情。但是,当前大部分研究集中在社交网络中信任关系的预测,不信任关系的发现并没有得到同等程度的重视。不信任关系的发现其实具有重要的现实意义,其不仅可以帮助用户避免网络欺诈同时还能帮助发现社会或家庭成员之间的信任危机。相比于信任关系的预测,不信任预测同时也面临更多困难和挑战,例如不信任关系在社交网络中更加稀疏,用户间负面交互数据非常少。针对这些问题,本文只从网络拓扑结构挖掘用户之间不信任关系的潜在因子,不再依赖用户间的交互数据,并且结合了机器学习分类算法和最优化理论提出了一个半监督的不信任预测模型。最后本文在真实数据上验证了提出算法的有效性。(2)符号社交网络中负链路的非监督预测符号社交网络中结点之间的关系复杂多样,这些关系链路大致可分为两类:正链路和负链路。链路类型的正负不仅对应结点对(Node pairs)之间的关系属性而且可以在一定程度上反映结点在社交网络中的地位属性和结构特征,所以链路预测对于社会学的研究也有重要意义。由于社交网络中用户间交互数据中负面表达非常少,其次社交媒介数据总是有大量噪音,并且是不完整和快速动态变化的,因此本文继续致力于基于网络拓扑结构的负链路预测。本文以投影非负矩阵分解为基础提出了一个非监督的负链路预测模型,该模型通过保存一个低维的投影算子将网络结构信息和结点对属性嵌入在统一空间中,实现了结点之间负关系的预测。在实验验证阶段,本文提出的算法模型在真实社交网络数据上预测负链路时表现出了不错的性能。(3)基于生成对抗网络的网络嵌入研究将高维的网络数据嵌入在低维空间已经被证明在很多应用领域取得了成功,例如社区发现、结点分类、链接预测以及网络可视化。但是如何高效地将高维网络低维表示,一直是当前的一个研究热点。这不仅在于随着数据的海量增加,导致网络结构异常庞大复杂,而且在大数据网络中结点之间链接非常稀疏,对于提取网络特征信息也增加了难度。由于生成对抗网络模型在特征信息提取时的良好性能,本文提出了一个基于生成对抗网络学习网络嵌入的架构。提出的架构中不仅有生成器和辨别器之间的零和博弈,还在生成对抗网络中加入了一个调节器。通过辨别器和调节器共同对生成器的不断校准,不仅能将高维网络的结构信息嵌入在低维表示中还能将网络结点之间的关系属性融合在每一个结点的低维表示中,从而提高了低维表示在应用领域中的表现性能。实验结果表明,本文提出的算法在相关应用任务中与传统先进算法的性能相比具有良好的竞争力。(4)基于嵌套的生成对抗网络学习的网络嵌入在当前大部分网络嵌入的研究中更多考虑网络结点之间的结构信息,但是很少考虑到网络中结点自身的属性数据。一个良好的网络嵌入算法不仅要实现对复杂数据网络的降维,同时还要尽可能的保存原始网络中包含的潜在数据信息。本文提出了一种新的生成对抗网络结构,通过将生成对抗网络以一种嵌套递进的方式组合,实现了高维网络的低维嵌入并且在嵌入的过程中逐级加入结点属性信息。最终在真实数据上验证了提出的算法模型,其嵌入的低维表示在不同应用任务中表现出了不错的性能。综上所述,本文采用了机器学习、深度学习和投影非负分解等方法实现了信息网络的相关研究。虽然本文提出的算法模型在某些应用中具有一定的研究和应用价值,但是面对当前数据的复杂快速变化某些技术还需要进一步研究改进。