针对社交网络表示学习的图采样设计

来源 :吉林大学 | 被引量 : 0次 | 上传用户:absyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着硬件计算能力的升级,人们现在已经习惯于分析原始数据集而不是抽样得到的小样本数据集。在这样的背景下,复杂网络的大规模分析形成常规。其中,网络表示算法可以将非结构化的网络连接数据转化为结构化的向量数据,使得复杂网络上的经典任务可以使用机器学习的方法解决。然而复杂网络的庞大数量级为实际应用造成了许多难点,因此,如何设计成本低的网络表示算法应用场景依旧是研究的重点。互联网背景下的社交网络存在广泛,应用众多,并且是典型的具有庞大数量级的复杂网络。因此,对社交网络表示学习进行降低成本的流程设计具有重要的现实意义。本文通过设计图采样,探寻降低社交网络表示学习算法运算成本的思路。主要研究内容如下:首先,用文献分析找出图采样应该关注的子图特征。用机器学习决策树特征选择检验以上的子图特征。然后根据子图特征设计相对可控的图采样方法包括:生成树,带参数的随机游走采样,倒排节点度数列表的固定变长/滑动窗口采样法。并使用社交网络的“优先连接原则”的特征,改进倒排节点度数列表的滑动窗口采样法,直接对每个窗口内生成的子图边数进行估算。其次,设计将图采样与网络表示学习结合起来的流程,设计子图节点向量表示计算得到全图节点向量表示的重心法。以只需要网络结构信息的链接预测作为下游任务。之后,在随机图以及真实网络数据集上用该流程进一步考察图采样中的其他特征,包括:“最佳边数”,前期实验未验证的高度数节点,以及上文所设计的根据社交网络的“优先连接原则”特征估算边数的改进方案。其中,第一项首先在真实数据集的实验过程中发现,后用随机图进行分析验证;第二项在随机图上进行;最后一项在4个真实网络数据集上进行。最后,以一个真实网络数据集为例,展示如何使用设计的图采样方法迅速找到适用的子图。说明在实际中,不需要使得采样的子图边数达到“最佳边数”,用较少的边在一些简单任务如“链接预测”中也能够得到很好的效果。本文的主要贡献以及创新点有:(1)提出了一个将图采样和社交网络表示学习结合起来的框架。包含图采样方法的设计,子图节点向量表示为全图节点向量的重心法。(2)验证了“高边数,高平均度数”的采样子图能得到好的全图网络表示。(3)提出了“最佳边数”。随机图上的结果表示,图密度越高,“最佳边数”占边数的比率越低。(4)在4个真实数据集上验证了,“优先连接法则”可以较准确地估计子图的边数。从而在设计针对社交网络或是其他无标度网络表示学习的图采样时,用节点度数估算得到边数能够有效降低在图上查找计算边数的成本。(5)提出了在规定成本内,使用设计的改进版倒排节点度数列表滑动窗口采样可迅速得到适用的子图的步骤。本文的设计和结论不局限于社交网络。用图采样帮助降低网络表示学习的成本的设计可容易地拓展到其他网络。其中,“高边数”适用于所有的以边连接信息为直接或隐含输入的网络表示算法,即是大部分流行的网络表示算法,不局限与本文所使用的LINE算法,“多采用高度数节点”,以及用“’优先连接法则’估算子图边数”可容易地拓展到其他无标度网络上。
其他文献
随着大数据时代的到来,数据具有特征维度高、数据规模大、非线性可分等特点。为了解决这些问题,本文在字典学习和核方法的基础上对图像分类问题进行了深入的研究。利用字典学
模糊数序列收敛理论的研究是模糊分析学的重要组成部分.众多学者对模糊数序列收敛问题展开研究,得到了许多极为深刻的结论.本文基于形式化语义方法,对模糊数及其商空间中的序
目的:雌激素在阿尔茨海默病(Alzheimer’s Disease,AD)中发挥保护作用,但绝经晚期开始的雌激素替代疗法(Estrogen replacement therapy,ERT)是无效的。本研究采用丙戊酸钠(Va
本文介绍了面板数据的常见类型和最新发展的个体异质且横截面相关下适用的共同相关效应(common correlated effects,CCE)估计,并介绍了基于共同相关效应估计的面板单位根检验
生命表又名死亡率表,是人们根据大数法则,同时运用概率论与数理统计方法,记录一定数量的被观察者自出生(一定年龄)到全部死亡(一定年龄)时间段的生存和死亡情况,并以一定方式
词汇学习在高中英语学习中占有重要地位。但是现有的高中词汇学习方法还不够有效。目前,词汇附带学习已经引起了研究者和教师的广泛关注。许多研究证明,附带词汇学习,尤其是
体育运动学校是为国家培养具有体育专项技能人才的基地。随着社会对竞技体育水平的要求不断提高,使体育学校对体育人才的培养产生了一定的误解,认为只要体育技能突出即可,文
台湾何创时艺术基金会所藏傅山《啬庐妙翰》,被该艺术基金会认为是傅山最具代表性的一件作品,甚至认为是傅山最好的一件作品。但就是这样一件伟大的作品,迄今都没有完整的释
陕北洛川塬地区地域文化深厚,吸引众多画家进行相关题材艺术创作。在新的历史条件下,本文以洛川塬题材进行主题创作,试图进行新的意义探索。首先,研究地域、文化性差异对洛川
结合参数回归模型和非参数回归模型的诸多优点,统计学家们提出了半参数回归模型。对于简单的半参数回归模型:国内外学者做了大量的研究,当随机误差序列{(?)}为不同类型的时候