增量式大规模社交网络分析关键技术研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:chairy01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术以及社交网络媒体在多种设备(计算机、手机、i Pad等)上的迅速发展,在线社交网络已成为人们交友、分享消息和获取资源等的重要渠道,成为人们生活中不可缺少的一部分。大规模数据持续不断的产生,给社交网络挖掘和分析工作带来了前所未有的机遇和挑战。本论文结合社交网络分析、图计算、概率论和增量式计算的前沿理论和技术,对增量式大规模的社交网络分析关键技术展开了研究。针对大规模社交网络的拓扑结构分析和相关应用研究,本论文分别提出增量式的处理模型和算法,试图根据不断产生的新数据增量式地更新上一时刻的分析或预测的结果,并达到精度与效率的平衡。本论文的主要工作和创新点如下:(1)大规模社交网络中时间子图采样计数研究社交网络中交互数据包含丰富的时间信息,因此,可建模为边上带有时间戳的网络结构,即时间网络或时间图(temporal graph)。进一步地,动态、增量式的社交网络流数据可以建模为时间网络流(temporal graph streams),即以数据流形式呈现的时间图。本文研究大规模时间网络和时间网络流中时间子图(temporal motif)近似计数问题。时间子图不仅考虑了子图的拓扑结构,还考虑了边的顺序、以及子图的时间间隔。因此,传统网络中只考虑拓扑结构的子图近似计数方法不能直接用于处理时间网络。另外,现有的时间子图近似计数方法效率不高,尤其是在大规模时间网络中。因此,本文试图提出高效的时间子图采样计数方法。针对任意时间子图,本文首先提出一种通用的边采样(ES)算法,估算该时间子图在整个时间图中出现的次数。其次,针对3个顶点和3条边的时间子图(通常用来刻画网络结构的一类重要子图模式),结合边采样和楔形(即两条边的路径)采样,提出一种改进的EWS算法。然后,针对大规模、增量式的时间网络流数据,通过改进上述ES和EWS算法,分别提出增量式(流式)时间子图计数SES和SEWS算法。结合概率论等知识,本文从期望、方差以及时间复杂度三个方面,对提出的算法进行全面的理论分析。最后,在多个真实的社交网络数据集上的实验结果表明,本文算法比现有的时间子图采样计数方法精度更高、效率更高、可扩展性更好。(2)大规模社交网络中增量式组水平流行度预测信息的流行度是指其在传播中获得的关注数目,例如,转发数目、观看数目、点赞数目等。流行度预测则是根据信息的早期传播情况(包括时间特征、传播路径特征、用户特征等),提前预测该信息在将来可以获得的关注度。在线社交网络中,信息传播是随时间不断动态演化的,而传统静态的流行度预测方法不能体现信息传播动态演化的本质。因此,增量式流行度预测的研究是必要且亟需探索的问题。另外,通过调研发现,相较于宏观(群体水平)和微观(用户水平)的流行度预测,用户组水平的流行度预测计算成本小,并且能获取更细粒度的预测结果,是一个有前景的研究方向。因此,本文提出增量式组水平流行度预测问题。然后,基于增量式CANDECOMP/PARAFCAC(CP)张量分解技术,提出一个新颖的增量式组水平流行度预测模型。最后,在两个真实的社交网络数据集上的实验结果表明,在预测精度和计算效率方面,所提模型都优于其它的流行度预测算法。(3)大规模社交网络中增量式CP分解的累积误差研究基于增量式研究在社交网络分析中的必要性,结合增量式CP分解在增量式挖掘大规模、多维度、动态变化的数据之间隐藏信息方面的效率优势,本文致力于探索推广增量式CP分解在社交网络分析中的应用。尽管增量式CP分解是高效的,但在实际应用中,随着新数据的增加,增量式CP分解存在严重的误差累积问题。针对这一问题,本文首先深入分析其产生的误差类型(可分为累积重构误差和预测误差),以及误差产生的根本原因。其次,基于上述两类误差,将本文目标“减少增量式算法的累积误差并保持其效率”,转化为两个优化问题。然后,根据不同类型误差的特征、实际应用的需求、大规模动态变化数据的特点等,分别提出几种重启策略解决这两个优化问题。最后,在两个典型的动态社交网络应用——动态网络重构和动态链接预测中,验证本文算法的效果。并且,从理论分析和应用实验中总结一些发现,为推广增量式CP分解在社交网络分析中的应用提供具有参考价值的建议。
其他文献
随着纳米科技的不断发展,表面等离激元已经形成了自己独有的研究领域。由于纳米团簇等离激元研究中的金属表面自由电子会和光发生耦合,这一特性可被用于引导、聚焦、和操纵光,因此等离激元被广泛应用于生物医学、纳米传感、新能源、隐形材料、和催化等众多领域。金属纳米团簇中掺入杂质的方式为调节电子激发提供了一种潜在的有效途径。近期,Nayyar等人在缺少对掺杂金原子链做诱导电荷密度分析的情况下,预测金属原子结构中
同题诗词创作是中国古代诗词创作史上一种重要的创作现象。无论是从社会、文化的发展,还是文人心理的角度来看,同题诗词创作现象的产生都是必然的。其中同时代同题诗词创作活动是中国古代文人重要的交往手段,异代同题创作推动了中国诗歌艺术发展,有利于中国古代文化传统的形成,促进了文学评论的发展,也对诗词文学的传播起到了促进的效果。本文以创作现象为研究中心,在对各时代同题诗词创作现象的归纳整理的基础上,对同题诗词
从国家治理现代化所涵盖的国家治理体系与国家治理能力的完善与提升的二维面向来审视,行政法规范体系是国家治理体系的重要构成元素,是进一步提升国家治理能力现代化的基础法律保障,其中依法行政与公正司法是核心与关键,而行政诉讼正是联通两者的桥梁与纽带。在推进国家治理现代化的这一时代要求下,发挥行政诉讼的价值功能已被提升到国家治理层面。为此,2015年5月1日《中华人民共和国行政诉讼法》(以下简称新法)将“解
手性硼酸酯是一类重要的化合物,因为其能发生一系列立体专一性的转化得到官能团化的手性化合物。因此发展有效方法来制备手性有机硼酸酯一直是有机化学领域研究的热点。过渡金属催化的烯烃不对称硼氢化是高效合成手性烷基硼酸酯的方法之一,但已有的研究大多集中于含配位基团的富电子烯烃以及苯乙烯类化合物的不对称硼氢化,而贫电子烯烃的不对称硼氢化目前研究相对较少。该类反应的难点在于共轭还原产物的竞争。如α,β-不饱和羰
沙尘暴和台风是常年影响我国的主要强风灾害,每年给环境、建筑和交通等领域的各类基础设施带来难以估量的损失。然而,目前我国对建筑结构抗风的研究主要集中于东南沿海地区强/台风对建筑物的影响,对于西北风沙地区的建筑抗风沙研究则很少,尤其是对风沙或沙尘暴发生时的风沙流场特性和风沙对建筑物的作用规律尚未形成深刻认识。为此,本文采取现场原型实测和风沙风洞试验相结合的研究方法,开展了典型沙漠地区的近地面风场、风沙
创新是现有思想的重新组合或者产生的新思想,以及与之密切相关的新程序、新产品等。自主创新强调的是一国居民对创新的控制能力,而不是传统意义上的“土著”所暗示的“土生土长”。例如,中国使用“自主创新”一词来表示“源自中国的创新”。创新越来越被认为是发达经济体和发展中经济体经济增长的基石。因此,创新已经成为经济增长的主要动力来源。本研究旨在从理论与实践层面研究创新与发展中经济体增长之间的辩证关系。本研究的
金属纳米多层膜中高密度界面及多变的组元类型赋予了其优异的力学、摩擦学及扩散阻挡等性能,在超硬、耐磨、耐高温及扩散阻挡层等方面应用前景广泛。目前,交替沉积法是制备金属纳米多层膜的常用方法,获得的多层膜大多由不同种类的纯金属子层交替堆垛而成,其界面结构及成分过渡突兀,故制约了其塑韧性及热稳定性等。本文提供了另一种制备金属纳米多层膜的新思路,即采用常用于制备混合膜的共沉积法获得了金属纳米多层膜,该制备过
有机自由基由于具有弱成键或未配对电子,展示出独特的光、电、磁特性,在热电材料、能量存储材料、有机场效应晶体管、有机自旋电子器件等多个研究领域展现出了巨大的潜在应用前景。本文立足于扭曲或螺旋共轭骨架,发展了基于扭曲苝核的共轭分子和开壳自由基体系,研究了分子构型与电子结构之间的关系,以及随之带来的光学、自由基性质和磁学响应特征。本文主要的研究内容如下所示:1.设计合成了四重螺烯四自由基分子TBCP,并
现代半导体技术推动着人类社会飞速发展,同时来自不同领域的需求也刺激着研究人员开发各种新功能半导体材料。先进的实验仪器和高性能理论计算相结合使得定向地研发新型半导体材料越来越得心应手,各种新材料相继问世。关于半导体中缺陷性质的实验和理论研究也随之涌现,但是对于缺陷与材料之间相互作用的理解还有一些尚未明晰的点:1)如何理解器件从三维向二维的转变过程中,电极金属原子在半导体中扩散行为的变化;2)Cu原子
随着工业废水和生活污水的大量排放,使污水处理过程不可避免地产生了大量污泥。此外,部分污水的直接排放使其中污染物逐渐富集于河道底泥,而目前解决河道污染底泥最有效手段是环保疏浚,但该举措的广泛应用产生了大量疏浚底泥。污泥和疏浚底泥中不仅含有毒物质,而且其体积大、含水率高、脱水性差,若不予以正确处理与处置,将对环境造成二次污染。因此,开发高效环保的污泥和疏浚底泥脱水减量技术刻不容缓。基于此,本文主要研究