社交网络中用户影响力及个性化排名相关技术研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:canyang419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络正在成为人类社会关系维系及信息传播的重要渠道和载体,有关社交网络理论和关键技术的研究,对于社会发展以及商业服务应用都有着实际的应用价值。用户影响力分析作为社交网络分析的关键内容之一,在诸多领域有着广泛的应用,如推荐系统、广告投放、链路预测和实时事件异常检测等。微博作为社交网络的一种重要媒介,凭借其即时发布、实时传播、简便易用的特点逐渐成为最为主流的社交网络平台。用户影响力评价是微博社交网络中基本而又重要的问题,它对于优化与推动社会信息传播来说有着重要意义。面对大规模的微博用户群体,微博用户的影响力作为其基本特征吸引了广大学者对此进行研究。在社交网络中,个性化排名是指基于网络链接结构以及用户的个性化偏好对网络节点进行重要性排名。社交网络中的个性化排名技术对于垃圾链接检测、朋友推荐、精准营销、社区发现等都有重要的研究意义。同时,在现实生活中,在线社交媒体FaceBook、Twitter等这些网络结构不仅规模巨大,而且持续地动态更新。因此,对于具有实时性的个性化排名技术需要有效地应对不断变化的网络结构,设计出弹性可扩展的动态更新算法。本文主要围绕社交网络中用户影响力与个性化排名两个问题展开分析与研究,主要贡献如下:(1)本文首先分析了微博网络中用户质量存在差异,针对PageRank算法在迭代过程中平均分配权值不够合理的问题,引入用户相对质量概念。同时,综合考虑用户微博评论率、转发率、是否微博认证等用户特征。(2)面对大规模的用户数据,合理有效的并行化处理显得尤为重要。本文结合MapReduce并行编程环境,设计基于PageRank的用户影响力排名算法。在Hadoop平台下,对比实验结果表明本文提出的QRank算法具有良好的可扩展性,能够有效结合微博用户关系网络与行为特性,从而更加真实与充分地反映用户的实际影响力。(3)对于个性化排名技术,本文首先分析个性化PageRank算法的本地更新方法。为了分析动态网络结构下算法的复杂度问题,引入随机边有序到达动态模型。基于本地更新的思想,本文先给出加入残余概率优先级队列的PriorityPush算法,并提出适用于动态网络结构的DynamicPriorityPush算法。基于随机边有序到达动态模型,给出了该算法详细的复杂度分析,并通过实验验证该算法的有效性与准确性。(4)实验结果表明,DynamicPriorityPush算法1秒钟可以实时追踪近400条边变化,在WikiTalk数据集上追踪单条边删除变化,该算法的更新时间仅需390us。实验结果验证了当插入的边的规模不断增长时,算法总的运行时间与边的规模基本成线性关系,对于k条变化的边,算法的平均时间复杂度为O(d/ε+k+k/(nε)),摊还分析可知对于每一条边变化,该算法的分摊时间复杂度为O(1/ε)。同时,实验结果验证了该动态算法能够在保证正确性的同时,运行效率均优于其余两种方法:对比每次边插入后重新运行的PriorityPush from scratch方法,本文算法具有23-114倍的加速,对比蒙特卡洛方法,在所有数据集上算法均达到上百倍的加速,最高可达455倍。
其他文献
本文主要研究了数据包分类算法,以及数据包分类在入侵检测工具Snort和基于状态包分类的数据流检测中的应用。网络技术的飞速发展,给人们的社会生活带来很大便利。然而,网络用户
语音作为人们交流和表达情感的一种重要媒介,在日常生活中却总是受到噪声的干扰,因此我们需要对混入背景噪声的干净语音进行语音增强。语音增强算法的最终目标就是对背景噪声
软件缺陷是软件的固有属性,其主要危害是影响软件的可靠性、增加开发成本以及延长软件开发周期。软件测试可以及时发现软件错误,提高软件系统可靠性。而准确地预测软件缺陷,对改
RESTful Web服务作为一种轻量级的Web服务实现,近年来在云计算环境中得到了广泛的应用。然而基于HTTP协议的RESTful Web服务无法支持异步交互,在多参与者业务流程中执行效率不
随着全球信息化和智能化的推进,人工智能已经渗透到各行各业,模糊推理成为其中非常活跃的研究方向之一。围绕经典模糊规则和模糊推理算法的研究已有许多成果,但经典模糊规则不能
Flash动画作为一种重要的动画形式通过网络和其它各种媒体已经越来越多的深入到人们的生活当中。但是通过分析国内外大量Flash动画作品,发现Flash动画作品的设计和制作技术良
随着社会的进步,互联网逐渐成为人们表达舆论的又一个重要平台。网络具有传播迅速、用户匿名等诸多特性,由于这些特点,一方面,网络对社会舆论起到了很好的监督作用,但另一方
P3P隐私偏好平台主要被用于在用户访问网站时保护用户的隐私,它提供了基于XML的策略描述语言,使得网站可以以一种机器可读的方式描述它们的数据收集的范围以及使用的方式。但是
随着计算机网络的发展,应用的不断深入,云计算被提出,并成为当今计算机领域最热的研究领域之一。Hadoop是一种云计算框架,适用于大规模数据集计算。在Hadoop中,用户提交的作业被分
随着信息技术的发展,企业的数据资源呈爆炸式的增长,传统的企业竞争情报系统在数据分析处理中的不足日渐突出。数据挖掘技术的兴起为竞争情报系统的发展提供了新的动力。文本聚