基于微博大数据的社交网络用户画像研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:woaizhmx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0互联网产品模式的兴起,具有交互、开放、分享等特性的社交产品得到了普及。微博作为一个集创造、传播及分享信息于一体的平台,成为当代人们发表言论,分享信息,获取资源必不可少的工具。然而,随着微博用户数量的不断增加,用户的兴趣和行为也变得更加碎片化,为了使微博精准的了解用户行为模式、聚焦服务对象,本文通过使用新浪微博API获取用户在微博社交平台上产生的一系列数据,从三个维度上构建用户画像模型,包括用户兴趣维度、用户社交维度和用户行为维度,具体如下:  1.用户兴趣维度。用户兴趣关键词的提取分为三步:用户微博兴趣领域的划分、内容主题词的抽取以及基于社交关系的兴趣关键词提取。针对用户微博兴趣领域的划分提出使用FastText模型按粗细粒度进行两级领域的划分,并根据投票规则确定用户兴趣领域。在内容主题词的抽取方面提出一种改进的TextRank算法进行关键词的抽取。针对基于社交关系的兴趣关键词提取提出改进的标签传播算法与LDA模型相融合的方法确定兴趣标签及权值,同时为标签设置时间衰减函数,使标签权值随时间推移而发生改变。实验证明基于以上改进的算法提取兴趣标签具有更好的效果。  2.用户社交维度。在社交网络中为了发掘持续推送优质博文的专家账号,根据从用户原创微博内容提取的各领域兴趣关键词作为标签词,在每个领域当中计算用户影响力,并基于用户关注-粉丝关系构建社交图谱,使用改进PageRank算法迭代计算用户能力权值,发掘权值最大者作为该领域的专家账号。实验结果表明相较于改进之前,该算法具有更好的专家账号预测能力。  3.用户行为维度。每个新用户从注册到成熟都是一个积累的过程,为了了解用户行为模式以便于账号培养,将用户在此过程的一系列行为进行时间切片,统计各时间片上的行为数据以及用户的成长指标数据,即粉丝数。基于这些统计值的变化,利用相关性分析的方法得出与用户成长最为相关的行为因素。经过人工分析与验证,所取得的结果较为合理。
其他文献
随着科学技术的发展,知识共享、重用的需求,迫使人们对人类所共同拥有的知识、信息与数据进行本体重建和网络共享及计算机协助整合。地理知识、信息与数据是客观知识世界的重要
随着互联网技术的飞速发展,基于Web的电子商务、电子政务等各种应用系统在世界范围内迅速普及。网络活动甚至成为我们工作与生活中的重要组成部分。   网络技术与应用的百
移动自组网是由一组带有无线收发装置的移动节点组成的一个多跳的临时性无中心网络。在移动自组网中,节点一般采用电池的供电方式,电池的电量往往是有限的。由于无法像固定设备
多输入多输出MIMO技术可以提高频谱效率,被认为是未来无线通信系统的核心技术之一。如何有效利用MIMO提供的高带宽资源,是宽带无线通信系统面临的一个关键问题。与单输入单输出
万维网中资源通过超链接互联,而语义网中的资源通过语义关系互联。文档排序是现有搜索引擎的关键组成部分,在未来的带有语义分析的搜索引擎中,语义关系发现、预测、查询以及基于
在水果收获时,采摘是最为繁琐和劳动量最大、耗时最长的日常作业。由于采摘作业的复杂性,采摘自动化在国内外都是一项比较新颖又具有挑战性的课题。目前国内水果采摘作业基本都
植物的计算机模拟是计算机图形学在自然景物造型和植物生长仿真试验上的一项重要研究与应用。至今,已经有许多植物形态模拟的建模方法被提出,其中主要的方法包括基于几何参数的
随着计算机仿真技术的发展,仿真技术越来越多地被应用到工业生产与国防科学研究中。计算机科学与计算机图形学的发展,诞生了虚拟现实技术,这一技术彻底地把科研人员从枯燥的
在现代软件开发中,软件建模的重要性日渐提升。系统越大、越复杂,建模的重要性就越大。UML是用来对软件系统进行可视化建模的一种语言,UML建模工具是使用UML进行可视化建模的软
门户可以将各种异构应用和数据资源集成到同一用户界面下,并根据用户或角色的不同,形成个性化访问页面,进而实现信息的有效传递。门户作为信息集成与发布的有效手段已经获得了广