论文部分内容阅读
微博作为当前最流行的网络社交媒体之一,已经成为人们实时分享、交流、获取和传播信息的重要平台,每天有上亿用户在微博平台上进行社交活动。通过了解用户的年龄信息,能够更详细地分析微博上不同人群的特点,更深入地挖掘微博内容,从而获得用户产生的海量数据背后所蕴含的巨大价值。然而,绝大部分微博用户并没有年龄信息,不仅如此,随着微博API平台的关闭,微博数据的获取越来越困难,这就给以往通过微博用户的全部资料分析用户年龄信息的研究带来了极大的挑战。本文研究的目的在于在仅依赖微博文本的情况下,构建用户年龄范围的自动识别模型,并将模型应用于微博用户年龄范围的识别,以此分析微博平台上不同年龄段用户群体的特性。本文从新浪微博上人工标注了5466个用户作为模型的训练样本、选择了95万用户作为微博用户群体的后期分析样本,采用机器学习中的方法对数据进行试验和分析。本文的研究内容主要包括以下两个方面:第一,基于用户的微博文本,构建用户年龄范围自动识别模型。本文以人工标注的方式选取了5466个有年龄信息的用户,获取了他们的微博信息。以微博中词语的使用、表情符号、标点符号等为属性特征,采用四种机器学习的方法对用户的年龄段进行自动识别,比较各分类模型的结果,最终得出以逻辑回归算法得到的识别模型效果最佳。第二,分析微博上不同年龄段用户群体的特点。本文从新浪微博上选取了95万个用户并获取了他们的微博文本,利用之前得到的年龄段自动识别模型对这些用户所处的年龄阶段进行识别。然后,根据用户的年龄信息,从用户的年龄分布情况、活跃时间、“社交圈”规模以及微博中讨论的话题这四个方面,分析比较了不同年龄范围用户群体的特点。本文构建的微博用户年龄范围自动识别模型,具有较强的可移植性,能够平移到其他社交网络平台的用户年龄研究。此外,对微博上不同年龄范围用户的特性分析在政治、经济和法律方面都很多价值,也能够为其他基于微博的研究提供用户的年龄信息。