论文部分内容阅读
随着网络的飞速发展,社交媒体传播迅速,其影响力不可同日而语。在人工智能的帮助下,可以深入的了解社交媒体用户个人和群体的基本信息。通过挖掘社交媒体用户的潜在行为模式和基本特征,为政府部门提供多方面和个性化的决策支持,并解决实际存在的现实问题已经成为当今学术界和工业界共同关注的热门话题。但目前的研究没有考虑到社交媒体的复杂性,仅靠单一的博文信息和传统模型并不能充分刻画用户隐藏属性,从而导致用户隐藏属性分析和用户兴趣挖掘模型效果不理想。为此,本文通过引入基于多特征的社交媒体用户隐藏属性分析模型和社交媒体用户兴趣挖掘方法来解决以上问题,并展开了基于微博平台的用户年龄、用户性别和用户兴趣三类用户隐藏属性的研究工作。本文的主要工作包括:第一,针对现有的用户隐藏属性分析方法使用的用户信息比较单一,采用的模型较为传统,导致用户隐藏属性分析精度低的问题。本文主要针对用户年龄和用户性别两类用户隐藏属性展开研究。本文在构建出微博用户多特征体系的基础上,对Stacking模型进行改进。首先通过Word2vec模型从微博文本数据中构造出文本特征;然后从微博用户数据中构造出用于微博隐藏属性分析的基础特征,并通过基础特征构造出符合微博用户的复合特征;最后采用改进的三层Stacking模型构造出微博用户隐藏属性分析模型。通过对新浪微博数据集上的实验结果表明,本方法可以有效提高微博用户隐藏属性分析的效果。第二,为了更准确的挖掘社交媒体用户的兴趣,本文以微博平台为例对微博用户文本进行LDA主题模型聚类,从而获取了适用于用户兴趣挖掘的主题特征。在此基础上结合用户微博信息特征和用户个人特征,并利用XGBoost算法构建用户兴趣挖掘模型。通过对新浪微博数据集上的实验表明,本方法可以提高用户兴趣挖掘的效果。第三,本文使用Django框架对上述模型进行了原型系统的设计和实现,在此基础上还加入了微博爬虫功能实现微博用户数据的实时获取,最终以Web页面的方式为用户展示微博用户隐藏属性的分析结果。