基于社交媒体用户的隐藏属性推断及聚类分析研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:BBQChris
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的飞速发展,社交媒体传播迅速,其影响力不可同日而语。在人工智能的帮助下,可以深入的了解社交媒体用户个人和群体的基本信息。通过挖掘社交媒体用户的潜在行为模式和基本特征,为政府部门提供多方面和个性化的决策支持,并解决实际存在的现实问题已经成为当今学术界和工业界共同关注的热门话题。但目前的研究没有考虑到社交媒体的复杂性,仅靠单一的博文信息和传统模型并不能充分刻画用户隐藏属性,从而导致用户隐藏属性分析和用户兴趣挖掘模型效果不理想。为此,本文通过引入基于多特征的社交媒体用户隐藏属性分析模型和社交媒体用户兴趣挖掘方法来解决以上问题,并展开了基于微博平台的用户年龄、用户性别和用户兴趣三类用户隐藏属性的研究工作。本文的主要工作包括:第一,针对现有的用户隐藏属性分析方法使用的用户信息比较单一,采用的模型较为传统,导致用户隐藏属性分析精度低的问题。本文主要针对用户年龄和用户性别两类用户隐藏属性展开研究。本文在构建出微博用户多特征体系的基础上,对Stacking模型进行改进。首先通过Word2vec模型从微博文本数据中构造出文本特征;然后从微博用户数据中构造出用于微博隐藏属性分析的基础特征,并通过基础特征构造出符合微博用户的复合特征;最后采用改进的三层Stacking模型构造出微博用户隐藏属性分析模型。通过对新浪微博数据集上的实验结果表明,本方法可以有效提高微博用户隐藏属性分析的效果。第二,为了更准确的挖掘社交媒体用户的兴趣,本文以微博平台为例对微博用户文本进行LDA主题模型聚类,从而获取了适用于用户兴趣挖掘的主题特征。在此基础上结合用户微博信息特征和用户个人特征,并利用XGBoost算法构建用户兴趣挖掘模型。通过对新浪微博数据集上的实验表明,本方法可以提高用户兴趣挖掘的效果。第三,本文使用Django框架对上述模型进行了原型系统的设计和实现,在此基础上还加入了微博爬虫功能实现微博用户数据的实时获取,最终以Web页面的方式为用户展示微博用户隐藏属性的分析结果。
其他文献
本文以武汉船舶职业技术学院数控技术专业为例,阐述了对产教融合机制建设、培养体系创新、教师团队和教学资源建设、教学模式改革等问题的创新与实践,为高职装备制造类专业的
自我概念是国际20世纪60年代以来有关自我问题研究的核心课题。研究者在自我概念结构方面的提法不尽一致,但各种观点的相容与共通性很高。20世纪80年代后,由于Harttie(提出了多
工学结合是提升职业教育中专业技能类课程教学质量的重要手段,本文以《网络营销》课程诊改为例,通过引入1+X证书,课证融合,有效解决了课程教学中工学结合手段不足的问题,取得
<正>在当前独生子女家庭越来越多的背景下,家人溺爱的行为使得许多幼儿出现了任性行为,如果不加纠正,会对他们的人生发展带来不利影响。本文从幼儿任性行为视角出发,对其基本
会议
土壤盐渍化和干旱沙质化是造成农作物减产的两大全球性非生物胁迫因素。当植物遭受到高盐、干旱和极端温度等非生物胁迫时,植物体内原有的代谢调控系统被打破,以响应胁迫因素