基于主题模型和融合相似度的微博推荐算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:skoda0412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息多样化的今天,网络社交媒体发得到快速发展。结交更多朋友、了解更多有趣的话题是当下人们对社交网络媒体的主要需求。新浪微博作为一种新型的网络媒体形式,日渐成为人们分享日常生活和获取实时新闻的主要平台。在微博数据中有很多可利用的信息,现阶段的微博用户只局限于接收自己关注的信息,而其他有热度的话题和或可能感兴趣的话题内容得不到主动的推送。因此,如何推荐此类信息成为微博研究的一个重要方向。微博数据文本内容较短,语义信息匮乏,具有很高的稀疏性,传统主题模型无法充分提取有用的信息。又因传统的微博推荐并没有将时间等因素和相似度进行融合考虑,所以推荐准确度比较低。针对这些问题,本文主要从以下两个方面对微博推荐进行改进:(1)针对直接利用LDA模型构建微博用户模型时,存在微博文本长度较短、语义信息缺乏影响主题建模效果,本文提出一种基于用户评论的模型UCLDA,该模型将用户的评论和用户历史微博文本进行整合,对微博短文本的特征进行扩展,缓解了微博本文作为短文本特征稀疏的问题,随后对文本特征进行数据建模,得到其主题词分布,并使用加权K-Means的计算方式得到微博话题簇。该模型通过爬虫获得的微博数据作为数据集进行实验测试,按照一定比例选取不同的训练集和测试集,进行了K次不同的实验,通过对基于UCLDA、LDA以及BTM的聚类算法进行对比试验,验证了基于UCLDA和加权K-Means的方法对热点话题发现的准确性和有效性有了提高。(2)针对UCLDA主题模型无法结合用户对于微博话题偏好的时效性等问题,本文提出了一种融合相似度算法。首先确定新用户的微博主题对应微博话题簇中的哪一个,然后根据不同微博内容潜在属性互相交替的可能,通过对用户的行为、微博的内容、微博话题的命名进行相似度计算分析,结合外部环境的影响,赋予三者相同的权重因子,计算其相似度。该模型同样以微博数据集作为实验数据,与传统的基于相似度的推荐算法进行对比实验,实验结果表明,实际值准确度明显低于将三者属性融合之后得到的相似度结果。这种算法既深刻考量了时间热点效应,又把热门热搜话题和冷门话题效应对推荐结果的影响进行了提升。
其他文献
收入分配涉及激励和动力机制问题,科技人员的激励问题对于实施创新驱动发展战略尤其重要。分析《中国科技统计年鉴》2003—2011年的数据,采用极值差、极值比、基尼系数等3个
人为差错是影响飞机维修质量的主要因素。本文从维修者自身、管理以及环境干扰等方面分析了人为差错产生的原因,并针对存在的问题提出相应的措施办法,为提高飞机维修质量,确
目的通过临床研究,观察归肾丸加桃红四物汤联合雌孕激素人工周期对宫腔粘连分离术后肾虚血瘀证患者的子宫动脉搏动指数、子宫动脉阻力指数、子宫内膜厚度、宫腔粘连评分和中医证候的改变,探讨补肾活血药物对宫腔粘连分离术后内膜修复的临床疗效,为预防再粘连的治疗措施提供新思路。方法选择2019年2月-2019年11月就诊于福建中医药大学附属人民医院的门诊和住院宫腔粘连患者60例,中医诊断为肾虚血瘀型月经过少病,符
<正>尽管当下个人投资理财渠道正日益增多,但银行理财仍然是很多投资者最重要的投资渠道,尤其对于风险偏好低的投资者而言,更是如此。因此,面临银行理财子公司成立后银行理财
【背景】酪蛋白激酶2相互作用蛋白1(The casein kinase 2 interacting protein-1,CKIP-1)基因具有高度保守性,在绝大多数成人和胚胎组织中均有表达。其翻译蛋白是调节亚细胞
岩石矿物分析化验是我国提高矿产资源利用率的有效方式之一,借助于科学合理的岩石矿物分析化验,能够为之后的工作提供准确的数据作为支持。本篇文章简要介绍了岩石矿物类型,
北京航空航天大学金融研究中心常务副主任王福重日前发表文章表示,经验表明,货币政策有3-6个月的时滞。加息是一种直接的,甚至激烈的手段。加息的由之一是,由于CPI居高不下,银行的
建立格列本脲HPLC分析方法,采用《中国药典》2010年版规定的方法进行溶出度检查。结果发现,不同厂家生产的格列本脲片溶出度符合《中国药典》2010年版有关规定,但溶出行为存