基于Dirichlet非参模型的Beta-Possion分解研究微博转发

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yy695130028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交应用软件在如今人们的生活中变得越来越重要。微博作为其中的代表,它打通了陌生人交流的屏障,使亿万人在网络中自由交流。微博的用户数据量很可观,变成了研究用户行为的一个重要资源。在微博环境中,微博的转发属性是最能看出用户偏好的,因此研究微博转发很有意义。用户的偏好同时受很多种因素影响,本文主要研究用户的偏好受内容和作者共同影响。因为本文是在主题维度上进行研究,所以后续可以根据微博文本的主题来判断用户转发是受作者影响还是文本内容影响,这样就能够更加清楚微博的转发机制。同时可以得到用户的偏好。有了用户的偏好之后,可以对他未来的行为进行预测。对群体偏好的研究有着广泛的应用,比如总统大选时,来调查网上的民意。比如根据某一地区居民的偏好来判断是否要新建一所商场,这都是很有意义的。对微博转发问题的研究已有很多成熟的方法。比如F-FFM方法[1]和F-Diff方法[2]。前者结合了图方法,后者基于协同过滤方法。本文采用的基于Dirichlet非参模型的Beta-Possion模型在处理稀疏的非负的数据时有自己独特的优势,即解决负反馈问题。引入的非参模型可以对新样本的主题数进行自适应,从而解决过拟合的问题。很多学者利用一些传统的机器学习方法,比如Random Forest和FM方法解决这一问题。它们的主要思想就是把影响因子变成特征向量,是判别式模型。可是这些方法有局限性,比如不能解决负反馈问题和转发数据的稀疏性。在解决文本向量时也有局限。它们在对文本进行建模的时候,往往需要给文本一些假设条件。比如在特征化的时候,它们的维度都是需要提前给定的。无论是用LDA方法还是embedding方法,这种方法可以很好拟合旧数据,但是新的文本向量遇到新的主题维度的时候,就不能很好解释。针对这些问题,本文引入了基于Dirichlet非参模型的Beta-Possion模型。它的优势在于(1)针对负反馈以及数据稀疏的问题,提出了Beta-Possion分解模型。它只利用到正样本数据,这样就解决了负反馈的问题。(2)针对每一个新样本到来都需要计算所有参数及其维度的问题,采用了随机变分推断的方法。这个方法利用到指数族特性,已经证明可以节约计算时间。(3)针对样本数据量巨大,导致提前设置的主题数无法拟合新样本的问题,引入了Dirichlet非参模型。它可以自适应主题数,极大的利用了新样本数据。(4)为了判断用户转发微博是受内容还是作者影响,在Possion分解中引入了变量。它作为作者向量的权重,在所有参数收敛之后,用来观察用户转发的偏好。本文先讨论了微博转发的研究背景和实际意义,之后讨论了一些传统方法及其存在的缺点,然后在第二章介绍了概率图模型和它的求解方法。一个基于高斯分解的模型,并且介绍了Dirichlet过程以及它的非参特性,这将在第三章讲解我们的模型中至关重要。之后讨论了随机变分方法,它用来求解我们的模型。本文以微博转发数据作为数据集,即用户转发记录和微博文本内容。在测试集中预测用户转发的概率,以F1值和NDCG,m AP作为指标来评价模型。用F-FFM方法,F-Diff方法,和IBPF方法为参照基准来进行对比实验。从实验结果可以看出,本文采用的模型相比于IBPF方法在评价指标上分别提高了23%,2.6%,6%,相比于F-Diff方法在评价指标上分别提高了14.3%,7.3%和2.1%。而且通过观察变量,可以从主题维度解释本文模型在用户转发上确实受主题影响。
其他文献
无论是哪一种新媒体,只要出现都会引起营销变革,并深刻影响人类生活。微信的发展过程证实了这一点。微信不仅促使个人交流方式发生改变,还催生了新营销理念和模式。如今微信
文创产品是人们精神文化需求日益增长的产物,随着近几年国家的政策扶持,许多博物馆都越来越重视文创产品开发,其品类也从工艺品、生活日用品、服饰等有形产品向手机APP、游戏等无形产品转变。文创产品消费很大程度上还属于一种文化消费,好的文创设计注重的是消费者与产品之间的互动以提升用户体验感,更真实地展现产品背后的文化内涵,拉动博物馆文化创意产业的经济增长。本文以“酒语”系列契丹酒文化文创设计为主题,通过博
光热敏折变(Photo-Thermo-Refractive,PTR)玻璃是一种经紫外曝光并热处理后在玻璃内部可控析出Na F微晶的光学玻璃,生成的微晶与玻璃体有一定的折射率差,利用这一折射率调制特性制备的体布拉格光栅具有优异的光谱和角度选择性,在提升激光光束质量、降低激光系统体积以及稳定半导体激光器输出光谱等领域有着重要的应用。传统PTR玻璃为Si-Al-Na-Zn体系,这种体系的PTR玻璃高温粘
随着游戏市场的版权纠纷不断,版权认证成为一个亟待解决的问题。其中,对游戏人物原画的抄袭现象最为普遍,常见的抄袭类型分为创意抄袭和篡改抄袭两种。通过对大量游戏人物原画抄袭的研究,发现原画在抄袭过程中具有一些相对不变的特点:1)人物姿势相对不变;2)人物躯干区域相对不变;3)人物姿势关节点分布相对不变。现有的图像抄袭检测算法无法直接应用于游戏人物原画的抄袭检测,因为存在检测结果不够准确、无法适用于内容
随着社会经济的不断发展,消费者对水果品质的控制要求日益严格。我国水果总产量居于世界领先地位,而年出口量仅占3%左右,造成这种现象的重要原因是当前我国水果缺乏有效地分级,商品化处理水平低,导致果品参差不齐,无法有效地提高其市场价值与国际竞争力。本论文以浙江“云和”雪梨为研究对象,利用可见-近红外光谱技术(Visible-near infrared spectroscopy,Vis-NIRS)和化学计
YZ银行黑龙江直属支行成立于2010年,目前主要开办的信贷业务有个人消费信贷业务、个人商务贷款业务、小企业贷款业务、公司信贷等四大类。随着要解决民营企业融资问题的外部
黑素皮质素受体 3 和 4(melanocortin receptor 3 and 4,MC3R 和 MC4R)是黑素皮质素(MCR)家族的成员。MCR共有5种不同类型的同源受体(MC1R~MC5R),属于视紫红家族最小的G蛋白偶
日益流行的基于位置的服务(Location Based Service,LBS)为人们的生活带来极大的便利。然而,用户在享受其带来便利的同时,也面临着位置隐私泄露的风险。如何避免位置隐私泄露已成为制约LBS发展的关键问题。研究位置隐私泄露的特点,保护用户位置隐私具有重要的意义。因此本文针对实时LBS中的单一位置隐私保护,连续位置隐私保护以及离线LBS中的轨迹位置隐私保护展开研究与探讨,主要做了以下
随着软件产品市场的不断扩大、软件运行设备的不断更新以及软件开发流程的不断成熟,人们对软件产品的性能需求逐渐凸显。性能问题本质上与源代码密切相关。为了解决同一个问题,不同的开发人员可能写出截然不同的“正确”代码,从功能测试的角度来说,他们的代码实现的功能是一样的。但从性能测试角度,他们的代码运行效率可能大不相同。大多数在线判题平台或者网站的评判系统都使用自动判别方式,通常依靠测试结果来验证所提交源代
随着纳米制造技术的不断发展,加快了微电子、微机械、微光学、介入医学等领域的发展步伐,对微小紧凑式的加热装置的需求越来越多,微型加热装置成为学者们的研究热点。聚合物锂电池因为微型化、高密度、低危害、使用寿命长等优点被用于微型加热装置的能源模块。近年来各个国家对聚合物锂电池的研究力度逐渐加强,尤其是在电池管理系统(Battery Management System,BMS)方面,BMS通过收集聚合物锂