微博个性化推荐技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:waterkkk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博已经成为人们日益依赖的信息共享和交流平台之一。用户在面对海量微博信息时也会遇到传统的“信息过载”问题。个性化微博内容推荐是解决该问题的关键技术之一。鉴于用户可获得信息的膨胀问题,对其进行内容推荐研究已经是应时应景,但是由于微博本身的特性,例如用户之间的社交关系、没有显式评价等,这些都对传统的推荐技术提出了很大的挑战。近年来,面向微博内容的个性化推荐研究取得了一定进展,但是仍然有较大的提高空间。  本文以满足用户的个性化信息需求为目标,针对微博推荐的实际场景,深入研究了其中“用户互动关系”、“用户浏览行为”等因素对微博个性化推荐的影响,并通过排序学习框架将各种因素进行了融合处理。具体而言,本文的主要贡献包括以下几点:  提出了融合用户互动关系话题特征的推荐模型  目前的社会化推荐方法集中研究在怎样将用户关系融入到推荐模型中,主要利用的是用户关系的存在性或直接的关系强度,例如基于用户信任关系的推荐算法以及基于用户社交关系的推荐算法等,这些算法通过用户关系为发掘用户的共同兴趣提供了新的途径,然而微博中的社交关系是由用户的关注构成的,是一种无权重的关系,因此从单纯的社交关系中很难准确度量用户与不同好友之间的亲疏度,另外,微博社交关系与用户的兴趣并不直接关联,所以也很难从直观上解释用户关系与用户共同兴趣之间的联系。  本文从用户与好友的互动行为出发,根据用户与好友的互动频率及互动内容,提出一种新的用户关系的建模方法,我们为用户关系建立了话题模型,分析用户互动关系在不同话题上的分布情况,并提出了从话题层次上衡量用户关系强度的方法。在此基础上,我们在经典矩阵分解模型的基础上,提出融合了用户关系话题特征的IBCF模型,该模型将用户关系的话题特征作为隐变量加入到矩阵分解中,从而实现了对用户隐参数的调整。实验结果表明,加入了用户关系话题特征的IBCF模型显著优于经典的矩阵分解模型,充分说明了本文提出的用户关系话题特征的有效性,另外,与经典的社会化推荐模型SocialMF相比,IBCF模型也有明显的提高,从而验证了该方法的有效性。  提出了基于用户浏览行为的推荐模型  传统的推荐模型中将训练集作为一个整体进行考虑,对于每个用户,在模型的训练阶段会同时用到该用户所有的打分记录,例如,在经典的矩阵分解模型中,会假设每个用户与每个推荐项之间都有一个潜在的打分,用户显性的评价反馈构成了模型的训练集。这种处理方法在一般的推荐场景中是合适的,然而,在微博场景中,用户对微博的浏览是按照时间顺序进行的,并且用户每次浏览行为也只会持续一段时间,在这段时间内能够阅读到的内容是很有限的,这导致传统的推荐方法并不是很符合这种应用场景。  本文分析了微博场景中用户的浏览行为因素,定义了微博中用户浏览行为session的概念,并提出根据用户的行为来进行session切分的方法,从用户浏览第一条微博开始,一直到用户结束当前浏览行为为止,每个session能够表示一个完整的用户行为周期。用户每次浏览行为都发生在这个连续的时间段范围内,本文根据用户session的边界定义了用户在session中的阅读范围,并以此为基础,提出在session粒度上进行微博推荐的思路。  另外,传统的推荐方法只利用了用户的打分评价记录,这些打分记录反映了用户的兴趣,即用户“喜欢”什么,而对于未评价的物品,则视为缺失数据,这些缺失数据构成了数据集整体的稀疏度,影响了推荐的效果。而在微博中,根据用户的浏览范围和其转发行为记录,可以将用户的转发记录视为正反馈,将用户阅读而未转发的记录视为负反馈,这些负反馈能够在一定程度上反映出用户“不喜欢”什么。  本文利用pair-wise的排序学习方法,将每个session中正反馈和负反馈组合起来构成样本对,从而将推荐问题转换为两两样本对的偏序预测问题。我们通过RankSVM实现了本文的思路,并提出了结合基于微博独立特征及session间上下文信息来改进推荐的效果。实验结果表明,与现有的推荐方法相比,本文提出的基于session的推荐具有更好的性能,而且也更符合用户的实际使用场景,另外实验也对本文抽取的各种特征进行了比较分析,分析结果表明在单类特征中,内容特征对推荐效果的影响最大,最终融合了所有特征的方法能够取得最好的效果,这也验证了各项特征对于推荐结果都有积极的影响。  提出了基于排序学习框架的模型训练方法  随着个性化推荐服务的发展,以排序为最终结果呈现的推荐功能也越来越普遍,相比于评价打分数值,物品的排序更能反映用户的真实需求,微博中用户对推荐结果的需求也更倾向于排序,而不是打分预测。为了实现这个推荐功能,常见的做法是先预测出用户对各个物品的打分,然后根据打分值进行排序。然而这些方法不是直接以排序为目的的,因此会产生很多误差。  本文以结果列表的排序为直接的优化目标,研究了基于排序学习来进行微博推荐的方法。首先,为了充分发挥推荐模型的建模能力,我们在基于特征的矩阵分解模型的基础上,将本文之前抽取出的各项显性特征以及用户关系的话题特征进行了整合,提出了xIBCF模型。然后,我们将矩阵分解模型融合到排序学习的框架中,利用排序学习框架来进行xIBCF模型的训练和测试,从而能够同时利用矩阵分解方法和排序学习方法的优点。实验结果表明,相比于单独的xIBCF模型和排序学习方法而言,本文提出的方法能够获得更好的表现,验证了通过排序学习来学习xIBCF模型确实能够有效结合两种方法的优势,进一步提高推荐效果。
其他文献
网络编码的实质是将传输的数据编码分散,通过一定的冗余机制保证了数据的安全性和系统的鲁棒性。现阶段针对网络编码的研究一般都是在理论层面上,将网络编码应用在实际工作中的
学位
随着互联网的持续繁荣及各类新兴互联网应用的崛起,互联网络承载的总数据流量一直在持续增长。根据思科VNI2013年的报告,过去五年间互联网流量增长了4倍,预计五年后的流量将是现
学位
近年来,随着互联网和云计算的快速发展,数据中心已经成为许多在线服务的关键基础设施,如Web搜索、在线零售、广告/推荐系统以及社交网络等。这些服务通常是软实时性的交互式应用
心脏疾病目前仍是威胁人类身体健康的重要疾病之一,心电图的自动诊断是一种很好的辅助医生诊断和治疗心脏疾病的手段,心电信号的研究也是国内外学者的研究热点。本文的研究对
学位
学位
近年来,高速铁路得到了迅猛的发展,由于列车上乘客日益增长的宽带多媒体需求,以及先进的列车控制的需求,在高速铁路这样的高移动性场景下提供宽带无线通信成为了研究的热点问题。
随着互联网的发展,图像和视频帧数据呈现爆炸式增长。虽然图像和视频数据的规模庞大,但是这些数据同时也具有极高的冗余性,这为高效的分析数据内部结构、解决半监督分类和索引算