论文部分内容阅读
随着Web2.0技术的兴起,网络上出现了大量的社会化标注系统,用户可以通过一个开放的平台对共享资源进行个性化标注,同时可以上传资源并将其分享到感兴趣的群组中。由于群组能够满足用户间交互与兴趣分享等诸多需求,近年来吸引了大量的用户。但是随着群组数量的飞速增长,用户手动的浏览或查找感兴趣的群组成为一件困难而耗时的工作,迫切需要一种工具帮助用户从海量的群组中过滤出有用的信息,群组推荐系统应运而生。群组推荐系统可以帮助用户发现有价值的群组信息,节约用户时间,提高用户对网站的满意度,从而吸引更多用户加入网站,实现服务提供商与用户的双赢。本文主要研究如何为社会化标注系统中的用户和资源推荐群组,并以社会化标注系统中的典型代表—Flickr图片共享网站为例,介绍主要的研究方法。尽管本文提出的方法都是基于Flickr,但它们均可以推广到任意具有群组信息的社会化标注系统中。Flickr允许用户上传图片,为图片添加标签并将图片分享到感兴趣的群组中。用户、标签、图片和组是Flickr中主要的四个实体,它们之间相互关联,形成了用户、标签、图片和组之间的四元关系。本文在分析该四元关系的基础上,提出了基于四元语义分析的Flickr组推荐模型,并利用该模型完成了以下工作:(1)利于四元语义分析为Flickr用户推荐组为Flickr用户推荐组的现有研究主要使用基于协同过滤的推荐算法,利用(用户,组)二元关系或者(用户,标签,组)三元关系挖掘用户和组之间潜在的语义关系。由于它们均忽略了图片丰富的视觉信息,同时标签可能存在多义性和歧义性,因此往往不能提供准确的推荐结果。本文针对现有研究存在的问题和不足,提出了一种基于四元语义分析的Flickr组推荐方法,利用四阶张量建模用户、标签、图片类和组之间的四元关系,通过高阶奇异值分解技术挖掘用户和组之间潜在的语义关系,得到为用户推荐的组列表。该方法首次将四元语义分析引入到组推荐领域,综合利用图片的视觉特征和标签信息,通过挖掘用户和组之间隐含的语义关系,为用户推荐组。通过在Flickr数据集上的实验证明了本文提出的方法相比利用用户、标签和组之间三元关系的方法,在top-k和MAP评价标准下,取得了更精确的推荐结果。此外,在对Flickr图片分类时,提出了一种基于稀疏编码的改进的空间金字塔匹配方法,为空间金字塔中不同层次的图像的稀疏编码值赋予不同的权重,设计了一种新的空间金字塔匹配核,在Caltech101/256及Pascal VOC2006数据集上的实验证明,新的空间金字塔匹配核函数在分类准确率上优于已有的基于空间金字塔匹配的方法。(2)利用四元语义分析为Flickr图片推荐组现有为Flickr图片推荐组的研究主要使用基于内容的推荐算法,需要为每个主题建立一个模型,系统可扩展性差。此外,推荐时仅根据图片的特征没有考虑用户的兴趣,导致推荐结果不一定满足用户的兴趣需要。本文针对现有研究存在的问题和不足,提出了基于四阶张量分解的Flickr组推荐算法,将用户的兴趣信息引入到推荐模型中,利用基于协同过滤的推荐方法为图片推荐组。算法使用四阶张量建模图片、用户、标签和组之间的四元关系,利用高阶奇异值分解和kernel-SVD技术挖掘用户潜在的兴趣以及图片和组之间潜在的语义关系,为图片推荐满足用户兴趣需要的组。此外,为了解决模型的可扩展性问题,当有新的用户、图片、标签和组加入模型时,利用folding-in或Incremental SVD技术增量更新模型,避免了大量的重复计算。通过在Flickr数据集上的实验证明了本文提出的算法比现有基于内容的推荐算法推荐结果的MAP值有大幅提升。(3)设计并实现了Flickr组推荐统一框架及Web应用原型系统。现有的Flickr组推荐方法只能单独为用户或图片推荐组,不能将两者集成在一个统一框架中。而实际应用中,Flickr用户不仅希望知道自己上传的图片适合分享的组同时还希望了解有哪些自己感兴趣的组。本文在前面两项工作的基础上,建立了基于四元语义分析的Flickr组推荐统一框架,设计并实现了Flickr组推荐Web应用原型系统,该系统可以在为图片推荐组的同时为用户推荐组。统一框架利用四阶张量分解算法挖掘用户、标签、图片和组之间潜在的语义关系,同时得到为用户和图片的组推荐结果。据我们所知,这是第一个集成两种推荐功能于一体的Flickr组推荐原型系统。通过在Flickr数据集上的实验证明了本文提出的方法相比现有的仅仅为Flickr用户或图片推荐组的方法,在top-k和MAP评价标准下取得了更好的推荐效果。