基于多样性覆盖的标签推荐算法研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:o70078
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0的发展,互联网迎来了一个数据爆炸的时代,搜索引擎的关键字搜索已经不能满足用户的个性化需求,取而代之的是推荐引擎的出现。推荐引擎带给了用户更为个性化的内容,用户得以从海量的数据中解放出来。标签推荐作为推荐引擎的重要分支之一,越来越受到关注,并在电子商务、社交网站中得到了广泛的应用。  标签推荐中也存在一定的问题。现行的标签推荐算法产生的结果集,虽然能够比较准确的描述物品,有较好的相关性,但是往往多样性较差,标签之间存在语义相似,冗余严重的问题。这种情况降低了推荐结果集的新颖性和多样性,严重影响了用户的体验。本文的主要工作如下:  (1)本文基于局部和全局标签共现矩阵定义了相关性的度量。局部标签共现矩阵表现了用户的兴趣爱好,而全局的标签共现情况则反映了每个标签的流行度和被喜好度。这样相关性的度量不仅融入了用户的个人兴趣爱好,同时还考虑了标签的被认可度,从而提高了准确度。  (2)根据目前的了解,本文第一次在标签推荐中提出了语义覆盖的概念。基于普林斯顿大学的WordNet字典,从IC(Information Content)的角度定义了语义多样性,有效的去除了推荐结果中的语义冗余。同时,采用覆盖的概念,推荐结果集可以很好地在语义上代表候选标签集合。  (3)通过对基于多样性覆盖的标签推荐问题的深入研究,本文设计实现了三个算法:EDC(Exact Algorithm of Diversified Coverage)、GDC(Greedy Algorithm of DiversifiedCoverage)以及MDC(More Algorithm of Diversified Coverage)算法。EDC算法通过将多样性覆盖标签推荐问题转换为图的最小独立支配集问题,在优先处理图中包含的团和二分图后,递归的在剩余的图中搜索最小独立支配集。考虑到数据集非常大的时候,EDC算法的时间复杂度非常大,因此本文提出了GDC算法贪心地获得推荐结果集。同时,为了满足动态增量扩充结果集的需要,文中提出MDC算法,该算法无需重新计算,采用增量扩充的方式,不仅扩充了结果集,还保证了扩充结果集与原结果集间较小的Jaccard距离。  (4)本文为了验证算法的效率和有效性,在MovieLens和Last.fm数据集上对算法进行了大量验证工作。在效率方面,算法对各种影响因素有着不同的表现。在有效性方面,虽然算法的相关性有所降低,但是多样性有了明显提升。
其他文献
近年来随着网络技术和分布式计算技术的发展,使得将分散的、异构的计算资源有机地整合到一起形成计算网格成为可能。它能跨多个管理域组织或企业进行资源发现、资源管理、信息
运动细胞轮廓跟踪在细胞生物学领域有非常重要的应用价值,Snake模型由于其具有形变灵活和能够获得连续轮廓表达线的特性成为实现这一技术的主要方法。基本Snake模型在目标跟踪
Internet的发展使得Web网页开发也获得了很大的发展。当网络技术和分布式计算技术逐渐发展并走向成熟时,Web网页开发也变得非常复杂。Internet带来的最直接问题是Web网页的不
随着电子技术的快速发展,特别是超大规模集成电路的产生而出现的微型机,使现代科学研究得到了质的飞跃,而嵌入式微控制器的出现则给现代工业控制领域带来了一场新的革命。嵌
防火墙在保障网络安全方面至关重要,为了让防火墙满足当前网络的高速处理要求,和新协议新应用层出不穷的发展趋势,网络处理器被用作构建新一代高性能防火墙的硬件平台。然而传统
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘提取的知识可以表示为概
随着工nternet的迅速发展,开发基于Browser/Server的服务器端的程序已经成为Web应用程序开发的重点。虽然现在应用EJB平台开发应用软件可以满足程序开发的需要,但由于在开发期
如何在模糊或不断变化的需求下,控制软件开发风险,实现快节奏的软件开发,是软件人员急需问题。但是直到20世纪90年代末,敏捷软件开发方法的出现,对于这一问题的解决提出了有效的方
我国铁路信息化工程是引入监理制度较早的领域之一,但受多种因素制约,铁路信息化工程监理仅停留在形式上。近年来,随着国家对信息化工程监理制度的逐步确立以及铁路运输体制的改
网站通过多 Agent 协同合作为用户提供智能化、个性化的服务,它能够满足用户多样化的需求,因此在实践中得到了广泛的应用。本文运用基于工作流的多 Agent 调度技术,提高了网站的