信息推荐网络的骨架抽取研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:linxain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人们面对海量数据很难有效地分辨出哪些是自己真正需要的信息。随着信息量的不断增大,信息的利用率反而降低,这就是信息过载现象。随着大量网络信息的数字化,搜索引擎或推荐系统对人们来说已经成为至关重要的信息过滤工具。个性化推荐作为信息过滤技术可以根据用户的历史行为记录来挖掘用户的潜在兴趣。推荐系统通常面临大规模甚至超大规模数据,因此其计算复杂度相对较高甚至难以在全量数据中进行计算,而应用系统通常需要进行实时计算。因此,研究如何抽取信息推荐网络的骨架,在保持推荐精度的前提下压缩数据规模,对于真实应用的推荐系统具有重要意义。因此,本文从推荐网络的结构特征出发,分别研究网络中的节点和连边与推荐性能的相关性,并尝试抽取能够保持推荐系统性能的网络信息骨架。主要工作如下:1、从识别重要节点和连边的角度,总结了复杂网络和推荐网络的信息骨架抽取方法。阐述了推荐技术的基本理论、常见算法、评价指标和推荐网络结构的拓扑特征。从用户节点重要性的角度对比了几种基于用户节点的特征与推荐的相关性。2、提出了基于相似性子图的推荐网络信息骨架抽取算法。从推荐网络的拓扑结构出发,研究了几种网络结构特征与推荐的相关性。我们结合用户相似性和商品相似性来定义推荐网络中连边的权重,并发现权重值大的连边与推荐精度的相关性更强。三个真实数据集的实验结果表明,通过该算法抽取的信息骨架能够在top-L推荐过程中仅依赖原始网络中20%的连边就获得超过90%的推荐准确率,同时还能保持推荐的多样性。算法中相似邻居个数的选择对推荐效果也没有明显影响。此外,通过对信息骨架结构的详细分析,我们发现信息骨架能够较好的保持原始网络的拓扑结构特征。该算法抽取的信息骨架能够通过压缩数据规模,有效地在保留推荐精度的同时提高推荐系统的性能。3、提出了基于介数中心性和时间信息混合的推荐网络信息骨架抽取算法。本文通过引入介数中心性这一复杂网络的拓扑特征,研究了基于用户节点、商品节点以及连边的介数中心性与推荐的相关性,实验结果表明商品节点和连边的介数中心性越高,其与推荐的相关性越强。据此,我们进一步提出了将时间信息与这两种基于介数中心性的方法相结合的算法。在两个真实数据集的结果表明,可以通过增加混合骨架抽取方法中介数中心性的权重来提高推荐系统的准确率,或者通过增加混合骨架抽取方法中时间因素的权重来提高推荐系统的多样性。因此在信息骨架抽取的过程中,我们可以对连边的介数中心性和时间信息选取合适的权重,使推荐算法在获得较高准确率的同时,也能拥有较高的推荐多样性,提高系统的个性化程度,并且减少数据的存储空间,降低系统运行消耗的时间。
其他文献
随着网络和计算机上各种结构化数据的迅速发展,需要访问关系数据库查询信息的用户数量急剧上涨。然而传统的查询方法需要用户知道SQL查询语句和数据库模式;人们希望能够在关系
数据挖掘是计算机科学的一个领域,目的是通过分析快速增长的商业、科学和工程数据来获取知识和其他利益,这个领域正在迅猛增长和发展。关联规则的挖掘是数据挖掘课题中的一个
目前,大多数搜索引擎系统都是基于用户关键词查询的信息检索系统。在使用这类搜索引擎查询信息时,主要通过匹配用户输入的查询关键词进行检索。由于用户输入查询词的数目有限
随着计算机技术与通信技术的迅速发展,信息化社会进程的加快,计算机已经成为人们工作与生活中的重要工具。考试是教学过程中一个极其重要的环节,而试卷是考试的重点,试卷如果
近年来,随着Web 2.0和移动互联网的飞速发展,互联网上涌现了大量的社交网络平台。微博作为其中一种社交网络平台,以其高便捷性、高原创性、强交互性和强草根性的特点吸引了大
伴随着互联网的不断发展,越来越多的用户每天在网络上进行着社交、网上购物、浏览新闻等不同类型的网络活动,同时网站后台记录了这些用户大量的交互信息、购买、点击、浏览等
在未来国际上和我国的对地观测计划中,先进的多光谱、高光谱、多角度和微波遥感器层出不穷,它们将在人类认识地球甚至宇宙空间中扮演十分重要的角色。但是航天技术和遥感器技术的发展最终还是要落实在遥感应用上,因此以应用为导向的遥感器设计和应用模型的发展是真正体现航天遥感价值的关键。而对这些遥感器进行前期技术论证以及遥感应用模型开发的一个关键环节就是遥感图像的前期模拟,而在遥感图像模拟过程中,速度慢是制约其应
近年来XML已越来越被广泛的用于互联网上各种数据交换与数据表示,越来越多的公司与组织都通过XML来进行数据的交换与存储。但是XML有个致命的缺点:结构数据冗余。XML表示有效
实施远程教育的关键是创设能够促进学习者主动学习的网络环境,而学习者在网络学习环境中的学习活动离不开以实验为代表的实践学习,虚拟实验室的建立对于提高远程教学的学习效
当前,随着计算机和信息处理技术的迅猛发展,应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。传统的存储技术在面对海量数据的挑战时显得愈加的乏力。由Apache基