CLARANS改进算法在音乐网站智能推荐系统中的应用

被引量 : 0次 | 上传用户:wentoume
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自Internet诞生起,各种基于Internet的服务层出不穷,当前随着通信网络带宽的不断增加,在线收听音乐已成为网民上网的主要娱乐活动之一。据中国互联网络信息中心(CNNIC,2009)所发布的第23次《中国互联网络发展状况统计报告》显示,截至2008年12月31日,中国网民规模达到2.98亿人,是继2008年6月中国网民规模首次超过美国成为全球第一后的又一重要飞跃。面对如此庞大的用户群体,各大音乐网站纷纷使用各种方法吸引用户访问自己的网站,提高网站访问量以便为网站带来巨大的商业利益。然而当今互联网上各种资源的数据量与日俱增,用户所需信息难以直接、有效的获得,信息系统与用户之间互动性不强,不能向用户主动推荐信息,而是被动的由用户来搜索、选择信息,人们越来越多的淹没在数据的海洋里,而找不到自己感兴趣的信息,盲目的迷航式浏览已经成为人们访问网络的常态。当前国内外各大网络公司如Google、Amazon、百度、阿里巴巴等公司均在各自的网站中应用各种数据挖掘技术进行Web挖掘。本文中通过引入数据挖掘技术设计音乐网站音乐智能推荐系统来解决用户从大量音乐中直接、有效的挑选自己所喜爱的音乐问题。其中使用基于用户访问行为分析的协同过滤技术生成用户访问行为模型,并由TOP-N算法依据此模型生成音乐推荐列表,定向推荐给用户。传统方法中TOP-N算法需要从整个用户群体中选择与目标用户最为相似的若干个用户,并选择这些用户打分最高的前N首音乐推荐给用户。从整个用户群体中选择与目标用户最为相似的若干用户需要较高的计算代价,不具有实时性。因此本文所设计的系统中预先对用户访问行为进行聚类计算,将相似用户划分至相同簇中,这样避免传统方法中计算代价较高的问题。计算过程中由于访问关系型数据库效率较低,本文中将关系型数据库中数据导出至Berkeley DB中,以便提高数据访问速度。使用基于划分的聚类算法时需要指定划分簇数K,在对数据没有较好认知的情况下很难正确选择簇数K。遗传算法是一种具有良好并行性,广泛用于优化计算的算法。本文将遗传算法与CLARANS聚类算法相互结合提出一种新型的聚类算法GA-CLARANS用于未知簇数K的聚类计算。由于遗传算法具有良好并行性这一特点,本文中将GA-CLARANS算法部署在MPI集群环境上进一步提高算法的运行效率,有效的进行了用户访问行为数据聚类计算。通过实验结果表明GA-CLARANS算法能够快速、准确的进行聚类计算,满足音乐网站音乐智能推荐系统的实际需求。
其他文献
目的:探讨舒肝解郁胶囊对心脏植物神经失调症状、情绪及安全性的影响.方法:选取心脏植物神经失调患者120例,采用随机数字表法,分为两组,对照组口服黛力新,观察组服用舒肝解郁胶
据国际货币基金组织统计,银行不良贷款是银行危机的主要原因。政府为银行提供的隐性担保、信息不对称与不完美、信用基础薄弱、部分企业比较优势的丧失等是中国银行不良贷款
学生行为规范是学校德育的重要内容,它在学生成长和社会发展过程中极具重要性和必要性。对规范的认知与认同、儿童的德性环境、选择与责任意识,都在影响着儿童德性的生成与发
声波法是现场测试巷道围岩松动破坏范围最常用的技术.基于声波法在裂隙发育围岩仰孔中进行巷道围岩松动圈厚度现场测试时的不足,提出将耦合水封闭在探头有效测试范围内的设计
<正>一、引语为进一步提高行政事业内部管理水平,规范内部控制,加强廉政风险防控机制建设,财政部于2012年11月印发了《行政事业单位内部控制规范(试行)》,自2014年1月1日起施
针对氨基酸溶液蒸发浓缩生产过程的高能耗问题,提出一种新的基于机械蒸汽再压缩蒸发浓缩节能工艺及装置。介绍了机械蒸汽再压缩蒸发浓缩节能新工艺的工作原理,以15 t/h氨基酸
采用2001-2010年北京市入境旅游产业及各部门外汇收入数据,运用动态偏离-份额分析法,以结构效益和竞争力为切入点,考察了北京市入境旅游产业及各部门在各时间分段对北京市入
<正>政策背景2012年11月6日,国家税务总局为规范成品油消费税管理,促进成品油市场公平竞争,堵塞一些纳税人通过变换产品名称逃避成品油消费税的漏洞,出台了《国家税务总局关
在理论学习和实践工作中,会计人员能够掌握所得税会计中所涉及数据的计算,但并未理解其核算方法背后的理论意义。本文以权责发生制为基础从所得税费用、应交税费、永久性差异
<正>社会的进步,离不开新闻媒体的舆论监督。近年来,随着新闻事业的发展,尤其是在一些舆论监督报道,都采用了卧底的方式去挖掘和呈现,不仅报道形式更加吸引眼球,这些卧底记者