【摘 要】
:
随着互联网技术的日益发展,人们逐渐从信息匮乏的时代进入了信息过载的时代。这种情况下,无论是信息的消费者还是信息的生产者都面临着严峻的挑战。对于消费者,无法快速的从
论文部分内容阅读
随着互联网技术的日益发展,人们逐渐从信息匮乏的时代进入了信息过载的时代。这种情况下,无论是信息的消费者还是信息的生产者都面临着严峻的挑战。对于消费者,无法快速的从海量信息中找到自己感兴趣的信息;而对生产者,如何把自己生产的信息推送给可能对它感兴趣的用户成为系统瓶颈。我们需要一个自动化的工具,它可以分析用户的历史行为,挖掘用户的潜在兴趣,进而从庞大的Web资源池中找到用户可能感兴趣的信息推送给用户,这一工具便是个性化推荐系统。推荐系统是用户和信息的桥梁,帮助用户发现信息,又能更好的发掘信息长尾,从而实现信息消费者和生产者的“双赢”。推荐系统的基本流程是跟踪用户上网行为,深入分析用户历史偏好,预测用户可能感兴趣的信息。在这个流程中,一方面,收集用户的哪些行为数据以及如何收集是系统首先要解决的问题,只有高质量的有潜在价值的用户行为才能对推荐产生指导作用。另一方面,海量的数据背景对个性化推荐系统提出了新的挑战,如何部署系统才能保证用户行为数据存储的可靠性、可扩展性与分析的高效性。最后,推荐结果的准确有效性是衡量推荐系统的直接指标,只有新颖、多样、准确的推荐结果才能提高网站的用户体验。本文针对推荐系统面临的诸多挑战,提出了一套综合的解决方案。有效的融合了显式反馈和隐式反馈数据,从这些行为数据中发掘出可能蕴藏的规律进而分析用户的喜好。在数据存储和分析模块,系统选取了 Apache Hadoop集群,HDFS保证了信息存储的可靠性与可扩展性,MapReduce又保证了分析的高效性。在推荐引擎模块,本系统将Apache Mahout搭建于Hadoop集群之上,使其有高吞吐、高并发等特点,并详细研究了 Taste推荐引擎的框架和源码,针对数据稀疏性、冷启动、用户兴趣随时间变化等问题进行了二次开发。最后通过大量实验验证了系统的功能、性能及推荐结果的准确有效性。
其他文献
互联网在诞生初期的目标仅仅是为了提供计算机之间端到端的互联互通,这种设计思想导致基于传输控制协议/因特网互联协议(TCP/IP,Transmission Control Protocol/Internet Pro
标准必要专利许可中权利人和被许可人利益的冲突,引发滥用标准必要专利许可案件的发生,影响市场正常的竞争秩序,亟需法律规制。由于缺少对禁令滥用的规制及FRAND原则的不完善
由于无线信道的广播特性,无线通信安全极易受到威胁,而窃听是最主要的一种安全问题。随着多天线技术、信号处理技术和编码技术的发展,在物理层实现信息的安全传输成为可能。
随着移动互联网和物联网的快速发展,人们的生活质量得到提升,日常生活中产生的数据量也大大增加。海量的生活数据被转换成多维数的形式由数据拥有者集中存储,数据拥有者根据
混凝土在当代土木工程中不可或缺。同时,由于其对自然资源的浪费和对环境的严重破坏,再生混凝土的研究到目前已经得到足够的重视。另外,人类活动产生大量不可降解的废弃纤维,其对环境的影响不可忽视。因此,为了更加了解废弃纤维再生混凝土并推进废弃纤维再生混凝土的研究和应用。以龄期、纤维体积掺量和再生粗骨料取代率为主要指标来进行试验,研究早龄期力学性能及拉伸徐变性能。本文主要完成的工作如下:(1)经试验验证,再
随着移动通信技术的不断发展,终端用户对通信服务质量的要求也越来越高,同时本地多媒体数据业务急剧增长,使得频谱资源问题变得日益严峻。为解决该问题,终端直通技术(D2D,Dev
无源光网络具有卓越的高带宽和稳定性特性,被广泛地认为是一种完美的解决方案。然而,无源光网络并不能保证用户随时随地的接入,并且其部署成本比较大。作为另一种选择的无线
当今时代,物联网的发展带来了物联网终端、应用的爆炸式增长。终端的异构性、海量性特点导致了物联网资源标识的种类各不相同。尽管出现了一系列的物联网资源标识,比如EPC标
模式匹配算法是计算机科学领域的一个经典的研究方向,被广泛地应用在信息检索、入侵检测系统、病毒检测、信息过滤以及生物计算等众多领域中。多模式匹配算法通过遍历一次文
随着“互联网十”时代的到来,家庭业务高速发展,业务需求不断增多。运营商除了开发其业务逻辑外,还要开发业务运营所需的管理支撑部件。为减少管理支撑部件的重复建设、降低