基于Hadoop的海量Web数据存储和推荐技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:gir1s
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,海量Web数据中蕴藏着大量有价值的信息。从多源异构的Web数据中获取海量信息数据,需要通过数据挖掘来实现。数据挖掘的前提则是需要采用统一的平台对这些多源异构数据进行存储和管理,从而为数据挖掘提供有效的支撑。  基于Hadoop平台对海量多源异构的Web数据的存储和推荐方案进行研究。针对三种异构的Web数据来源,提出了对应的多源异构数据存储方案,并基于推荐应用验证存储方案的高效和可靠。其中,多源异构数据的存储主要包括:原始数据的采集、内容数据的抽取、特征数据的描述,以及这三种数据采用Hadoop平台进行存储实现四个方面。原始数据的采集采用分布式网络爬虫技术、云文件系统和基于OAuth2.0的开发平台实现。基于数据的特点,从原始数据中抽取出对应的元数据信息、文本内容数据以及图像内容数据,然后分别为文本数据和图像数据生成对应的特征描述数据,最后给出基于Hadoop平台的存储模型。数据推荐主要包括:对网络数据进行基于文本特征和图像特征的聚类,计算数据相似度,最后基于数据的相似度为用户推荐出可能感兴趣的数据内容。  通过对系统进行功能测试和性能测试,表明多源异构数据存储平台能够稳定运行,同时能高效的支持推荐应用。性能测试表明:基于内容聚类的小文件归并,不仅能解决小文件存储问题,还能够通过基于聚类的重删技术高效地节约分布式单节点存储空间,基于块级别的压缩有效地节约了20%的存储空间;推荐模块的性能测试表明基于Hadoop的数据推荐架构能够有效地提高数据聚类和推荐效率。
其他文献
图由于可以明确记录社交应用中的个体特征以及个体活动和关系而被广泛使用。由于此类数据包含有个体的信息,为了防止恶意攻击者根据个体特定的好友关系将个体还原得到个体的信
学位
IP多媒体子系统(IMS)是第三代移动通信伙伴组织(3GPP)在Release 5版本标准的基础之上提出的支持IP多媒体业务的子系统。它提供了基于IP协议的下一代多媒体业务平台,能够同时支
在如今的网络应用中,文件的下载是重要的功能之一。传统的下载方式一般是文件由服务器端传送到客户端,由于用户都是从一台服务器下载,而服务器所提供的带宽是有限的。当用户数过
粗糙集(Rough Sets,也称Rough集或粗集)理论是一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法,是一种新的处理模糊和不确定性知识的数学工具。近年来在理论
为了解和控制油藏信息,人们从发现油田开始就从事试井分析工作。试井从狭义上讲即是通过改变油、气、水井的工作制度,以引起油层中压力重新分布,进而测量井底压力随时间的变
视觉跟踪是目前智能化研究的一个重要课题。视觉跟踪可以应用到许多领域中,如自动驾驶、智能监控、人机交互等诸多应用中。视觉跟踪算法通常包含两个模型,即表观模型和运动模型
智能中文输入技术在桌面平台已经得到了广泛的应用,通过研究手机平台汉字输入的特点,本文将智能输入技术引入到手机平台上,并在手机平台上实现了以二元概率为基础的整句预测输出
随着中国卫生行业信息化的发展普及,电子病历的应用也越来越广泛。其在临床的初步应用,有利于提高医疗质量,降低服务成本,并且均衡医疗资源。随着医疗卫生信息的海量增长,数据的存
在新兴的非易失性存储器中,阻性存储器由于具有读写速度快,功耗低可缩小性好,功能结构简单以及与传统的CMOS工艺兼容等特点,成为下一代存储器中最有力的候选者。但是,阻性存储器的