论文部分内容阅读
随着大数据时代的到来,海量Web数据中蕴藏着大量有价值的信息。从多源异构的Web数据中获取海量信息数据,需要通过数据挖掘来实现。数据挖掘的前提则是需要采用统一的平台对这些多源异构数据进行存储和管理,从而为数据挖掘提供有效的支撑。 基于Hadoop平台对海量多源异构的Web数据的存储和推荐方案进行研究。针对三种异构的Web数据来源,提出了对应的多源异构数据存储方案,并基于推荐应用验证存储方案的高效和可靠。其中,多源异构数据的存储主要包括:原始数据的采集、内容数据的抽取、特征数据的描述,以及这三种数据采用Hadoop平台进行存储实现四个方面。原始数据的采集采用分布式网络爬虫技术、云文件系统和基于OAuth2.0的开发平台实现。基于数据的特点,从原始数据中抽取出对应的元数据信息、文本内容数据以及图像内容数据,然后分别为文本数据和图像数据生成对应的特征描述数据,最后给出基于Hadoop平台的存储模型。数据推荐主要包括:对网络数据进行基于文本特征和图像特征的聚类,计算数据相似度,最后基于数据的相似度为用户推荐出可能感兴趣的数据内容。 通过对系统进行功能测试和性能测试,表明多源异构数据存储平台能够稳定运行,同时能高效的支持推荐应用。性能测试表明:基于内容聚类的小文件归并,不仅能解决小文件存储问题,还能够通过基于聚类的重删技术高效地节约分布式单节点存储空间,基于块级别的压缩有效地节约了20%的存储空间;推荐模块的性能测试表明基于Hadoop的数据推荐架构能够有效地提高数据聚类和推荐效率。