基于Hadoop和Solr的海量数据处理研究与应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zx19910412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展和互联网信息爆炸式的增长,海量数据处理越来越受到人们的关注。微博,作为今后互联网最重要的发展方向的一个重要的代表模式之一,已经成为了许多人最重要的沟通、营销工具。这些活动产生的海量微博数据的处理和利用,成为一个热门的研究课题,而对这些海量的微博数据最为直接应用,就是基于微博数据的搜索引擎。   本文将在着重讨论与研究相关的海量数据处理的同时,研究与设计一个新的微博数据搜索应用——“搜索兴趣”,论文的主要工作如下:   首先,研究与讨论了相关的海量数据处理技术,主要是海量数据存储,海量数据读取,以及海量数据业务处理等技术,而支撑这些技术的主要是Google的三大核心技术:BigTable,GFS分布式文件系统,MapReduce分布式编程模型。   其次,本文研究与讨论了基于Google三大核心技术原理而实现的一个优秀的开源项目:Hadoop项目,主要涉及到了相关的Hadoop MapReduce架构,Hbase文件存储,HDFS分布式文件系统;同时,研究与讨论了Solr搜索引擎,主要对Lucene搜索工具包、Solr的发展历史、特性以及体系结构等进行了深入研究。   最后,提出了一个Hadoop与Solr相结合的体系结构,利用Hadoop的分布式结构和预先分词技术对Solr搜索引擎的索引生成进行了高效的优化;同时,提出一个基于微博兴趣搜索的排名算法,包括针对微博内容、用户信息的权值模型和采用语义树进行语义扩展等,最终实现了基于微博内容搜索相同兴趣用户的应用。   实验表明,论文设计与实现的兴趣搜索平台其搜索结果准确和可信,可以帮助用户找到不易被发现的相同兴趣用户,具有良好的实用性,对现有的微博搜索应用是一个良好的补充。  
其他文献
在目前采用的安全措施中,权限管理起着重要的作用。权限管理是整个系统的基础部分,是业务控制管理的核心,它的安全性、效率以及稳定性影响着整个系统的正常运行。访问控制是
高分辨率多光谱卫星图像不论是在军事方面还是在民用方面,都得到了政府机构和私人机构的广泛应用。在其他方面,卫星图像在特征提取方面应用广泛,尤其在摄影测量、水道、地图和远
人体动作分析是人机交互的一个重要研究问题,在以人为中心的自然人机交互系统中,准确和快速地识别人体动作是实时交互的前提和保障。早期的人体动作分析大多基于二维视频图像
随着社会、经济、文化等各方面的发展,广大企业的决策者对明确本企业存在的问题、问题预警、策略生成、辅助决策等都有着迫切的要求。个人也有解决矛盾问题的需求。然而随着
基于RFID技术和人脸识别技术的检票系统与“身份证十二维码”检票系统相比,具有无需示出、防身份泄露、检票效率高等优点,应用前景广泛。本文对这一课题进行了研究,设计了一
WPF是由微软公司发布的一个崭新的计算机图形学表现层技术,作为Windows下全新的界面设计引擎,主要用于Windows的统一显示子系统。它为用户界面、2D/3D图形、文档和媒体提供了
随着网络应用需求的不断变化以及网络创新的不断推进,传统网络设备数据与控制平面的紧耦合使得其不能够提供灵活的网络控制、自动化的网络配罝以及开放网络能力等。SDN(Softw
结构化P2P网络是一种分布式网络,由于用户对存储资源的需求存在不均衡性,以及各计算机的处理能力存在异构性,导致系统出现负载不均衡现象,进而引起单点失效、请求延迟、网络
Web技术不断创新,特别是物联网技术跨越式的发展,使企业能够利用传感器、射频等智能装置对物理世界进行感知识别,依托通信网络实现了人与物、物与物的信息交互以及生产生活信息
多目标优化问题是工程与科学研究的重要类别,其中存在多个彼此冲突且有联系的优化方向,如何在有限的时间或资源代价下获得最优解是研究的核心问题。多目标优化问题寻求同时达