基于P2P可伸缩架构的大数据分析平台研究与实现

被引量 : 0次 | 上传用户:zqlyn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的飞速发展和信息的社会化,数据呈爆发式的增长,传统的关系数据库在处理分析如此海量的数据时出现性能和可扩展性的瓶颈,所以必须研究新的有效的大数据分析平台。大数据技术目前还没成熟,也没形成统一标准,但工业界已经广泛使用Hadoop作为其大数据处理平台,这也带动了国内学术界对Hadoop相关技术研究。除了Hadoop外,NoSQL相关技术也得到较快发展,涌现了一批优秀的开源项目,如HBase和Cassandra等都被工业界广泛应用。本文基于国家核高基科技重大专项——非结构化数据管理系统LaUDMS来研究和实现对大数据的处理分析相关技术。非结构化数据管理系统LaUDMS重点就是深入研究大数据的存储和分析技术,并结合理论和实践来解决对大规模非结构化数据的管理难题。本文首先对大数据处理分析平台的研究现状进行了综述;其次在综合比较分析现有平台优缺点的基础上介绍了非结构化数据管理系统LaUDMS的内核清华知云Kloud的平台架构;再次是清华知云Kloud中的大数据分析平台的技术研究和实现。技术研究包括深入分析了分布式数据仓库Hive的设计和组件,并将其融合到基于P2P架构的Cassandra内部实现中;为实现Hive组件完全融合到Cassandra中,定义了基于Cassandra自由表的面向对象数据模型来存取Hive的元数据信息;为提高自由表访问效率,描述了基于Cassandra自由表的辅助索引设计和实现,并且将其融合到Hive的分布式索引插件框架中,实现Hive分析的性能优化。该大数据分析平台实现后对某网站用户访问日志进行了实验分析,性能和可用性得到相应的提升,取得良好效果。
其他文献
当今世界已进入全媒体时代,媒介融合使传统电视节目呈现出新的传播特点:传播内容极大丰富、生产过程全面优化、传播方式双向互动、传播渠道广为拓展,电视娱乐资讯节目也不例外
2012年初爆发了一起波及面广、社会影响力深远、持续时间漫长、涉及社会关系复杂、媒介平台使用多元的名人网络危机事件。1月15日麦田质疑青年作家韩寒的文章多由他人代笔。1
无卤阻燃已成为高性能环氧树脂领域研究的关键技术,磷、氮系阻燃环氧树脂由于其具有无卤、低毒、高阻燃效率等优点,引起了人们的广泛重视。本研究针对磷氮化合物的合成和对环氧
对于线描艺术,从艺术论来说:国画与陶瓷艺术同样带有深厚的民族性、区域性、审美性和历史性,二者可以说是异流同源.本文正是从中国画线描的特征及发展历程出发,来研究中国画
<正>京政发[2013]15号各区、县人民政府,市政府各委、办、局,各市属机构:电子商务是战略新兴产业与现代流通方式的重要内容,是科技和文化创新的重要抓手和实现途径。大力发展
秦汉时,"天"作为终极信仰被虔诚的信奉。董仲舒将"天"作为其阴阳五行说的最高范畴,借助"阴阳五行"沟通"天"与"人",进而"以类合之",推论出"天人一也"。在此基础上,董仲舒一方
中国5年期国债期货的即将推出标志着中国资本市场又向前迈进了一步,为国债市场,乃至整个金融市场的产品和交易创造了新的方式和途径。国债期货的套利研究,尤其是应用通过基差交
由于地质历史因素与气候水文因素,天津市区周边广泛分布着盐碱性土地。随着处于转折期的中国城市化发展的模式的转变,在土地资源稀缺的背景下,非宜耕的土地不可避免地需要承担以
作为网络交易中主要的两种定价方式,网络拍卖和固定价格各有优势。网络拍卖是由买家自主定价的,它可以把商品配置给估价最高的消费者,并使买卖双方在拍卖过程中获得更多的信息。
文中研究了中国活动构造与地震活动的关系 ,包括活动断裂、活动褶皱、活动盆地和活动块体与地震活动的关系。全部 8级、绝大部分 7~ 7.9级地震均发生在活动块体边界活动构造带