基于海量数据的实时查询处理

来源 :武汉理工大学 | 被引量 : 6次 | 上传用户:ruindown
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
过去几年间,互联网存储的信息量增长了成千上万倍,数据环境千变万化,数据量爆炸式增长,用户需求的个性化,交互的增加和实时性,导致传统的数据库和数据处理系统已经无法处理。传统的数据库系统侧重于数据的一致性和可用性,性能、可扩展性上都比较差,无法满足可扩展性和实时性的要求。谷歌和雅虎等公司,采用NOSQL数据库(如HDFS数据库),利用平常的计算机组成族群,开发了一些可扩展的、灵活的、容错性强的海量数据框架(如Hadoop)来处理日常海量业务数据。数据流和数据框架组合在一起,形成数据流管理系统,在不存储信息的情况下,能够实时、持续不断的处理海量数据,目前很多公司已经具备自己的数据流管理系统,如yahoo S4系统、facebook puma、twitter strom、阿里iprocess等等。一个成功的数据流系统必须能够根据数据流达到情况而弹性的分配节点任务量,而且具备安全检查机制,当系统崩溃后可以从安全检查点进行恢复,最后一个特性是数据流系统的可用性,用户可以方便的使用该平台。雅虎S4系统作为一个海量数据流处理系统,受到各个公司的热捧,然而这个系统依然存在不足。本论文在S4系统的基础上,探讨通过引进查询特征和处理数据节点的机制来进行java库的开发,增加S4系统的可用性,论文中将改进后的系统称为S4_S。S4_S代替原来系统的代码扩展机制,用户通过书写连续的声明语句就可以创建新的流应用。在论文后面会证明改进系统处理数据的能力,以及用网络服务监控器和预测新浪微博话题两个应用程序证明运用此系统如何方便快捷的新建复杂的流应用。论文最后用一个处理文本数据的实验例子来分析了S4S系统的可扩展性、资源使用情况与容错性,实验结果证明系统的可扩展性满足要求,而容错性不符合预期。结合实验的结果与S4本身系统的比较,给出论文的下一步研究方向即如何让S4S系统更加简单更加稳定,并且可智能的积极响应系统不断变化的环境。
其他文献
聚丙烯酸酯以其优异的光稳定性、化学稳定性、成膜柔软、膜光洁透明等性能,被广泛应用于皮革涂饰剂、纺织涂层剂、木器漆、建筑涂料等领域中。但是,纯聚丙烯酸酯本身存在着“热
老年股骨粗隆间骨折在医学上被称为"生命当中最后一次骨折",意为患者经历此次骨折后很可能死亡,就不会有再次骨折的机会了。近年来随着人口老龄化加快,老年股骨粗隆间骨折的
“蓉杂茄8号”是由成都市农林科学院园艺研究所选育的早中熟一代杂交墨茄品种,2014年由阿坝州农业科学技术研究所引进到阿坝州进行引种栽培试验。通过连续3年的试验研究,摸索出
兴古7潜山是发现时间比较早的古潜山油藏。兴隆台潜山带油藏岩性复杂,非均质性强,油层埋藏深,为研磨性底层。而且该区块钻井多为大位移、大斜度近水平井,井底钻柱运动状态复杂,钻
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
RNA干扰(RNAi)是生物进化过程中的一种保守反应,双链小分子干扰RNA所引起的RNAi可序列特异性地使相应mRNA降解。作为一种能使靶基因表达下降的有效工具,RNAi已用于功能基因组学
草原具有涵养水源、保持水土、调节气候、净化空气的特征,是生态环境的组成部分,它不仅兼备着多种功能,而且肩负着保障国家生态安全,保证食物安全,改善民生、维护民族团结、
气既是中国传统哲学的重要范畴之一,又是中国文论的重要理论范畴之一,其含义丰厚而衍变繁杂,凡论及本体论、宇宙论、性命论者几乎各有其气论,见于中国古代的文论、书论、画论