大数据处理若干关键技术研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:dusan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据为进行趋势预测与商业决策带来便利的同时,也给我们带来巨大的挑战,特别是在大数据的处理过程中出现一系列亟待解决的问题:大量重复计算的存在,严重浪费了计算与存储资源;大数据处理的文件访问模式呈现出不均衡的特点,但现有存储架构对该种访问模式的支持还显不足;在采用多副本策略提升大数据处理平台中元数据的可靠性后,无论是元数据复制过程,还是对元数据进行更改操作都存在效率低下的问题;最后,如何采用较低成本对大数据提供容灾保障,也是当前面临的一个挑战。本文对大数据处理中产生的上述关键问题进行研究,主要研究内容和贡献可以概括如下:针对如何在大数据处理中快速进行重复计算检测这一问题,本文提出了基于预先分类的重复查询语句检测机制,在根据查询语句的特征对其进行分类后,每个查询语句的重复检测工作仅在已有历史数据中的子集内进行,在防止重复计算的前提下,避免检测时间随着历史数据的膨胀而过快增长。针对大数据处理中呈现出的文件访问模式不均衡的特点,本文提出了一个基于分级存储架构的大数据处理解决方案,可以根据当前工作负载状况判断出全局数据集中的热数据,并通过一个共享存储集群对热数据的处理进行加速。针对采用多副本策略后产生的元数据复制过程效率低下问题,本文提出了基于分离复制策略的元数据复制方法,使内存中元数据与磁盘中元数据操作日志的复制过程相分离,各自独立,避免在元数据的复制过程中产生磁盘I/O,在保障元数据可靠性的同时缩短了元数据复制时间。针对大数据处理平台中元数据一致性问题,本文提出了一种基于批量执行的两阶段提交协议Batch-2PC,该协议通过“批量执行,批量提交”的策略,减少了处理多个元数据更改操作过程中产生的网络延时,并采用预先冲突检测进一步缩短操作的完成时间。本文还设计并实现了一套关键信息灾备系统,可对大数据处理平台提供容灾保障,该系统通过云存储降低容灾成本,并利用全局去重的思想优化了异地数据传输量和数据恢复时间。
其他文献
为了掌握碳排放影响因素研究的进展,采用比较分析的手段,从碳排放影响因素的研究尺度和对象、分析方法、研究结论等方面进行梳理和概括。现有的研究成果呈现以下特点:1)根据
植被是陆地生态系统的重要组成部分,它通过呼吸作用、蒸腾作用和光合作用等参与水循环、能量循环和物质循环。植被可以在一定程度上反映陆地生态系统的状况,所以对植被的生长
基于Mathematica系统研发了三元及四元水盐体系相平衡溶度图的计算机辅助绘制程序,介绍了程序的设计思想、编制方法及功能与特色。应用该程序绘制了三元体系RbCl-SbCl3-HOAc(
<正>关于"慰安妇"问题研究的契机、意义和贡献姚:苏教授,您是1985年毕业于华东师范大学中国近现代史专业的研究生,后到上海师范大学工作。最初从事的是帮会史和毒品史的研究
<正> 峯巒叠翠的北京西山,擁有许多古老的佛教寺院,位于寿安山南的十方普覺寺,就是其中著名的一座。该寺始建于唐贞观年间(627-649年),曾几易其名,初称“兜率寺”,后改名“昭
预应力索撑型屈曲约束构件(PCS-BRB)是一种新型屈曲约束构件。通过在普通BRB外筒约束构件中引入索撑体系,能有效提高BRB的外围整体约束刚度,达到提高BRB承载效率的目的。这种
贫煤由于挥发份含量较低,存在着火和燃尽困难,NO_x排放较高等问题,而在燃煤电站锅炉超低排放改造中,低NO_x燃烧技术是首选的成本低廉的NO_x控制技术,因此,贫煤低NO_x燃烧是目
2012年11月,党的十八大报告首次以12个词语凝练和概括了社会主义核心价值观:“倡导富强、民主、文明、和谐,倡导自由、平等、公正、法治,倡导爱国、敬业、诚信、友善。”社会
鸟类的行为学研究是对其进行深层次生态学研究以及开展保护和管理行动的前提,而清晰且完整的个体行为谱则是保证行为学研究在统一框架内进行的基础。作为青藏高原的特有物种,
本文通过分析高职教师的职业能力标准,结合重庆城市管理职业学院师资队伍建设思路,探索高职院校师资队伍质量管理体系的构建。