【摘 要】
:
随着信息化的推进,数据正在爆发式地增长,人们迎来了大数据时代。大数据给人们的认知和决策提供了全新的视角,海量数据的存储处理也成为了备受关注的课题。大数据具有异构、
论文部分内容阅读
随着信息化的推进,数据正在爆发式地增长,人们迎来了大数据时代。大数据给人们的认知和决策提供了全新的视角,海量数据的存储处理也成为了备受关注的课题。大数据具有异构、分布、海量和价值密度低的特点,传统的关系数据库对此显得力不从心。人们开始寻求更灵活、可扩展的数据模型,NoSQL于是得到快速发展。齐德昱教授提出GriDoc模型以处理大数据的存储和访问,该模型清晰地定义了数据的组成和存储特性,能更好地描述具体的应用场景,更适合面向知识管理的大数据访问。大数据处理主要有批处理和实时计算两种模型。Hadoop是经典的批处理框架,能很好地处理海量数据,但实时性不强。相反,实时计算更适用于实时性强的场景,其响应时间能达到秒甚至毫秒以下,Storm是目前主流的实时计算框架。本文充分研究了现有的数据模型及GriDoc模型,对比它们的特点。GriDoc模型能很好地表示海量数据,但数据加工和操作能力较弱。本文通过实现实时计算接口,加强了GriDoc的数据处理能力,使其成为数据获取、处理、输出一体化的完善的大数据解决方案。本文首先提出了处理器数据模型,用于表示和控制数据处理。用处理器表示自定义的数据处理程序,把存储资源抽象成容器,并用于支持处理器运算,最后通过视图向外部提供处理结果。基于该模型,本文设计了GriDoc实时计算接口,并使用Storm实现了实时计算体系结构。在实时计算接口的支持下,用户可以自定义数据处理程序,并以插件的形式接入实时计算体系结构。当需要处理数据时,只需要通过配置,就能把处理程序和处理规则应用到数据源,数据处理变得异常简单。此外,外部用户可以通过数据接口实时地访问处理结果,这意味着我们可以直接使用整合好的结果,而不需要接触原始数据。接着,本文使用实时计算接口实现通用统计模块。一方面检验了实时计算接口的可用性,另一方面也提供实时性强、面向配置的统计分析模块。用户可通过可视化界面观察统计结果辅助决策,也能通过数格驱动器提供的统计接口获取统计结果。最后,本文对完善后的GriDoc系统进行部署和测试,分析其优势和不足,说明未来的研究方向。
其他文献
目的:本文基于中医辨体施治理论,评价健脾化痰祛湿方对于痰湿体质肉芽肿性乳腺炎患者术后应激症状的改善情况、伤口恢复情况以及术后疾病复发情况的临床疗效,并分析其作用机理,为临床从体质方面诊疗肉芽肿性乳腺炎提供思路。方法:(1)参照肉芽肿性乳腺炎的诊断标准[1]及中医痰湿体质诊断标准[2],纳入符合标准的患者58名。随机分为试验组和对照组,每组29名。(2)两组分别给予不同的治疗,治疗组(基础治疗+健脾
抱团式临时务工团体是指是两个以上的自然人自发形成的、以共同完成某项劳务为目的、未经注册或登记的、共同经营、共同劳动、共负盈亏、共担风险的临时性组织。抱团式临时务
目的:观察从阳明经论治特发性面神经麻痹痰热阻滞证的临床疗效。方法:将符合纳入标准的60例特发性面神经麻痹痰热阻滞证的患者按照随机原则分为治疗组和对照组。治疗组采用西医基础治疗联合导师自拟荣颜方加减治疗。对照组:完全用西医基础治疗方案。治疗组与对照组均以2周为一疗程,共治疗4周。在治疗前和第4周时统计两组患者House-Brackmann量表评分、中医证候积分表积分、面部残疾指数量表得分,数据采用S
近年来,高铁已经成为人们出行最便捷的交通方式。这一现象产生出的问题便是钢轨的磨损速度会变得越来越快,对钢轨的质量也提出了越来越高的要求。目前国内各焊轨基地对钢轨廓
强风化岩层在我国分布广泛,因其类土状岩性及较浅的埋深,对地铁及隧道工程施工造成较大干扰,极大增加了施工的风险性和复杂性。地铁车站作为地铁建设的重要组成部分,通常以大断面乃至超大断面的形式存在,本身具有施工难度大风险高的特点。强风化岩层下的超大断面地铁车站建设中,在地质和施工技术方面提出了双重难题,且通过历史危险事件统计分析,发现此类车站施工中险情常发,此种工况下的地铁车站施工存在不容忽视的安全隐患
杆状病毒表达载体系统是目前应用广泛的真核表达系统之一,它是一个以杆状病毒为外源基因载体,以昆虫细胞为受体的表达系统,其表达的蛋白在生物活性、翻译后修饰、结构和免疫活性等方面与天然蛋白质相似。为了在杆状病毒表达系统中最大程度地表达外源蛋白,需要对细胞接种密度、接种病毒量等参数进行优化,其中感染复数是尤为重要的一个参数。优化感染复数的前提是获得准确病毒的滴度,因此亟需建立一种稳定的杆状病毒滴度测定方法
中国农民工为中国高速发展做出了不可估量的贡献,助力中国实现“经济奇迹”,成就“世界工厂”地位,但是他们依然沦为社会底层,是弱势群体,权益塌陷,没有话语权,成为边缘群体,
通服性即服装的通用性,特指服装适穿范围广的特点。它通常以年龄通服、性别通服、场合通服、尺寸通服、文化通服等形式加以表达。服装的通服性在不同时期的东西方服饰中都有
通信网络中,链路的冗余性设计和动态特性导致了能耗问题。本文基于网络用户的自私性,研究了用户和网络的合作调度模式,使空闲的链路和节点进入休眠从而实现节能。我们首先将
网络信息的海量性和不间歇性令用户难以快速地定位目标内容,如何快捷的为用户在“信息过载”的情况下实现高质量的推荐成为研究热点。在诸多推荐系统当中,协同过滤推荐系统因