论文部分内容阅读
奥巴马政府于2012年3月29日宣布启动一项“大数据研究与开发计划”,从此信息社会步入了大数据时代。在这个高速发展的社会,科技越来越发达,信息流通性也越来越高,人与人之间的交流变得越发密切,给生活带来了无限方便,大数据则是这个高科技时代的产物。与此同时,数据储存系统的安全可靠性则变得尤为重要,大数据中的数据量是非常巨大的,而这巨大的数据库是由结构化数据和非结构化数据组成,这就使得传统的关系型数据库很难对大数据的的数据量进行存储、管理和处理。将数据分散存储在多个的数据库中,可提高故障发生时的数据安全性。本研究着重对分布式集群数据系统的有效性、可靠性、应用性进行透彻分析。提出了三取二冗余结构半马尔可夫过程模型,假设分布式集群数据系统中的单个储存记忆的最大工作时限服从指数分布,单个储存记忆的修复时间服从广义任意分布,通过计算最终求得模型的解,得到分布式集群数据系统有效性和可靠性的重要指标。研究中首先提出分布式集群数据系统在生活中的重要作用及分析的意义所在,其次论述分布式集群数据系统运用三取二冗余结构半马尔可夫过程模型的可行性,在该分布式集群数据系统模型中,只要有一半以上存储路径正常工作,该系统就能正常工作。因此,该数据系统可靠度的模型为(N,N/2+1)并联结构,即在由这N个存储路径构成的冗余系统中,当有N/2+1个或N/2+1以上个存储路径正常工作时,系统就可以正常工作。对于由3个相同且相互独立的存储路径单元构成的TMR结构的多储存记忆融合系统,单个存储路径的失效率可视为常数。当3个路径同时工作时,单个储存器的失效率为λ=1.0×10-4h,修复时间服从任意分布,其分布密度函数为g(t)=α2texp(-αt),α=0.5,最后运用数学分析法对分布式集群数据系统的有效性、可靠性进行详细分解,得出系统平均无故障时间为:最后,对模型三取二冗余结构分布式集群数据系统与无冗余的单数据系统进行可靠性计算对比,得出,单个储存记忆的平均无故障时间为tMTBF=1/λ1=1/10-4=10000h;分布式集群数据系统的平均无故障时间为:tMTBF=5-3g(2λ)/6λ[1-g(2λ)]=1.67×106h, tMTBF数量阶数分别为四阶和六阶,系统的平均无故障工作时间变为原来的百倍,比单数据系统可靠性提高了两个数量级,因此,本文提出的模型可以比较准确地描述数据系统的现状,并且可以为评估分布式集群数据系统有效性及可靠性建立了理论依据。