论文部分内容阅读
【摘 要】 随着经济的不断发展,为了满足通讯设备、网络设备等高可靠度和高可用度的要求,这些设备的重要组成单元都会采用冗余备份措施,借鉴失效模型故障分析(FMEA)的思想,本文提出了一种新的关于故障检测率的定义方法,并在此基础上提出了一种提高冗余备份单元的故障检测率的分析方法。
【关键词】 可靠性;可测试性;失效模型故障分析
1 可测试性与可靠性的关系
1.1故障检测率和虚警率
可测试性指标很多,其中最重要的两个指标是故障检测率FDR(FaultDetectionRate)和虚警率FAR(FalseAlarmRate)。这些指标的确定直接与设备的可靠性要求以及可维修性要求相关。故障检测率和虚警率的概念分别介绍如下。
故障检测率:
式中各项的含义:p(T/F)表示系统有故障时,测试结果指示有故障的条件概率,即故障检测率。其中F表示实际有故障,T表示测试结果指示故障。NT表示工作时间t内发生的实际故障数,ND表示工作时间t内正确检测到的故障数。λD为所有故障模式在单位时间内正确被检测出的总故障数,即正确检测出的总故障频率;λ为所有故障模式在单位时间内产生的总故障数,即总故障频率;λDi为第Di个故障模式被正确检测出的故障频率。λi为第i个故障模式的故障频率。
虚警率:
P(r/n表示在实际无故障时,而测试结果指示有故障的概率,即虚警率。表示实际无故障,即表示错误故障指示(错误告警)占总故障指示(告警)的比例。N为故障指示(报警)总次数;NFA为错误故障指示(误告警)的次数;NF为真实故障指示(真实告警)的次数。
1.2有冗余备份的单元组的故障检测率和虚警率的确定方法
(1)故障检测率
一旦一个单元(对应图一中的一个unit)检测到故障,确认故障后,就将启动倒换机制,用无故障的备用单元代替有故障的工作单元工作,保证任务正常执行。若倒换本身的成功率是100%,每个单元的故障概率为P,单元的故障检测率为rFD,相互备份形成的功能组的故障概率为PG,那么PG应该由一个单元故障但检测不到故障而不引起倒换的概率(1-rFD)P和虽能检测到故障但两个单元同时发生故障的概率rFDP2两部分组成。
设备可能还会有1:N保护的业务单元(即用一个冗余备份板,保护N个工作的业务板)那么对于這样的功能组合,同样可以进行类似的分析。设备的系统设计时,从基本可靠性和任务可靠性的角度出发,单板和备份组可接受的故障率就能基本确定
(2)虚警率
可测试性指标中除了故障检测率外,还有一个重要的指标是虚警率,它的确定,与故障检测率相关。虚警率可根据经验公式来确定。
Arrd+a式中,其中λFA和分别是故障检测系统BITE的故障率和总体系统的故障率。α可在0.01~0.04之间取值。虚警率越高,错误故障告警越多,这样会引入不必要的维护活动,应尽量避免。因此一般的测试系统有这样两条原则。1)构成BITE的元器件故障率比系统及设备所采用的元器件故障率低一个数量级;2)规定系统中用于BITE的元器件数不多于整个系统元器件总数的10%。从改善设备的基本可靠性出发也是很容易理解的,元器件越多,设备的基本可靠性越差,维修活动越频繁。
1.3不带冗余备份的单元故障检测率和虚警率的确定
不带冗余备份的单元,设备的可测试性与可靠性也有密切的联系。可靠度R、可用度A和维修度函数都属于可靠性研究的范畴。假定设备运行故障的情况下,设备的维修就是定位故障单元,然后更换故障单元,设备继续工作,单元的维修工作,在脱离运行的设备后再实施,实际情况也基本上如此。那么故障检测度rFD和可靠性指标间有如下的关系。
式中SR(f,口)为t,是在口时间内更换成功的概率。它与单板稳定性、时序设计、容差设计、热插拔设计以及维护人员的熟练程度有关。的值可凭经验估计。设备在系统设计时根据分配给各单元的可靠度,可用度指标,A(tm)和R(tm)的可接受范围应该能大体确定。为系统故障检测率,其值的大小可以由系统设计时确定的相关可靠性指标来决定。
2 基于FMEA的思想实施可测试性设计
可测试性的设计可以按照以下步骤循环迭代实现。
1)根据公式计算单板的故障检测率要求达到的最小值。
2)按照FMEA的思路,分析并列举单板上所有可能的潜在失效模式。
3)制定故障严重度和故障发生概率的评分标准,根据评分标准对每个潜在的失效模式进行故障严重度和故障发生概率的评分。
4)制定故障检测难易程度、检测将带来的额外软、硬件代价的评分体系,其取值范围1~10,难度低、代价低的取值高。
5)计算每一个潜在故障故障的严重度、故障发生概率和故障检测难易度的乘积。Pi=SiOiEi,其中Si表示某故障的严重度,Oi表示某故障的发生概率,Ei表示某故障的检测的容易度simplicity。
6)按照Pi分值从大到小进行排序列表,优先选择分值最大的故障,设置测试点,估算所有I个故障中,需要检测到的故障个数DI,代入(8)式中进行计算,判断故障检测度能否满足步骤1.提出的要求。
7)如果检测度小于要求的值,则增大DI,再代入(8)式中进行计算,判断故障检测度能否满足步骤1.提出的要求;如果检测度大于要求的值,则可试图减小DI,再代入公式进行计算,判断故障检测度能否满足要求,如此叠到找到合适的DI值。
8)按照步骤7计算得到的Di值,对应步骤6得到排序列表中,前DI个故障都需要设置故障检测点进行在线故障测试。
9)根据故障检测点加入后,计算一下专为故障检测功能而增设的部分其故障率和单板总体的故障率,代入公式可以估算单板的虚警率。当故障检测率rFD越高,检测电路的故障率越低时,虚警率就会越低。
3 结语
总结了可测试性与可靠性的关系,指出通讯设备冗余措施要达到高可靠性的要求必需依赖于高的可测试性,即使没有冗余备份措施的单元,提高其可测试性同样能达到提高设备可用度的目的。
参考文献:
[1]田仲,石君友.系统测试性设计分析与验证[M].北京航空航天大学出版社,2013.
[2]李海泉,李刚.系统可靠性分析与设计科学出版社,2011(2)
【关键词】 可靠性;可测试性;失效模型故障分析
1 可测试性与可靠性的关系
1.1故障检测率和虚警率
可测试性指标很多,其中最重要的两个指标是故障检测率FDR(FaultDetectionRate)和虚警率FAR(FalseAlarmRate)。这些指标的确定直接与设备的可靠性要求以及可维修性要求相关。故障检测率和虚警率的概念分别介绍如下。
故障检测率:
式中各项的含义:p(T/F)表示系统有故障时,测试结果指示有故障的条件概率,即故障检测率。其中F表示实际有故障,T表示测试结果指示故障。NT表示工作时间t内发生的实际故障数,ND表示工作时间t内正确检测到的故障数。λD为所有故障模式在单位时间内正确被检测出的总故障数,即正确检测出的总故障频率;λ为所有故障模式在单位时间内产生的总故障数,即总故障频率;λDi为第Di个故障模式被正确检测出的故障频率。λi为第i个故障模式的故障频率。
虚警率:
P(r/n表示在实际无故障时,而测试结果指示有故障的概率,即虚警率。表示实际无故障,即表示错误故障指示(错误告警)占总故障指示(告警)的比例。N为故障指示(报警)总次数;NFA为错误故障指示(误告警)的次数;NF为真实故障指示(真实告警)的次数。
1.2有冗余备份的单元组的故障检测率和虚警率的确定方法
(1)故障检测率
一旦一个单元(对应图一中的一个unit)检测到故障,确认故障后,就将启动倒换机制,用无故障的备用单元代替有故障的工作单元工作,保证任务正常执行。若倒换本身的成功率是100%,每个单元的故障概率为P,单元的故障检测率为rFD,相互备份形成的功能组的故障概率为PG,那么PG应该由一个单元故障但检测不到故障而不引起倒换的概率(1-rFD)P和虽能检测到故障但两个单元同时发生故障的概率rFDP2两部分组成。
设备可能还会有1:N保护的业务单元(即用一个冗余备份板,保护N个工作的业务板)那么对于這样的功能组合,同样可以进行类似的分析。设备的系统设计时,从基本可靠性和任务可靠性的角度出发,单板和备份组可接受的故障率就能基本确定
(2)虚警率
可测试性指标中除了故障检测率外,还有一个重要的指标是虚警率,它的确定,与故障检测率相关。虚警率可根据经验公式来确定。
Arrd+a式中,其中λFA和分别是故障检测系统BITE的故障率和总体系统的故障率。α可在0.01~0.04之间取值。虚警率越高,错误故障告警越多,这样会引入不必要的维护活动,应尽量避免。因此一般的测试系统有这样两条原则。1)构成BITE的元器件故障率比系统及设备所采用的元器件故障率低一个数量级;2)规定系统中用于BITE的元器件数不多于整个系统元器件总数的10%。从改善设备的基本可靠性出发也是很容易理解的,元器件越多,设备的基本可靠性越差,维修活动越频繁。
1.3不带冗余备份的单元故障检测率和虚警率的确定
不带冗余备份的单元,设备的可测试性与可靠性也有密切的联系。可靠度R、可用度A和维修度函数都属于可靠性研究的范畴。假定设备运行故障的情况下,设备的维修就是定位故障单元,然后更换故障单元,设备继续工作,单元的维修工作,在脱离运行的设备后再实施,实际情况也基本上如此。那么故障检测度rFD和可靠性指标间有如下的关系。
式中SR(f,口)为t,是在口时间内更换成功的概率。它与单板稳定性、时序设计、容差设计、热插拔设计以及维护人员的熟练程度有关。的值可凭经验估计。设备在系统设计时根据分配给各单元的可靠度,可用度指标,A(tm)和R(tm)的可接受范围应该能大体确定。为系统故障检测率,其值的大小可以由系统设计时确定的相关可靠性指标来决定。
2 基于FMEA的思想实施可测试性设计
可测试性的设计可以按照以下步骤循环迭代实现。
1)根据公式计算单板的故障检测率要求达到的最小值。
2)按照FMEA的思路,分析并列举单板上所有可能的潜在失效模式。
3)制定故障严重度和故障发生概率的评分标准,根据评分标准对每个潜在的失效模式进行故障严重度和故障发生概率的评分。
4)制定故障检测难易程度、检测将带来的额外软、硬件代价的评分体系,其取值范围1~10,难度低、代价低的取值高。
5)计算每一个潜在故障故障的严重度、故障发生概率和故障检测难易度的乘积。Pi=SiOiEi,其中Si表示某故障的严重度,Oi表示某故障的发生概率,Ei表示某故障的检测的容易度simplicity。
6)按照Pi分值从大到小进行排序列表,优先选择分值最大的故障,设置测试点,估算所有I个故障中,需要检测到的故障个数DI,代入(8)式中进行计算,判断故障检测度能否满足步骤1.提出的要求。
7)如果检测度小于要求的值,则增大DI,再代入(8)式中进行计算,判断故障检测度能否满足步骤1.提出的要求;如果检测度大于要求的值,则可试图减小DI,再代入公式进行计算,判断故障检测度能否满足要求,如此叠到找到合适的DI值。
8)按照步骤7计算得到的Di值,对应步骤6得到排序列表中,前DI个故障都需要设置故障检测点进行在线故障测试。
9)根据故障检测点加入后,计算一下专为故障检测功能而增设的部分其故障率和单板总体的故障率,代入公式可以估算单板的虚警率。当故障检测率rFD越高,检测电路的故障率越低时,虚警率就会越低。
3 结语
总结了可测试性与可靠性的关系,指出通讯设备冗余措施要达到高可靠性的要求必需依赖于高的可测试性,即使没有冗余备份措施的单元,提高其可测试性同样能达到提高设备可用度的目的。
参考文献:
[1]田仲,石君友.系统测试性设计分析与验证[M].北京航空航天大学出版社,2013.
[2]李海泉,李刚.系统可靠性分析与设计科学出版社,2011(2)