这一讲,将讨论安全相关系统的故障、错误与失效的基本理念。上一讲介绍的是安全相关系统的行为和要求的基本概念。
安全相关系统的3大支柱:一是安全功能。针对特定的危险事件,为达到或保持被保护对象的安全状态,由E/E/PE安全相关系统或其他风险降低措施实现的功能。安全状态是指达到安全时被保护对象的状态。二是安全完整性。在规定的时间段内,在规定的条件下,安全相关系统成功执行所规定安全功能的概率。安全完整性分为SLI1、SLI2、SIL3、SIL4这4个等级。三是故障安全原则。当安全相关系统失效时,被保护的对象应按预定顺序达到安全状态。
安全相关系统的操作模式:一是要求模式。将被保护对象导入规定的安全状态的安全功能,仅当要求时才执行。要求模式又分为低要求模式和高要求模式。二是连续模式。安全功能将被保护对象保持在安全状态是正常操作的一部分。
我们反复强调的理念是,功能安全就是用保证安全功能能够正确实现的概率,来实现安全的。怎么保障功能的正确实现呢?就是控制安全相关系统的失效,使失效率低到一个可接受的值以下。怎么控制安全相关系统的失效呢?就是尽可能减少错误或故障,或增强系统抗故障和错误的能力。
沿着这样的思路,还是先建立概念。首先了解什么是失效。失效即功能单元执行一个要求功能的能力的终止,或功能单元不按要求起作用。
这是“IEC61508”的定义,顾名思义,还存在其他定义,内容也有些不同,因为我们是介绍功能安全,所以就必须按“IEC61508”的定义来讲。按照这个定义,失效是指:功能单元丧失了其执行所要求功能的能力;和/或功能单元虽提供某项功能,但不是所要求的功能,也就是提供了错误的功能。其中第二点是与其他定义的主要区别。还可从另一角度来理解失效,即:设立功能单元的目的,是让其执行要求的功能,安全相关系统作为一个功能单元,其目的是排除特定的行为,或避免某个特定的行为,这些行为的出现就是失效。
从一般的观点看,失效是由故障引起的(或由更低一级的功能单元的失效引起的),“IEC61508”认为,失效是由故障和/或错误(主要是人的失误)引起的。所以在基于“IEV 191-04-01”的定义上,增加了由于软件或规范等的不足而导致的系统性失效。这样一来,失效就被分为两类:随机的(在硬件中);系统的(在硬件或软件中)。前者称随机硬件失效;后者称系统性失效。
失效的主体是一个功能单元。功能单元,是能够完成规定目标的软件实体、硬件实体,或两者相结合的实体。在“IEV191-01-01”中,常用“项目”一词代替功能单元,一个项目有时可能包括人员在内。
功能单元是通过完成规定功能达到预定目标的,它可能是一个或一组软件、一个或一组硬件,以及软件和硬件的组合。如果某个功能的实现需要有人参与,则该功能单元就包括人在内。
一个功能单元的基本模型如下图1所示:
图1 功能单元构造示意图
图1中,FU代表功能单元,L代表层级。i代表1、2、3、4等数字。在这张图中,功能单元可被看作是一个由多层构成的层级结构,每一层都可依次称作功能单元。在(i)层(图中的第2层方框),“原因”可能是本层功能单元自身错误(偏离正确的值或状态),如不纠正或避免,则可能导致这一功能单元的失效,结果使其进入失效“F” 状态,即:失效状态,意味着该功能单元不能执行要求的功能。(i)层功能单元的失效“F”状态,可能依次表现为(i-1) 层(图中的第1层方框)功能单元自身的故障,如不纠正或避免,则可能导致 (i-1)层功能单元的失效。同时,i层功能单元也是由更基础的i+1层功能单元构成的。
举个例子,设立一个系统作为功能单元,该功能单元的功能是:当压力容器中的压力达到K时,打开压力容器上的阀门,放掉压力。功能回路如图2所示:
如把该系统看作是一个功能单元,这一功能单元又是由3个更基础的功能单元——压力传感器、逻辑控制器和阀门构成。同时,这3个基础功能单元又由更基础的功能单元(如零件)构成。图中传达出的重要信息是,失效控制有可能根据情况从不同的层次入手,但无论如何,失效控制都需从最基础做起。
按照“IEC61508”的观点,失效是由故障和/或错误引起。所以控制失效须从故障和错误下手。故障,即:可能导致功能单元执行要求功能的能力降低,或丧失其能力的异常状况(“ISO/IEC 2382-14”“ISO/IEC 2382-14-01-10”)。
“IEV191-05-01”定义的“故障”,是一种以无能力执行要求功能为特征的状态,不包括预防性维护或其他计划的行动期间的无能力,或外部资源的缺少产生的无能力。
对于故障有两点要引起注意:一是故障会导致功能的丧失,也可能仅导致功能的能力降低。功能的完全丧失意味着失效,功能的能力降低但未失效即是故障,这是控制失效的有效缓冲地带。二是故障表现为无能力,一般来说故障的起因是自身问题;故障的起因如是外部问题,或故障的起因是人使用的错误,则认为是外部保障问题,不作故障论。但在功能安全领域,无论什么起因,无能力都是须控制的,都作为故障。所以对于故障的控制,不仅是对内部的控制,也包括对外部保障的控制,以及对人的各种有可能的错误的控制.
理解了故障之后,再来理解什么是错误。
错误,是计算、观测和测量到的值或条件与真值、规定的或理论上正确的值或条件的差异。人为错误,也可称为失误。引发非期望结果的人的动作或不动作。本定义是以“ISO/IEC 2382-14-02-03”为基础,并与“IEV 191-05-25”给出的不同,增加了“或不动作”。
人为错误是引起失效的另一重要方面。在“IEC61508”中,为说明起因,有时将故障和人为错误都作为故障,但在处理这两类问题时,方法是完全不同的。
在这个因果链中,同一件事(实体X)即可被看作是(i)这一层功能单元的失效状态(“F”状态),即:其失效的结果是落入这个状态,也可看作是(i-1)这一层功能单元失效的起因,即:(i-1)这一层功能单元的故障。也就是说,从功能单元构成的角度看,低一层级的功能单元的失效,同时也可认为是高一层级功能单元的故障,是高一层级功能单元失效的起因。从这个角度看,故障与失效可以是一件事,这个事件(实体X)既有“IEC 61508”的“故障”概念(在这里强调其起因的概念),同时又兼有“IEC 60050-191”中“故障”的概念,这里强调其自身状态的概念。
在以上的描述中,失效由故障导致;但在有些情况下,失效可能不由内部故障引起,而由外部事件引起,如闪电或电磁干扰。而且,失效也可能在没有前期失效(故障)的前提下存在。如设计错误就是这种故障的例子。此外,人为使用不正确造成的问题,也会导致功能单元的失效。
编辑 边 安