Business Continuity Management: come faccio a stimare il rischio residuo?

Prosegue il percorso dedicato alla business continuity e al disaster recovery che ZeroUno affronta in collaborazione con il Clusit, la più importante associazione italiana nel campo della sicurezza informatica. Dopo aver affrontato il tema partendo dalla definizione del business continuity e del disaster recovery planning e analizzato gli aspetti organizzativi della business continuity, in questo articolo si affronta il tema del Business Continuity Management

Pubblicato il 29 Nov 2007

Nell’articolo “L’impianto della Business Continuity in azienda: problematiche e suggerimenti”, abbiamo esaminato, a grandi linee e con qualche esempio, cosa comporti un progetto di Business Continuity in Azienda.
Questa volta accenniamo al processo di Business Continuity Management (Bcm), ossia, alla gestione corrente del piano di continuità (o dei piani di continuità, se più di uno) ed alle problematiche connesse. Per fare ciò ci riferiamo allo Standard BS25999, da poco tempo emanato ufficialmente; esaminiamo successivamente, in dettaglio, alcune problematiche che si presentano nella fase più rilevante del processo: la scelta delle misure preventive e di emergenza atte a limitare i danni a seguito di incidenti o catastrofi. L’esame di queste problematiche, permette altresì di ben comprendere il peso di alcune fasi fondamentali del ciclo di Bcm (1).

New call-to-action

Il ciclo di Business Continuity Management
Innanzitutto la definizione tratta dallo standard.“Il Business Continuity Management è un processo gestionale olistico che identifica, in anticipo, il potenziale impatto di un’ampia varietà di interruzioni alla abilità dell’organizzazione (2) di funzionare, consentendo a tale organizzazione di tollerare in parte o in tutto la sua capacità operativa (3)”.
Gli elementi “chiave” del BCM includono la comprensione del contesto nel quale è inserita l’organizzazione; la comprensione dei prodotti e servizi critici che l’organizzazione deve consegnare (i suoi obiettivi); capire quali ostacoli od interruzioni possono opporsi alla consegna dei prodotti e servizi critici; comprendere come l’organizzazione possa continuare a raggiungere i suoi obiettivi in caso di interruzioni; comprendere quali risultati si ottengono qualora siano resi operativi i controlli ed altre azioni di mitigazione; comprendere quali sono i criteri e le leve che fanno scattare la risposta all’incidente e all’emergenza e le procedure di ripartenza; assicurare la comprensione del proprio ruolo e delle responsabilità da parte del personale, qualora dovesse avvenire una catastrofe; creare un generale consenso e partecipazione alla realizzazione, diffusione ed esercizio della business continuity; integrare la business continuity nel business di tutti i giorni.

Nella figura di seguito è illustrato il ciclo di Bcm.È chiaramente un ciclo dato che l’organizzazione aziendale cambia, gli scenari mutano e pertanto anche il piano di business continuity deve essere continuamente adeguato. Se osserviamo la figura, una parte di rilievo l’assume la comprensione dell’ambiente (“understanding the organization”). È su questo punto che ritengo opportuno soffermare l’attenzione in quanto se il Business Continuity Manager, coinvolgendo tutte le funzioni aziendali, riesce a rappresentare in modo attendibile i rischi e gli impatti nei quali l’Azienda può incorrere e ad aggiornarli tempestivamente al mutare dell’ambiente, la metà del lavoro è già fatto.
Con ciò non si vuole dire che la scelta delle soluzioni di mitigazione dei rischi sia così semplice da trascurarla, ma si vuol sottintendere che, una volta che siano stati fissati e concordati a tutti i livelli aziendali i possibili danni nei quali l’Azienda può incorrere, le soluzioni possibili poggeranno su una base solida, credibile. Ci saranno quindi ottime possibilità che siano realizzate in modo adeguato per efficienza e bilanciamento costi/rischi.


Figura1: illustrazione del ciclo di Business Continuity Management

(cliccare sull’immagine per ingrandirla)

Riprendiamo la definizione di Bcm, ma questa volta cito quella della Banca d’Italia, scritta oltre due anni prima dello standard (4), perché più completa ed adatta all’approfondimento che ci accingiamo a fare:
“La Gestione della Continuità Operativa comprende tutte le iniziative volte a ridurre ad un livello ritenuto accettabile i danni conseguenti ad incidenti e catastrofi che colpiscono direttamente o indirettamente un’azienda (5)”.
Innanzitutto quello che va osservato è l’affermazione: “iniziative volte a ridurre ad un livello ritenuto accettabile i danni…”: ciò lascia intendere che l’azienda, in caso di incidente o grave catastrofe, non deve riprendere immediatamente le attività operative e di business come se nulla fosse successo, ma deve operare in maniera tale da limitare i danni. Quindi, le attività che devono riprendere quanto prima sono quelle il cui arresto procura perdite economiche e non, per esempio, i mancati guadagni. Ma procediamo con ordine.
Generalmente trattasi di attività già in corso o in scadenza nelle ore o giorni successivi; le nuove attività, quali la ricerca di nuovi clienti, l’accettazione di nuovi contratti, ecc. non dovrebbero richiedere una rapida ripartenza in caso di catastrofe.
Ciò consente di ridurre le esigenze di recovery nel brevissimo e breve periodo (6).

Eventi prevedibili e non: la percezione dell’utente
Quando si afferma che si devono individuare misure tese a ridurre ad un livello accettabile i danni, si può dedurne che a) l’Azienda appare “sovrana” nel decidere quale rischio mitigare e quale assumere, b) va definito cosa si intende per “accettabile”.
Ciò che è accettabile per una Business Unit può non esserlo per un’altra.
A tutti coloro che si occupano di business continuity sarà capitato di sentirsi dire da un process owner: “il mio processo non si può fermare nemmeno un minuto, altrimenti perdo i clienti!”. A volte, quando si cerca di capire a quanto potrebbe ammontare la perdita, salta fuori che il danno possibile non è elevato se rapportato alla capacità di assorbimento economico dell’Azienda – “risk appetite” -, ovvero l’ammontare massimo di perdita economica che l’Azienda può accettare in condizioni di emergenza.
Apro qui una parentesi. Quando parliamo di incidenti che interrompono l’operatività, sappiamo che per non commettere errori di valutazione li dobbiamo distinguere in probabili o improbabili. Appartengono alla prima categoria quelli che accadono con una certa frequenza anche se non elevata (ad esempio: guasto ad un computer; interruzione dell’alimentazione elettrica; ecc.); alla seconda categoria appartengono gli eventi disastrosi o di particolare gravità (ad esempio quelli che impattano sulla salute di uno o più soggetti).
Fin qui è tutto chiaro per noi, ma l’esperienza dimostra che non lo è per l’utente. Ipotizziamo che il nostro interlocutore, il process owner” sia il responsabile di uno sportello di assistenza alla clientela. Se, a causa di un guasto al computer o della mancanza di corrente per un guasto all’interruttore generale, è impossibilitato a dare la dovuta assistenza, senz’altro i clienti manifesteranno la loro insoddisfazione e non è escluso che quelli che ne hanno la possibilità decidano di cambiare fornitore se gli effetti di tale incidente si prolungano nel tempo e ciò accade in un periodo del mese o dell’anno particolarmente importante.
La stessa insoddisfazione la manifesterebbero anche qualora il responsabile dello sportello, in un’ottica di business continuity, li invitasse a recarsi ad un’altro sportello, scelto quale soluzione di recovery.
Ma qualora si fosse verificato un grave disastro, i clienti capirebbero facilmente le motivazioni dell’interruzione di servizio e che questo si è verificato indipendentemente dalla volontà o dai controlli effettuati dall’Azienda e probabilmente, pur di avere comunque quanto da loro atteso, non si lamenterebbero qualora fosse loro presentata l’ipotesi di recarsi ad un altro sportello. Anzi, se la soluzione di recovery venisse loro ben presentata, essi potrebbero anche manifestare un certo apprezzamento per l’efficienza dell’organizzazione.
In conclusione, quando si intervistano le Unità Organizzative ed i process owners, bisogna tenere in debito conto anche questi aspetti, ossia, bisogna far capire la differenza netta che esiste fra incidente, inteso come evento che ha una probabilità di accadere e le cui misure di prevenzione il Cliente si attende ricadano nella responsabilità dell’Azienda (nel nostro esempio, con batterie tampone, doppio server, linea di backup, ecc.), ed incidenti gravi e catastrofi, che l’Azienda deve cercare di mitigare ma la cui probabilità di accadimento è assolutamente irrisoria o inesistente.
Ciò che ho detto appare ovvio ma ho potuto notare che chi intervista gli utenti si dimentica di questa distinzione non poche volte e, così, non guida il process owner in modo corretto nella stima dell’impatto reale.

Il “risk appetite”: deve essere formalmente definito?
Ritornando ora sul tema della definizione di livello “accettabile” di rischio, inteso correlato al “risk appetite” dell’azienda, la domanda più ovvia è: se non c’è una definizione puntuale e formalizzata di “risk appetite”, come si calcola? E’ indispensabile per la business continuity?
In prima approssimazione, può essere una percentuale del margine di contribuzione, ma deve essere una misura formalmente accettata e conosciuta. Altrimenti si generano problemi in fase di design delle soluzioni di continuità operativa. La risposta più facile è: lo si chiede al proprietario dell’Azienda!
È senz’altro doveroso, se non obbligatorio, interessare il Consiglio di Amministrazione su questi temi che attengono alla sopravvivenza stessa dell’Azienda o, comunque, possono impattare fortemente sulla sua redditività attuale e prospettica.
Ma il CdA deve poter essere messo in grado di prendere una decisione mettendo a sua disposizione tutti gli elementi necessari.
Ne consegue che il Business Continuity Manager (BCM) deve poter giustificare la quantizzazione dei possibili danni, dell’incidenza delle contromisure e del rischio residuo che è l’elemento fondamentale sulla base del quale l’Azienda prende la decisione.
Il coinvolgimento del CdA è una forte garanzia di una scelta ponderata e condivisa. E’ altresì un “sostegno” per il BCM e per le strutture dell’Azienda, responsabili della implementazione delle misure di mitigazione approvate (Sistemi Informativi, Sicurezza, Assicurazioni, Immobili, ecc.).
Ma il CdA vuole dati economici, cifre sulla base delle quali poter decidere. Non basta dire “perdita di immagine”: bisogna quantizzarla. Quanti clienti potrebbero abbandonare l’Azienda? Che percentuale per tipologia di clientela (primaria; VIP; piccole imprese; ecc.)? Sulla base di quali statistiche è stata fatta la stima? Qual è stata la contribuzione di questi clienti negli ultimi 12 mesi? Negli ultimi anni? Affermo ciò, in quanto in qualche libro si legge che la misura dell’impatto può essere qualitativa e/o quantitativa. Come capite, secondo me non può essere solo qualitativa. Ci sono sempre delle eccezioni, ma devono essere di per sé autosufficienti (ad esempio: violazione di legge; rischio di una sanzione agli Amministratori; interdizione dai Pubblici Uffici; ecc.). In questi casi la domanda chiave è: ce lo possiamo permettere?
Non possiamo però dimenticarci che, sottostante alla stima del danno, vi è anche una valutazione della probabilità di accadimento dell’evento pregiudizievole.
Questo tema avrebbe bisogno di un trattato a sé e, a questo proposito, un esperto di rischi operativi direbbe:”se non è determinabile la probabilità, allora niente stima della possibile perdita economica” (Loss Given Event).
La mia opinione è che gli eventi disastrosi non hanno probabilità ma ciò non toglie che la domanda da porci è sempre la stessa: se dovesse verificarsi l’evento disastroso previsto e noi non avessimo adottato misure preventive, di emergenza e di recovery adeguate, l’Azienda si può permettere di accettare questo rischio? “Ce lo possiamo permettere?”
Faccio ancora un esempio. In America, aziende orientate al Cliente come FedEx e Wall Mart, hanno nei loro piani l’evacuazione di tutti gli uffici e negozi qualora sia previsto un uragano di categoria 5, la massima. La probabilità di un tale uragano è (lo è ancora?) di una volta ogni 400 anni. Non hanno adottato misure preventive, come invece nei casi di forza inferiore (gruppi elettrogeni; acqua e viveri; scorte armate; ecc.). Hanno scelto di investire nel pronto ritorno alla normalità.
In Olanda la probabilità che l’acqua tracimi oltre le dighe è di una volta ogni 10.000 anni. Ciò nonostante ogni anno sono previsti investimenti in misure preventive. Infatti non se lo possono permettere!
Allora, ogni Azienda deve, qualunque sia il livello di probabilità, domandarsi a fronte di uno scenario disastroso: ce lo possiamo permettere? O dobbiamo investire in misure preventive, di emergenza, di recovery e di pronto ritorno alla normalità?

La stima del rischio residuo
Se ritorniamo alla stima economica, del rischio residuo, sappiamo che questo è il risultato della sottrazione fra il costo dell’azione di mitigazione e la stima del possibile danno.
In base alla mia esperienza, la storia pregressa dell’Azienda e di altre realtà similari – banche dati di associazioni di categoria e di società di servizi, dati o valutazioni eseguite dalla Protezione Civile – e le stime che i tecnici dell’Azienda possono compiere al meglio considerate le loro conoscenze, possono fornire delle valutazioni molto attendibili della probabilità di accadimento di scenari disastrosi e la loro possibile ampiezza.
A questo punto, potrebbe sembrare che il lavoro sia completo. Invece ci sono altri risvolti, altre problematiche che sorgono durante questa fondamentale e delicata fase della BCM.
Qualora, malgrado tutti gli opportuni scongiuri, dovesse avvenire il paventato disastro, quale probabilità abbiamo che la valutazione del danno mitigato sia dell’ordine di grandezza di quanto portato all’attenzione del CdA? Potremmo affermare che, data la bontà delle stime, il risultato non dovrebbe discostarsi in modo significativo. Oppure – ma la mia è una battuta cattiva – assegniamo tale responsabilità all’Operational Risk Management, e siamo a posto! Non è corretto! Se ci pensiamo su, ci rendiamo conto che non abbiamo considerato altri fattori importanti.
Per rispondere compiutamente bisogna tenere presente che:
rischio residuo = danno stimato (massimo?) – rischio mitigato.
La stima del rischio residuo è quindi eseguita in base al possibile danno e al rischio mitigato. È ovvio. È anche ovvio che la stima del danno è funzione dell’impatto che ha un’interruzione di uno o più processi di business.
Ipotizziamo che il processo X debba essere completato tutte le sere entro le ore 18 e non possa comunque superare le ore 19.
Se l’incidente capita alle 6 del mattino ci sono 13 ore di tempo per riprendere l’operatività. Se accade alle 20 se ne riparla il giorno dopo, essendo già ultimata l’operatività. Se capita alle 15, in piena operatività, o il processo riparte subito oppure non è possibile per quell’Unità Organizzativa rispettare il “cut-off” delle ore 19.00.
Come si fa la stima? L’impatto di un disastro è funzione del momento in cui avviene e anche della sua estensione. È generale opinione che ci si debba posizionare sui valori massimi.
Pertanto si considera il momento peggiore per stimare il danno, e, sulla base di questa valutazione e della tipologia di incidente, si ipotizzano le possibili soluzioni di mitigazione.
Facciamo un esempio pratico: si può pensare di utilizzare un gruppo di lavoro situato in un altro edificio; oppure, di ricollocare il personale critico in un sito non distante, sempre che ciò sia fattibile e compatibile con i tempi massimi accettabili di interruzione.
Analogamente, per la dimensione del danno, si ipotizza che l’impatto sia massimo. Se la tipologia di incidente è la mancanza di energia elettrica, la si pensa per tutto l’edificio, non solo per il piano ove sono i posti di lavoro dei processi critici. Per completezza informativa, quando si parla di impatto di un disastro, si devono fare alcune assunzioni di base. In particolare si ipotizza che: a) la risposta fornita dall’Azienda tramite le sue strutture – ufficio tecnico, CERT, ecc. – e dalle strutture pubbliche (ad esempio: vigili del fuoco) sia ottimale per tempestività ed efficacia; b) l’ambiente circostante, le infrastrutture esaminate, gli ambienti in cui si svolgono i processi non mutino nel tempo.
Esaminiamo questi due fattori che hanno impatto sulla quantificazione dei danni riportati a seguito della manifestazione della catastrofe. Non dimentichiamo la gestione dell’emergenza e l’aggiornamento delle informazioni di base.
Come detto sopra, ciò che molto spesso sfugge è che il danno, essendo anche funzione dell’efficacia della macchina operativa nell’affrontare l’emergenza, può essere di gran lunga maggiore del preventivato.
Tanto è più lenta ed impacciata la gestione dell’emergenza, tanto più elevato potrà essere il danno. In particolare, vi è un momento fondamentale nella gestione dell’emergenza: la prima ora (“The golden hour”, la chiamano gli americani). Un’efficace risposta all’incidente richiede un allenamento, una conoscenza del “da farsi” e quindi dei team efficienti, capaci di prendere rapidamente in mano il governo della situazione.
Ecco perché non ha senso affermare di avere un piano di continuità operativa se le persone coinvolte nei processi critici e nei team di emergenza non hanno dimestichezza nella gestione degli incidenti. Obbligatori sono quindi gli investimenti in addestramento, simulazione ed awareness.
Ma, come già detto, l’ampiezza del danno a fronte di una determinata minaccia – ad esempio un terremoto – non è solo coerente con la storia (nel nostro caso nella zona in esame ha avuto un’intensità massima di 7 della scala Mercalli), ma è anche funzione di altri parametri che possono essere cambiati nel tempo rispetto alla prima rilevazione (la costruzione di un edificio di struttura di qualità inferiore accanto al nostro; sbancamenti di terreno per fare posto ad una strada; lavori di pavimentazione, palificazione, ecc.).
Da qui un’altra preoccupazione deve essere quella di aggiornare continuamente tutto ciò che è servito e serve per valutare il possibile danno.
Proseguendo l’esempio dello scenario del terremoto, anche la struttura dell’edificio potrebbe essere mutata nel lasso di tempo che intercorre fra la stima del possibile danno e l’evento disastroso: un ufficio potrebbe essere stato ristrutturato ed i processi critici spostati in un edificio a minore capacità di resistenza ad un sisma disastroso.
Ciò conferma la necessità di un continuo aggiornamento non solo di ogni processo e di ciò di cui necessita per poter operare, ma anche dell’ambiente nel quale esso effettivamente si svolge: sito, collegamenti, ambiente geo-morfologico, vicinanza di siti industriali pericolosi, variazioni nelle vie di comunicazione, ecc..
Nella “filiera” di un processo critico rientrano anche altre realtà aziendali (Fornitori, Outsourcer, Società del Gruppo, Clienti, ecc.) che risultano fondamentali per la prosecuzione delle attività di business.
Anche queste realtà fanno parte del perimetro di interesse del Business Continuity Manager. Un disastro presso una di queste realtà, una variazione nel loro coinvolgimento, il fallimento di una di queste, se non opportunamente prevenuto con misure di mitigazione del danno, possono provocare l’interruzione del processo operativo e danni consistenti.
Un argomento che, qui ometto per brevità, ma che necessiterebbe di una trattazione a sé, è quello relativo alla indisponibilità, anche per lungo tempo, di persone coinvolte nei processi critici. È indispensabile redigere dei piani con i process owner.

Conclusione
Riprendo quindi la definizione di gestione della continuità operativa data dalla Banca d’Italia, perché più completa rispetto allo Standard:
“ La Gestione della Continuità Operativa comprende tutte le iniziative volte a ridurre ad un livello ritenuto accettabile i danni conseguenti ad incidenti e catastrofi che colpiscono direttamente o indirettamente un’azienda”. Come si è potuto ben comprendere, nella stima del possibile impatto di un incidente su un processo di business vi sono molte variabili il cui controllo non è facile. Ma ciò è possibile nella misura in cui il processo, continuo, di BCM vede tutte le realtà aziendali partecipi costruttivamente e pienamente coinvolte nell’aggiornamento delle informazioni utili a stimare i rischi e le relative quantizzazioni, ai quali l’Azienda stessa è potenzialmente soggetta.
In ogni modo, data tale incertezza, suggerisco di valutare la fattibilità e di stipulare una polizza assicurativa per la copertura dei danni indiretti (“residui”).
Il premio annuo non dovrebbe essere elevato in quanto l’Azienda, quando la sottoscriverà, avrà già operato una serie di interventi di mitigazione che dovrebbero consentire di limitare al massimo i danni.
In particolare, i piani di recovery e di emergenza dovranno prevedere: l’allestimento di quanto necessario per la prosecuzione dei processi critici nei primi tre giorni dall’incidente; periodiche verifiche del funzionamento di dette misure, consentendo così al personale coinvolto nei processi critici di familiarizzare con esse.
Sono a conoscenza del fatto che alcune polizze assicurative pongono una franchigia di un ammontare non lontano dalla possibile perdita economica attesa nei primi tre giorni. Ecco perché suggerisco di coprire i primi tre giorni dall’evento disastroso con adeguati piani periodicamente testati.

*Anthony Cecil Wright, specialista nell’area dello sviluppo dei Sistemi Informativi e Sicurezza ICT, è oggi dirigente del Gruppo BNP Paribas dove si occupa di continuità operativa. È autore di testi d’informatica e ha esercitato attività di docenza nella Facoltà di Ingegneria di Roma e nella Scuola di Polizia Tributaria della Guardia di Finanza. È presidente dell’Associazione Nazionale Specialisti di Sicurezza in Aziende di Intermediazione Finanziaria (Anssaif) nonché socio Clusit.


(1) Ho cercato in questo articolo di mediare fra due opposte esigenze: fornire a chi si cimenta in questa materia (Business Continuity, Sicurezza, ICT, Operational Risk management, auditing) degli spunti di riflessione; ma, data la varietà di possibili lettori di questa rivista, ho cercato anche di usare termini ed esempi alla portata di chiunque. Spero di non avere scontentato tutti!
(2) Lo standard parla genericamente di organizzazione, in quanto tale standard è valido anche per organizzazioni non profit, Pubblica Amministrazione, ecc.
(3) Traduzione strettamente letterale del testo inglese
(4) Banca d’Italia, 15 luglio 2004.
(5) Anche la Direttiva 577/D del 30 dicembre 2005 dell’ISVAP è piuttosto chiara e, sostanzialmente, in linea con la normativa della Banca d’Italia.
(6) Abbiamo visto nel precedente articolo che la concentrazione delle misure di gestione dell’emergenza e recovery è nei primi giorni. Si presuppone che l’Azienda abbia poi (salvo catastrofi “enormi”) il tempo per ripristinare l’ordinaria attività, e, quindi, riprendere anche le altre attività di business interrotte. A questo proposito suggerivo di concentrare gli sforzi nei primi tre giorni.



La stima del danno e del rischio residuo

Leggi anche: Business Continuity e Disaster Recovery: le basi della questione e L’impianto della Business Continuity in azienda: problematiche e suggerimenti

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati