Data center

Costi (e cause) delle interruzioni di servizio nei data center

Uno studio esamina i costi causati dall’interruzione del servizio nei data center e analizza quali cause hanno determinano tali blocchi in più di sessanta data center durante tutto lo scorso anno

Pubblicato il 29 Mar 2016

switch-630183-640-160322181719

Un’interruzione delle attività nel data center costa alle aziende una media di 8.851 dollari al minuto. Il calcolo viene da uno studio condotto dalla società di ricerche The Ponemon Institute che ha utilizzato una metodologia basata sull’applicazione dei costi basati sulle attività, che aiuta a monetizzare anche le aree più difficili da misurare. Oltre a raccogliere dati, i ricercatori hanno condotto interviste coinvolgendo con da due a venti operatori per ogni azienda interessata.

“Nel caso si brand molto famosi e con una solida reputazione – spiega Larry Ponemon, presidente e fondatore del Ponemon Institute – i clienti possono accettare l’interruzione del servizio una volta, ma sono molto meno propensi a rifarlo una seconda volta. Le aspettative dei clienti possono variare a seconda della reputazione di una marca o dal suo posizionamento sul mercato”.

Analizzando i costi dovuti a un down operativo, occorre però anche fare caso all’insieme delle conseguenze derivanti da quell’interruzione. Come fa notare Paul Hines, senior vice president of operations and engineering presso Sentinel Data Centers, il costo al minuto non è una cifra particolarmente utile, in confronto al costo del ciclo completo di un guasto. Subire uno stop di un secondo nelle attività, in realtà ha un impatto maggiore perché può equivalere a rimanere bloccati per diverse ore. Probabilmente il costo di tali interruzioni al minuto si aggira verosimilmente sui 10mila dollari.

Quali sono le cause dei guasti nel data center?

Lo studio condotto da The Ponemon Institute ha anche esaminato i principali motivi dei guasti imprevisti che hanno colpito i data center. La prima fonte dei down operativi si è rivelata essere un guasto nel gruppo statico di continuità (o UPS, Uninterruptible Power Supply), che ha generato il 25% delle interruzioni, mentre la causa in più rapida crescita è risultata essere la criminalità informatica (che, secondo gli ultimi dati disponibili, ha causato il 22% delle interruzioni). I ricercatori fanno inoltre notare che – sebbene l’errore umano si stata la causa di appena il 22% delle interruzioni – vi è spesso un elemento umano anche in molte altre cause (che comprendono caduta di liquidi sulle apparecchiature, guasti al sistema di aria condizionata della sala computer, incidenti dovuti a condizioni atmosferiche, avarie al generatore o difetti nelle apparecchiature IT).

Secondo Julian Kudritzki, COO dell’Uptime Institute, la principale causa di interruzioni del data center è di gran lunga legata all’aspetto gestionale per via di una formazione inadeguata del personale in relazione ai processi e alle procedure interne al data center. Inoltre, i ricercatori fanno notare che alcune cause possono anche sovrapporsi: un gruppo di continuità, per esempio, potrebbe non funzionare correttamente a causa di un attacco denial-of-service (DoS), o le apparecchiature potrebbero gustarsi perché non correttamente ispezionate e sostituito nei tempi previsti.

Servono controlli efficienti e manutenzione scrupolosa

Tra le maggiori cause di guasto nel data center figurano il malfunzionamento delle batterie e gli attacchi Dos: “Generatori e batterie – sottolinea Hines – sono il tallone d’Achille di ogni data center e gli attacchi DoS sono la nostra più grande preoccupazione, poiché la maggior parte dei data center sono automatizzati, qualche hacker potrebbe intaccare i sistemi meccanici e arrestare le attività di un data center in pochi minuti”. L’esperto ha spiegato che, proprio per combattere questo problema, i sistemi di controllo dei Sentinel Data Centers non sono connessi a Internet e la società conduce rigorosi controlli interni che limitano chi ha accesso ai sistemi, oltre a svolgere anche un controllo sui dipendenti. Secondo William Dougherty, senior vice president e CTO di RagingWire Data Center, dovrebbero stare gli errori umani in cima alla lista delle cause prese in esame dall’analisi, non i guasti nei gruppi statici di continuità: “In base alla mia esperienza e allo scambio di opinioni che ho con colleghi del settore, io direi senza esitazione che, l’80% delle volte, la causa principale di interruzioni non pianificate è l’errore umano”.

Tale percentuale, secondo Dougherty, potrebbe salire al 90% se si includesse nel calcolo l’errore umano fatto nelle fasi di progettazione, ingegnerizzazione e budgeting di un data center. Un’interruzione causata da un guasto dell’UPS potrebbe essere ricondotta a un design che permette un single point of failure, a una sequenza di operazioni difettosa o a un errore commesso durante la manutenzione. “La maggior parte delle interruzioni in un data center – prosegue Dougherty – sono causate durante la manutenzione. Questo è il motivo per cui molte aziende rimandano la manutenzione o la programmano nei momenti di minore attività”.

L’affidabilità dei data center è direttamente proporzionale alla dimensione dell’impianto e l’importo investito in availability. Così, il data center di una piccola azienda in esecuzione “N+1” con single points of failure risulterà più vulnerabile di un grande data center in esecuzione a “2N + 2”. Secondo l’esperto, i responsabili dei data center dovrebbero concentrarsi sugli investimenti da fare in termini di longevità e prestazioni del ciclo di vita, non in un’ottica di contrasto a una serie di eventi avversi a intervalli imprevedibili.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati