Manutenzione preventiva: sicurezza per il data center

Ecco una serie di linee-guida e consigli pratici per attuare una strategia di manutenzione che punta a eliminare, o almeno a ridurre drasticamente, il rischio di avaria dei sistemi di alimentazione e raffreddamento, compromettendo la disponibilità dei servizi It.

Nel dibattito sulle soluzioni per il miglioramento dell’efficienza energetica e dell’affidabilità funzionale delle infrastrutture fisiche dei data center, la manutenzione preventiva dei sistemi di alimentazione e raffreddamento ha in genere un ruolo secondario, quando non viene del tutto trascurata. Si tratta di un errore, perché un’efficace pratica di manutenzione preventiva (che da qui in avanti abbrevieremo in PM, preventive maintenance) si traduce in un valido strumento per il controllo dei costi operativi e per la riduzione del rischio di downtime dei sistemi.

Apc, noto fornitore di sistemi di alimentazione e raffreddamento che fa parte del gruppo Schneider Electric, ha realizzato un ‘white paper’ (qui scaricabile) che tratta in modo esaustivo e dettagliato gli aspetti relativi alla definizione di una strategia di manutenzione preventiva di tali infrastrutture, alle pratiche per metterla in atto e alle tendenze dei fornitori per favorire un approccio globale al problema, anziché sui singoli componenti.

Una vista su tutta la catena

Figura 1: Evoluzione componentistica e manutentiva degli Ups

Fonte: Schneider Electric

La manutenzione preventiva (che non va confusa con la manutenzione programmata, che ne è solo un componente) si distingue dalle abituali pratiche di manutenzione in quanto non è diretta a eliminare un malfunzionamento o un comportamento anomalo dei sistemi, ma a impedire che questi eventi possano accadere. Si compone di una parte strategica e di una tattica. La prima stabilisce il tipo di approccio, che comprende il monitoraggio delle condizioni dei sistemi e la loro manutenzione programmata; la seconda le diverse opzioni d’intervento che, a seconda dei casi, possono prevedere un’azione diretta sui sistemi interessati oppure attività non invasive (come per esempio l’aggiornamento del firmware), che non influiscono sull’operatività del Centro. Le azioni relative a questi quattro elementi vanno considerate singolarmente ma anche e soprattutto nelle loro interazioni, per non rafforzare un anello della catena a scapito degli altri e anche per evitare interventi inutili. Per esempio, correlando il programma di manutenzione con gli strumenti di monitoraggio si può evitare di sostituire centinaia di condensatori (perché previsto dal calendario) quando gli strumenti non segnalano anomalie.

Tecnologia e personale esperto

Un fattore critico (per Apc ‘il’ fattore critico) per garantire l’availability dell’infrastruttura è la qualità del software di controllo e gestione degli apparati. Questo deve far sì che i diversi componenti della catena di alimentazione e raffreddamento, cioè Pdu (Power distribution units), interruttori, Ups, umidificatori e Crac (Computer room air conditioner), possano comunicare tramite tool di auto-diagnosi il verificarsi di eventi anomali, come variazioni di temperatura. Per quanto il software di controllo degli apparati continui ad avere una funzione primaria, per avere una visione globale della catena occorre un software di PM Management System che raccolga tutti i segnali forniti dagli apparati e li confronti in modo strettamente correlato. Con tutto ciò e sebbene la tendenza dei costruttori sia di sviluppare apparati che si autoriparano, la capacità di interpretare i segnali da parte del personale resta indispensabile. Bisogna quindi capire se ci sono già delle persone esperte (che vanno trattenute), o in che misura addestrare il personale, non solo, come ovvio, a leggere gli indicatori di funzionamento, ma anche a riconoscere anomalie da segni a volte deboli, come il tintinnio di una vibrazione o un lieve cambiamento nel ronzio dei macchinari.

Controllare dentro e fuori

Figura 2: Tasso di malfunzionamento in funzione della temperatura

Fonte: Schneider Electric

Al di là delle capacità delle risorse interne, per essere sicuri che il data center mantenga nel tempo i requisiti di availability stabiliti occorre la visita periodica di tecnici specializzati, capaci di stabilire l’invecchiamento dei componenti fisici e, soprattutto, stimarne l’impatto sull’affidabilità totale. Un controllo approfondito dovrebbe anche includere la valutazione dell’ambiente esterno ai sistemi, secondo una checklist che il white paper Apc estende a ben 16 voci: dal livello delle polveri nell’aria, agli sgocciolii o acque stagnanti, alla presenza o vicinanza di apparati in radiofrequenza e così via. Fondamentale, come ovvio, è una scansione termica per il controllo della distribuzione della temperatura, che non riguarda solo le computer room, ma va estesa a interruttori, trasformatori, Ups e quadri di distribuzione e controllo. Per questa verifica risulta utile un sistema CFD (Computational Fluid Dynamics) che analizzi temperature e flussi d’aria interni valutando l’efficacia del sistema di raffreddamento e l’effetto di un’eventuale caduta sulla funzionalità del Centro.

Quando fare la manutenzione?

Le tradizionali pratiche di manutenzione programmata risalgono ai tempi in cui fermare il data center per una notte o un week-end si poteva fare. Oggi non è più così, ma in molte realtà il concetto rimane. È però una pratica costosa e pericolosa. Costosa perché il lavoro festivo e notturno viene pagato di più; pericolosa perché prolungando l’orario di lavoro per far manutenzione il personale è stanco, sbaglia più facilmente e (lavorando su impianti dove circolano alte tensioni e/o liquidi in pressione) corre più rischio di farsi male. Il White Paper illustra quindi diversi approcci che possono essere seguiti in modo che la manutenzione programmata non abbia impatti negativi sull’attività del data center.