Analisi

Monitorare e migliorare la salute del data center

I consigli di un esperto, l’analista di Quocirca Clive Longbottom, per capire come intervenire e migliorare la qualità dei servizi erogati attraverso il CED

Pubblicato il 16 Ott 2013

data-center-colt-140314124224

Gli amministratori di sistema guardano i loro schermi e tutto sembra andare bene. Un mare di verde indica che ogni sistema monitorato funziona in modo ottimale. All’helpdesk, nel frattempo, arrivano le chiamate di utenti angosciati che lamentano il fatto che la loro produttività è crollata a causa dei problemi di connettività o delle scarse prestazioni della piattaforma IT.

In qualche modo, quindi, si è verificato un grave scollamento tra le metriche degli amministratori di sistema e l’esperienza degli utenti. Dal punto di vista del reparto IT, tutto funziona bene, ma con tutta probabilità l’IT sta guardando le cose sbagliate. Per l’utente identificare di chi è la colpa è facile: è colpa dell’IT. Ma questo è vero solo in parte, quindi si tratta di un’eccessiva semplificazione.

Domande del tipo, “il datacenter è sano?”, oppure “sta facendo quello che il business gli richiede?” appaiono lecite. Per rispondere a queste domande chiave, i manager dei datacenter devono anzitutto identificare quello che devono misurare. Per controllare la salute del CED e ridurre al minimo i tempi di inattività occorre mettere in piedi un sistema che preveda diversi livelli di misurazione: dal monitoraggio altamente granulare a quello basato sulle attrezzature, dall’outside-in al reporting che tenga in considerazione il punto di vista dell’utente.

Controllare se l’attrezzatura è in perfetta forma

A livello di apparecchiature IT presenti nel datacenter, monitorare lo stato di salute e le prestazioni non è più sufficiente. Garantire la giusta reattività ai problemi sta diventando una questione sulla scrivania di parecchi network, storage e datacenter manager. Un approccio del tipo “ridondanza N+1”, ovvero avere sempre almeno un apparato IT in più rispetto a quello che è il necessario, si trasforma in un approccio “N” se uno degli elementi viene compromesso e, contemporaneamente, un secondo elemento si rompe mentre il primo è ancora in down . Tutto questo si traduce in un disastro.

Ecco perché è molto più strategico di utilizzare un “approccio predittivo”, che prevede il monitoraggio di fattori quali la temperatura dei componenti chiave, tipo le unità di elaborazione centrale (CPU) e le unità disco; il monitoring della potenza assorbita, per vedere se questa si altera improvvisamente e inaspettatamente o se manifesta una tendenza al rialzo, in modo da riuscire a “mettere mano” al sistema prima che si guasti.

I gestori di datacenter dovrebbero anche capire che durante una sostituzione, un approccio N +1 non è più fin grado di assicurare alcuna ridondanza, così che si dovrebbe optare per un approccio N+2 (o superiore) oppure assicurarsi che i componenti chiave siano facilmente accessibili, in modo che la sostituzione possa essere effettuata rapidamente. Ciò contribuirà a ridurre al minimo il tempo in cui la ridondanza non è garantita.

Il passo successivo è verificare la salute ambientale del datacenter. L’uso di strumenti per monitorare la temperatura generale, il fumo e l’umidità, abbinati a sensori di calore a raggi infrarossi, consentirà di rilevare i problemi prima che diventino delle emergenze.
Collegando questi sistemi con quelli di monitoraggio delle apparecchiature, l’IT sarà in grado di collegare la presenza di un datacenter hotspot (indicato da un sensore a infrarossi) con uno specifico elenco di attrezzature e apparati che possono essere sostituiti o spenti per evitare che qualsiasi problema che si presenta sfugga di mano.

La struttura più ampia e tutto il suo equipaggiamento dovranno anche essere monitorati e valutati per mantenere il datacenter in buona salute. I facility manager, per far questo, potranno utilizzare un Building Information Modeling (BIM – ovvero uno strumento che offre una visione in 3D della struttura della facility) strumento che, però, generalmente non è integrato nei comuni tool di gestione dei sistemi informatici.

Gli strumenti DCIM e i sistemi modulari

L’utilizzo di una suite di gestione delle infrastrutture di datacenter (DCIM) può permettere di centralizzare tutti questi controlli, ma da sola non sarà sufficiente a garantire un risultato ottimale. Oltre a implementare gli strumenti DCIM, si renderà necessario ricondurre a unità tutti i sistemi di distribuzione dell’energia della struttura, i gruppi di continuità (UPS), i generatori ausiliari e i sistemi di raffreddamento, per garantire una visione d’insieme di come funziona il datacenter.
Grazie all’utilizzo di sistemi modulari in tutta l’infrastruttura, dalle apparecchiature IT agli apparati di supporto all’impianto, sarà possibile sopravvivere senza grossi traumi a eventuali failure dei singoli pezzi del sistema.

Laddove possibile, le squadre che operano all’interno del centro dati dovranno implementare le funzionalità di bilanciamento del carico – per esempio, utilizzando la virtualizzazione intelligente dei server, dei dispositivi di storage e del networking, oppure le modalità di gestione intelligente del carico di lavoro all’interno di UPS e generatori – per fornire i massimi livelli di business continuity. Il bilanciamento del carico fornirà livelli molto più elevati di disponibilità di un semplice approccio N +1, perché permetterà di porre rimedio con tempestività al failure di due o più elementi, anche se questo si rifletterà inevitabilmente sulle prestazioni dell’applicazione interessata.

La necessità di un approccio omnicomprensivo

Valutare la salute dell’infrastruttura di un CED non è solo una questione IT, è una questione di business.

Il datacenter è generalmente collegato al resto dell’organizzazione attraverso le reti locali e geografiche (LAN e WAN). Gli utenti accedono al CED attraverso queste reti. Se ci sono problemi ovunque lungo queste connessioni, l’utente sperimenterà una user experience di scarsa qualità e si metterà in contatto l’helpdesk, spesso con la percezione che si tratti di di un problema afferente al datacenter, piuttosto che alla rete. Spetta al direttore di datacenter, quindi, essere in grado di monitorare la connettività di tutti i diversi tipi di rete, per garantire che il CED serva realmente gli utenti business che ne hanno effettivamente bisogno in quel momento, applicando un approccio end-to-end di monitoraggio della salute del CED.

Un’altra sfida che i responsabili del datacenter devono affrontare oggi è la mobility. Molti dei lavoratori oggi sono mobili o lavorano in remoto e accedono ai servizi del datacenter della società attraverso la connettività pubblica (linee ADSL, Wi-Fi o reti wireless mobili). Essere in grado di misurare le prestazioni della rete attraverso queste connessioni meno prevedibili può essere problematico, ma fornire all’helpdesk strumenti che consentano loro di fare il “ping” del dispositivo dell’utente e vedere se latenza, jitter e perdita di pacchetti gli stanno causando dei problemi aiuterà l’IT a individuare la causa principale di qualsiasi problema.

L’ultimo elemento da tenere in considerazione riguarda il dispositivo dell’utente. Un PC può avere un disco pieno, un tablet può avere in piedi un processo che utilizza il 100% della CPU o un virus può influenzare le prestazioni complessive del sistema. Mettere in atto strumenti che consentano di monitorare gli endpoint e risolvere automaticamente da remoto (attraverso l’intervento dell’helpdesk), laddove possibile, qualsiasi problema sarà un deciso passo avanti. Anche l’uso di sistemi Mean Opinion scoring (MOS) può aiutare. Piuttosto che dipendere dalla misurazione tecnica della performance dei sistemi (con cui confrontare le prestazioni di una pseudo-operazione legata a un contratto di servizio – SLA – vecchio) e ottenere un segnale verde, questi sistemi chiedono agli utenti reali di valutare direttamente la propria esperienza.

Se gli utenti trovano che le prestazioni siano di scarsa qualità, è inutile puntare il dito contro gli SLA e sostenere che le prestazioni ricadono all’interno dei limiti concordati. Se la percezione dell’utilizzatore è che il sistema sia troppo lento, allora occorre lavorare per vedere se le prestazioni possono essere migliorate.

*Direttore Servizi presso la società di analisi Quocirca

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati