Big Data in azienda: le informazione non vanno accumulate ma gestite

Big data può essere sinonimo di grandi problemi. Le aziende, infatti, si trovano ogni giorno a dover elaborare, archiviare e organizzare le informazioni che hanno diversi livelli di importanza e sono distribuite su un’infinità di dispositivi. Ecco alcuni consigli per migliorare la gestione, accontentando gli utenti senza impattare sul data center

Avere a che fare con una gigantesca mole di dati per le aziende può tradursi in un aumento significativo dei problemi.

Ogni giorno le operazione di elaborazione, archiviazione e organizzazione diventano sempre più complesse e impegnative, soprattutto da quando i dati sono sparsi su un numero consistente di dispositivi diversi che gli utenti utilizzano in maniera sempre più indifferenziata.

Un esempio lampante è l’Internet of Things: sono migliaia di dati raccolti e da elaborare velocemente provenienti da sensori e altri oggetti connessi e comunicanti. Questa nuova tendenza di accumulare dati, in accoppiamento a quella più classica che riguarda l’input di dati in arrivo dai classici terminali, ha prodotto un tasso di crescita annuale di dati memorizzati nei server, nel quadriennio 2102-2016, pari al 31,87%, secondo le stime della società di ricerche di mercato TechNavio.

Questo oceano di dati richiede uno sforzo non indifferente al team dei data center. Il loro compito prevede la catalogazione e la classificazione di tutte le informazioni aziendali. Ma questa pratica non è una delle più semplici. Per questo motivo tutte le aziende hanno bisogno di adottare un approccio disciplinato alla gestione dei dati, pena perdita di tempo prezioso per la reperibilità delle informazioni.

Indice degli argomenti

Prima regola fondamentale: organizzare per capire

L’Information technology si basa su un principio fondamentale: l’organizzazione. Per avere una migliore gestione dei dati aziendal, il personale IT deve prima stabilire quali informazioni genera l’azienda e quali raccoglie il che, spesso, è il processo più difficile.

Il team dei data center deve effettuare un inventario a livello aziendale per identificare quali sono i dati che risiedono sui server centrali, sui desktop e sui dispositivi mobili. Gli utenti sono competenti sui dati dipartimentali più di quanto si creda, ma non danno molta attenzione alle questioni tecnologiche, demandando queste problematiche al team IT.

Difficilmente un impiegato vi potrà aiutare nella classificazione dei dati, a meno che i manager dell’azienda richiedano per questa operazione un impegno maggiorare da parte di tutti i dipendenti che maneggiano dati aziendali. Non è improbabile scoprire che un dato è formattato in modo diverso a seconda del luogo dove viene gestito; per questo motivo il consolidamento dei dati e la relativa standardizzazione sono un processo obbligatorio, probabilmente molto noioso e che potrebbe portare via moltissimo tempo e con relativi costi da sostenere. Ma non appena il team IT riuscirà ad ottenere un dato standard per tutte le applicazioni, questi possono essere utilizzati per nuovi processi di cui l’azienda potrebbe aver bisogno.

Il passo successivo è la classificazione dei propri dati in base alla funzione e all’applicazione che questi dati possono avere. Questa fase fornisce ai pianificatori un quadro preciso su come correlare i dati fra di loro e sul loro miglior utilizzo, e alla stesso tempo serve per capire quali sono le reali esigenze dell’azienda in fatto di sicurezza dei dati. Non esiste un valore assoluto che determina l’importanza di un dato per un’azienda. Una soluzione è quella di provare a classificare il potenziale impatto sul proprio business nel caso un dato venga perso o compromesso. Per questa fase è meglio convocare una commissione composta da tecnici e dirigenti di ogni business unit, che insieme determineranno una classifica di importanza dei dati da salvaguardare.

Seconda regola fondamentale: impostare delle gerarchie

Una volta che le informazioni sono classificate, diventa fondamentale impostare il livello di importanza dei dati. Ogni azienda prevede una fetta del budget destinato alla memorizzazione dei dati, quindi non tutti saranno memorizzati su

soluzioni di storage di alto livello visto che appunto, ogni dato avrà una valenza diversa rispetto all’altro e meriterà di essere archiviato su dispositivi diversi. Il numero di array di storage ad alte prestazioni al giorno d’oggi sono davvero tanti. La memoria flash è più veloce rispetto ai dischi in termini di accesso ai dati, ma ha un costo superiore dal 20% al 100% rispetto ad altre opzioni di archiviazione. Approntare un array con solo memorie flash potrebbe essere, in alcuni casi, economicamente impossibile e architettonicamente improbabile per determinati scenari. Caricando tutti i dati aziendali solo su memorie flash può ridurre le prestazioni e prolungare i tempi di risposta per le applicazioni mission-critical. Oltre alle memorie flash i server sono un’altra opzione di storage ad alte prestazioni. In questo caso si può optare per due soluzioni: o la più diffusa Server Storage Area Network (SAN) o la iper-convergente virtual SAN dove il server esegue funzioni di elaborazione, manipolazione e salvataggio dei dati. I server di fascia alta Dell PowerEdge e Fujitsu PRIMERGY si basano sulla tecnologia di storage software-defined per creare sistemi in cui l’intero stack di archiviazione viene eseguito sul server.

Un’altra opzione è implementare sistemi di storage per un fine particolare. Qui, il sistema di storage esegue in modo autonomo la decuplicazione dei dati e il backup dei processi. Teoricamente questi sistemi aiutano gli amministratori di sistema, riducendo la quantità di applicazioni da configurare e al tempo stesso mantenendo ed eseguendo il backup dei dati al di fuori delle rete. Un altro vantaggio potenziale sono le migliori prestazioni che questa soluzione può offrire: infatti la larghezza di banda necessaria per decuplicare e replicare i dati diminuisce in quanto questi non vengono inviati dal sistema di storage al server e viceversa, ma la procedura viene eseguita in locale.

Terza regola fondamentale: bilanciare le risorse

L’integrazione è una questione importante nel processo di gestione dei dati. Per impostare i vari livelli, una società deve avere un software di gestione dei dati in grado di spostare le informazioni tra i diversi sistemi hardware. Le divisioni IT oggi non sono favorevoli oppure non sono in grado di standardizzare tutti i dati su una piattaforma applicativa. Una soluzione di dati, quindi, ha bisogno di supportare più piattaforme, come Linux e Windows, così come quelle di virtualizzazione quali VMware e Microsoft Hyper-V.

Avere dati compatibili con diverse piattaforme permettono alle informazioni di fluire tra i vari sistemi di stoccaggio ed elaborazione senza intoppo alcuno. Il dipartimento IT è in grado così di memorizzare, relazionare, classificare e ricercare i dati in tutta l’azienda a prescindere dalla piattaforma che magari viene utilizzata da una particolare business unit. Prendetevi il tempo necessario per identificare e gestire le interconnessioni dei sistemi di archiviazione per evitare la proliferazione inadeguata dei dati.

Le applicazioni mission-critical spesso si collegano a diversi sistemi storage dove sono contenuti i dati. Ad esempio, in una soluzione storage multilivello, un sistema a nastro raramente fornisce informazioni sui clienti a un sistema di storage basato su dischi allo stato solido, che a sua volta, di norma, si occupa di trasferire i dati al sistema principale per l’elaborazione. L’applicazione si può completare solo se il sistema SSD e lo storage basato su nastro si integrano tra di loro senza creare un collo di bottiglia o siano soggetti ad errori. Questa catena di connessioni di storage e di elaborazione potrebbe complicare la risoluzione dei problemi quando si utilizzano applicazioni che sono basate sui sempre più diffusi data center virtualizzati.

Le informazioni ad alta priorità devono risiedere su sistemi di storage che diano al possibilità a quest’ultime di essere velocemente disponibili. Le opzioni vanno dal poco costoso e facile da implementare sistema a nastro, fino alle soluzioni di backup continuo che copiano i dati mission-critical in tempo quasi reale. Nonostante i sistemi a nastro per molti stiano diventando obsoleti, i provider continuano a migliorare la qualità del supporto (ovvero il nastro) perché, nonostante tutto, continua ad essere un’opzione economica per le aziende che necessitano di archiviare i dati senza troppe necessità. Spesso accade che le aziende memorizzano copie di backup dei dati fuori dalla propria sede. Mentre il metodo tradizionale usato per questa necessità è approntare dei data center ausiliari, spesso situati lontano della sede principale, sempre più piede stanno prendendo i siti di storage basati sul cloud.