Data center: ripensare le operazioni della fabric

I data center sono stati al centro di un cambiamento nell’architettura: dalle tradizionali applicazioni aziendali ad altre più distribuite offerte come SaaS in esecuzione nel cloud. I modelli di distribuzione sottostanti relativi a queste applicazioni cloud si sono evoluti con l’avvento dei microservizi distribuiti. Kubernetes è un sistema operativo (OS) per microservizi distribuiti, nonché una piattaforma intent-based che ha contribuito al successo delle applicazioni distribuite automatizzando la gestione del loro ciclo di vita e offrendo allo stesso tempo la visibilità necessaria.

Indice degli argomenti

Le operazioni dei data center devono stare al passo con la costante evoluzione delle applicazioni

Nell’era odierna del 5G e del cloud, applicazioni moderne e altamente distribuite vengono implementate da una grande varietà di aziende, tra cui fornitori di cloud, fornitori di co-location e interconnessione, fornitori di servizi di comunicazione (CSP, Communication Service Provider) e aziende operanti in svariati settori. Le reti 5G software-defined sono un valido esempio di un’implementazione moderna e altamente distribuita, in cui operatori e fornitori concordano sul requisito di uno stack 5G cloud-native. Inoltre, il 5G unirà il cloud delle telecomunicazioni e il cloud pubblico, spingendo i data center moderni a diventare un insieme altamente distribuito di data center.

Questi ecosistemi di data center moderni e distribuiti combineranno il cloud-native delle telecomunicazioni con i dati dettagliati provenienti dal cloud pubblico. Ciò, a sua volta, favorirà la creazione di data center gerarchici e distribuiti, che richiederanno l’automazione della rete end-to-end abbinata a funzionalità plug-and-play per migliorare l’efficienza e ridurre i costi.

L’affidabilità in queste implementazioni non riguarda solo l’applicazione dell’automazione di rete ai normali scenari di implementazione, ma richiede anche un approccio improntato alla “progettazione in previsione dei malfunzionamenti (design for failure)”. È necessario ripensare il ruolo dell’automazione della rete, al fine di implementare in modo proattivo stack cloud-native che sono “designed for failure”.

Claudio Santoianni, Direttore Marketing & Corporate Affairs Italia di Nokia

Gestione di tutte le fasi del ciclo di vita delle operazioni della fabric del data center

Le infrastrutture IT dei data center su larga scala si avvalgono in genere di oltre 100.000 server che ospitano applicazioni cloud distribuite. Le reti dei data center che supportano queste infrastrutture IT devono fornire connettività e operazioni scalabili. Ciò si ottiene gestendo i gruppi di switch nella rete del data center come se fossero un’unità logica chiamata fabric, e facendola funzionare nel suo complesso introducendo l’automazione. I termini Day-0, Day-1 e Day-2+ si riferiscono alle diverse fasi del ciclo di vita del software, come la progettazione, la distribuzione e le operazioni. Questi termini possono essere utilizzati anche in riferimento alle fasi di progettazione, implementazione e funzionamento del ciclo di vita della fabric del data center.

Migliorare le operazioni di rete (NetOps) per contribuire al raggiungimento degli obiettivi aziendali e operativi è stata una decisione chiave e uno dei criteri di progettazione della soluzione Nokia per la fabric del data center. In aggiunta, l’obiettivo principale era offrire un toolkit di automazione basato sugli intenti al servizio di tutti i livelli dei team operativi, senza alcun prerequisito che richiedesse un team di specialisti di rete. Per i team operativi con personale specializzato, il focus è stato sulla fornitura degli strumenti per la messa a punto e la personalizzazione del sistema in base alle loro esigenze specifiche.

Di seguito alcuni degli elementi costitutivi e delle funzionalità essenziali di un moderno toolkit per le operazioni della fabric.

Automazione basata sugli intenti

Per prima cosa, bisogna prendere in esame le infrastrutture su larga scala di oltre 100.000 server che ospitano moderne applicazioni distribuite. Per gestire il ciclo di vita della fabric dei data center su larga scala è necessaria l’automazione, che su larga scala può essere fornita solo tramite intenti. Analogamente alle applicazioni, l’infrastruttura di rete necessita di osservabilità che operi unitamente all’automazione intent-based.

Le distribuzioni di infrastrutture di data center su larga scala possono ridurre al minimo la spesa operativa (OPEX) della fabric utilizzando design più semplici, come quelli di tipo CLOS scalabili orizzontalmente. Inoltre, è possibile limitare il set di protocolli e funzionalità di rete e creare domini di errore più piccoli, ad esempio domini di trasmissione più piccoli. Per ridurre al minimo l’OPEX, è necessaria un’automazione della fabric che sia modulare, astratta e basata sugli intenti per reti CLOS multistrato che automatizzano le operazioni dal Day-0 al Day-2+.

Per fabric si intende una forma di virtualizzazione della rete e i data center moderni necessitano di diverse forme di “virtualizzazioni di rete”, ad esempio uno “switch distribuito logico” o un “router distribuito logico”. La virtualizzazione della rete, unita all’automazione della rete applicata alle reti fisiche e virtuali, riduce gli errori umani negli stack di data center moderni altamente distribuiti.

Applicazione dell’automazione basata sugli intenti alla progettazione del data center e alla connettività dei carichi di lavoro

Per poter fornire automazione su larga scala, il toolkit delle operazioni della fabric deve abilitare un intento astratto basato su modelli certificati. In questo modello, i team operativi possono utilizzare modelli di progettazione della fabric testati per garantire la stabilità e certificati nelle reti di laboratorio del fornitore. In aggiunta, per poter scalare, “l’intento della fabric” deve essere astratto a un livello tale che non sia necessario che i team operativi siano a conoscenza dei dettagli di networking avanzati sottostanti. L’intento astratto si concentra su costrutti generici dell’infrastruttura del data center, come “numero di rack”, “server per rack”, “dual-homing” e simili, al fine di progettare e distribuire automaticamente fabric IP standard basati su BGP che massimizzino la larghezza di banda di bisezione tramite topologie basate su CLOS.

La connettività per i carichi di lavoro delle applicazioni moderne richiede una connettività continua per macchine virtuali (VM, Virtual Machines) o container su una rete CLOS multilivello. Ciò richiede una connettività Layer 2 o Layer 3 basata su standard in modo che tutto sia “open on wire” (cioè non soggetto a controllo proprietario o protocolli del piano dati) e contribuisca a ridurre al minimo l’OPEX. EVPN-VxLAN sta diventando un elemento fondamentale per la rete di servizi. Anche l’automazione della rete di servizi merita un approccio basato sugli intenti, con un intento “astratto”, in modo che i team operativi non abbiano bisogno di personale altamente qualificato e certificato per fornire un servizio.

Fabric come codice

Le ripercussioni positive di DevOps sul mondo delle applicazioni distribuite indica che l’applicazione di metodologie simili alle reti che utilizzano NetOps avrà ripercussioni simili. Un approccio adatto a NetOps per le operazioni della fabric di data center di piccole o grandi dimensioni fornirà piattaforme di automazione estensibili.

Il toolkit per le operazioni della fabric deve garantire che la sua automazione basata sugli intenti possa essere espressa in una forma dichiarativa, in modo che si adatti al movimento più ampio della “infrastructure as code”. Ciò è importante per le soluzioni che coprono cloud ibridi on-premise e off-premise.

Gestire il rischio prima di applicare le modifiche servendosi di un “digital twin” della rete reale

La capacità di apportare modifiche frequenti alla configurazione di rete gestendo al contempo il rischio di una modifica è un altro requisito fondamentale delle moderne fabric dei data center. I fornitori sviluppano e testano vari scenari nei loro laboratori di reti. Tuttavia, non è possibile creare o convalidare tutti gli scenari di errore. I team operativi possono trarre grandi vantaggi da una “sandbox digitale”, che crea una gemella digitale della rete reale. Ciò consente ai team operativi di sperimentare, testare e convalidare i vari passaggi di automazione e, cosa più importante, convalidare gli scenari di errore e la relativa automazione a circuito chiuso senza il rischio di provarli direttamente sulla rete di produzione.

Oltre la telemetria di base: dai dati grezzi agli “approfondimenti contestuali”

Automazione e osservabilità vanno di pari passo. Tuttavia, l’approccio tradizionale basato sulla semplice raccolta di tutti i tipi di dati e sul mero invio ai team operativi di “grandi quantità di dati” non corredati da interpretazione rende il compito dell’operatore complesso, fornendo al contempo poche informazioni utili. Il settore si riferisce a questo come “telemetria”, ma ciò che serve non sono dati grezzi ma approfondimenti. L’esigenza odierna è ricavare e fornire “approfondimenti contestuali” che consentano all’operatore di comprendere la causa principale di un problema e intraprendere misure correttive.

La moderna piattaforma operativa del data center deve abilitare un “database di informazioni dettagliate” che riunisca i dati di configurazione e osservabilità al fine di offrire all’operatore approfondimenti operativi contestuali di facile comprensione. Questi approfondimenti operativi devono inoltre consentire all’operatore di eseguire l’automazione a circuito chiuso in modo programmabile. Con l’aumentare della randomizzazione e della complessità dei dati raccolti, l’applicazione della normale logica aziendale non sarà sufficiente. In alternativa, l’utilizzo di baseline e analisi avanzate basate sull’apprendimento automatico (ML, Machine Learning) forniranno ulteriori informazioni approfondite ad un operatore umano. In base a questo nuovo approccio, un “operatore software” può consentire ad un “operatore umano” di eseguire le operazioni avanzate necessarie nei moderni data center.

Integrazione con software-Defined data center

L’automazione dell’infrastruttura di rete deve anche abilitare “reti invisibili” quando si rende necessaria l’integrazione in un ecosistema circostante, come una piattaforma di Software-Defined data center (SDDC) o uno stack 5G cloud-native. Qui la rete dovrebbe allinearsi con l’ecosistema in maniera così stretta da seguire le esigenze delle applicazioni e diventare invisibile fino a quando non si verifica un problema. La piattaforma delle operazioni della fabric deve adottare un approccio cloud-native associato in modo flessibile per consentire “integrazioni” collegabili con stack SDDC come stack basati su VMware o Kubernetes.

Conclusione

Riassumendo, possiamo dire che, per abilitare data center moderni scalabili, l’automazione di rete è un componente importante che deve essere fornito tramite intento astratto, unito a una virtualizzazione di rete innovativa. All’occorrenza deve diventare invisibile in un ecosistema, progettare l’automazione di rete in previsione dei malfunzionamenti, fornire plug-and-play e, soprattutto, coniugare osservabilità e automazione. Un tale approccio consente ai team operativi di fornire l’automazione a circuito chiuso indispensabile per i loro data center.