Machine Learning e Software defined network, le difficoltà da affrontare

Non c’è dubbio che l’intelligenza artificiale permetterà di rendere più performante e affidabile l’utilizzo di network sempre più trafficati. Ma al momento siamo in una fase ancora sperimentale e occorre prestare attenzione nei grandi data center. Commento su una ricerca recente

Pubblicato il 24 Nov 2017

Intelligenza artificiale per software defined networking

Nel suo articolo Evaluate the SDN and machine learning tradeoffs, pubblicato su TechTarget, il network engineer e blogger Russ White commenta una ricerca realizzata da alcuni tecnologi e accademici sulle potenzialità offerte dal machine learning e dall’artificial intelligence (AI), in generale, nella gestione delle operazioni nell’ambito, fra gli altri, delle reti data center. Il gruppo di ricerca ha battezzato il nuovo modello che nasce dalla cooperazione fra network management e machine learning come Knowledge-Defined Networking. E questo è anche il titolo del loro research paper nel quale gli autori descrivono tre esperimenti in cui alcuni SDN controller raccolgono i dati di telemetria provenienti dagli apparati di rete e li analizzano applicando modelli di machine learning per poi supportare l’ottimizzazione delle network operation. Ricordiamo che i Software-defined network controller sono le applicazioni al cuore delle SDN, che si posizionano fra i device, sui quali girano le applicazioni, e gli apparati dell’overlay network, ossia lo strato di networking superiore (chiamato anche “logico”) direttamente collegato, da un lato, ai server e ai client, e dall’altro all’underlay network, ovvero l’infrastruttura di rete costituita da apparati di tipo “core” interconnessi fra loro nell’ambito di un data center o di una infrastruttura multi-datacenter (o hybrid cloud/multi-cloud). Ricordiamo anche che, per poter svolgere il loro lavoro, le SDN utilizzano dei protocolli di comunicazione che permettono loro di interagire con “nodi” di rete, di raccogliere informazioni relative all’instradamento (route) dei flussi di dati verso il data center o internet, e di modificare a livello software i percorsi dei flussi fra i link della rete. Il più noto protocollo di comunicazione utilizzando dalle Software Defined Network è OpenFlow, uno standard open source.

I problemi in un ambiente reale

Fra i tre tipi di esperimenti, White analizza e commenta quello che rappresenta maggiormente una situazione frequente nelle reti aziendali, e cioè quella in cui vi sono server connessi a dei router di rete overlay (parliamo di router per sottolineare la funzionalità di instradamento, che ci interessa; ma possono essere switch con funzionalità di routing), i quali, a loro volta, sono connessi a uno o più router underlay (o data center fabric) Più aumentano i device connessi ai router overlay, il numero dei router overlay stessi e quello dei router fabric connessi ai router overlay (oltre che fra se stessi), e più diventa difficile riuscire ad avere una visione chiara e sintetica di tutti i flussi e poter modificare in modo software i percorsi in tempo reale. È qui che può entrare in gioco il machine learning, per fornire funzionalità aggiuntive a quello che già oggi è possibile con il cosiddetto intelligent networking.

Una questione di tradeoff

L’implementazione dell’intelligenza artificiale nell’ambito del networking è sicuramente un obiettivo sfidante e costoso. Un conto, lascia intendere White, è valutare la fattibilità di un progetto simile in laboratorio, un altro è farlo in un ambiente reale, e soprattutto hyperscale (cioè con il possibile coinvolgimento di più data center interconnessi fra loro). Di qui la necessità di mettere su un piatto della bilancia la possibilità di sperimentare il machine learning, e dall’altra la valutazione di una serie di problematiche che White sintetizza in cinque punti.

Innanzitutto, in una tipica SDN, gli SDN controller sono connessi solo con i router overlay, che costituiscono gli edge della rete aziendale logica, a fronte di un flusso di dati che deve andare da un server a un altro server, entrambi connessi a router overlay e controllati dallo stesso SDN controller; al massimo quest’ultimo riuscirà a capire cosa succede nelle interazioni fra questi router e i server e a quali degli underlay router quelli overlay sono connessi. Il SDN controller non ha visibilità su cosa avviene fra i nodi della data center fabric o della hyperscale fabric. Stante questi limiti, il SDN controller può solo valutare quali percorsi, fra quelli da esso monitorabili, offrono il minore delay (il ritardo è il parametro più significativo secondo gli autori della ricerca).
Il secondo problema è che i traffici di dati su un network possono essere di tipo cosiddetto “mice” (piccole quantità di dati trasmesse in modo frequente) e “elephants” (grandi moli di dati come backup, attività di data migration o data center synchronization). I “mouse flow”, sono tantissimi, eterogenei, e di durata troppo breve per poterli consolidare in dataset idonei ad essere “studiati” da un’applicazione di machine learning”.
Il terzo problema è costituito dalla quantità di applicazioni che possono girare su una singola infrastruttura, ciascuna delle quali avrebbe specifici requirement da soddisfare.
Il quarto è rappresentato dal cambiamento nel tempo delle caratteristiche delle applicazioni. C’è il rischio che il machine learning riesca ad apprendere delle regole nel momento in cui i data set prodotti da un’applicazione cambiano insieme all’applicazione stessa, e quindi il machine learning non riesce più a capire da dove nasca un certo flusso di dati.
Infine è difficile far sì che il machine learning riesca a distinguere con sicurezza fra problemi di connettività causati da una gestione non ottimale dei flussi, e altri dovuti semplicemente a failure imprevedibili di sistema.

Ce n’è, insomma, abbastanza per non demordere dall’analisi dell’applicabilità dell’intelligenza artificiale al network monitoring e management, ma anche per non lasciarsi sviare da facili entusiasmi.