Guida

Data Science e Machine Learning platform: cosa sono? Quali sono le principali?

Un mercato vivace e in continua evoluzione quello delle data science e machine learning platform. Vediamo i leader segnalati da Gartner nel Quadrante Magico, insieme a una panoramica del mercato e alle caratteristiche fondamentali che queste piattaforme devono avere

Pubblicato il 08 Apr 2021

machine learning

Le data science e machine learning platform sono soluzioni che possono rappresentare la chiave di volta per sviluppare un’organizzazione realmente basata sui dati e qualche settimana fa (marzo 2021) Gartner ha rilasciato l’edizione aggiornata del suo Magic Quadrant for Data Science and Machine Learning Platforms, un MQ la cui prima uscita risale al 2014.

Che cosa sono le data science e machine learning platform

Le data science e machine learning platform (DSML) sono piattaforme che la società di ricerca definisce come soluzioni coerentemente integrate di prodotti, componenti, librerie e framework a supporto di una pipeline di analisi. Data scientist e altre figure che si occupano dell’analisi dei dati trovano in questo mercato, in maturazione continua con un rapido sviluppo dei prodotti, gli strumenti ideali per ricavare dati, creare modelli e rendere operativo il machine learning.

Le caratteristiche principali di una data science e machine learning platform

Secondo Gartner, per essere degna di questo nome una data science e machine learning platform deve essere sufficientemente ben integrata in modo da fornire un “aspetto grafico” coerente e creare un’esperienza utente in cui tutti i componenti siano ragionevolmente interoperabili a supporto di una pipeline di analisi.

Quindi una piattaforma Data Science e Machine Learning platform supporta

  • l’integrazione di queste soluzioni nei processi aziendali, nell’infrastruttura, nei prodotti e nelle applicazioni circostanti;
  • il consumo sostenibile di insight derivati ​​dalla piattaforma e offre funzionalità per quantificare e monitorare il valore dei progetti di data science;
  • professionisti della data science con competenze diverse: la base di utenti di una piattaforma DSML è spesso composta da professionisti con background tecnici e aziendali diversi;
  • più attività durante il ciclo di vita della data science, tra cui: comprensione del problema e del contesto aziendale, importazione di dati, preparazione dei dati, esplorazione dei dati, ingegneria delle caratteristiche, creazione e formazione del modello, test del modello, distribuzione, monitoraggio, manutenzione, governance dei dati e dei modelli, intelligenza artificiale spiegabile (XAI), monitoraggio del valore aziendale, collaborazione.

New call-to-action

Il mercato delle data science e machine learning platform

I dati più recenti rilasciati da Gartner riguardano il 2019, anno in cui il fatturato complessivo delle piattaforme DSML è risultato di 4 miliardi di dollari contro i 3,4 del 2018, determinando un incremento del 17,5% anno su anno. Quello delle piattaforme DSML rappresenta il secondo segmento in più rapida crescita del mercato del software di analisi e BI (dietro le moderne piattaforme di BI al 17,9%).

Come abbiamo scritto all’inizio, il mercato è molto affollato: i fornitori stanno aggiungendo ulteriori funzionalità progettate per ingegneri di dati, sviluppatori e ingegneri di ML; i vendor che in precedenza si rivolgevano solo a data scientist esperti stanno aggiungendo funzionalità e interfacce migliorate per attirare i citizen data scientist.

Sebbene molti elementi delle visioni dei fornitori e delle proposte di valore si sovrappongano, continuano a emergere aree chiave di differenziazione come l’interfaccia utente, un DSML aumentato (AutoML), MLOps, prestazioni e scalabilità, supporto ibrido e multicloud, XAI e tecniche all’avanguardia (come deep learning, IoT su larga scala e apprendimento di rinforzo).

Molte organizzazioni stanno avviando iniziative DSML utilizzando offerte di provider di servizi di cloud pubblico e open source gratuiti o basso costo per sviluppare le proprie conoscenze ed esplorare le possibilità. È quindi probabile che adottino poi software commerciale per affrontare i casi d’uso reali: Gartner ricorda che, sebbene il successo della data science aziendale con uno stack puramente open source sia possibile, la stragrande maggioranza dei team di data science maturi ha investito in una piattaforma commerciale.

I trend da monitorare con attenzione

Gartner conclude la propria analisi fornendo alcuni consigli sui trend che devono essere monitorati da chi è interessato a questo tipo di piattaforme. Li sintetizziamo brevemente:

  • vi è una tendenza alla fusione e vicendevole influenza tra piattaforme di BI e data science e machine learning platform quindi è bene verificare le evoluzioni di entrambi i segmenti perché sempre più spesso di trovano funzionalità di BI in piattaforme DSML e viceversa;
  • anche se il mercato è frizzante ed entrano sempre nuovi fornitori, i vendor “legacy” rimangono estremamente rilevanti: i grandi nomi continuano a fornire nuove funzionalità e nuovi approcci innovativi consentendo così ai propri clienti di capitalizzare investimenti già fatti;
  • l’ecosistema e la comunità open source sono più dinamici che mai. Python è saldamente affermato come linguaggio dominante per DSML e la comunità R continua a crescere. Il software open source consente alle organizzazioni di avviare o estendere iniziative DSML con pochi investimenti iniziali o aggiuntivi; inoltre, l’ecosistema è aperto e supportato da fornitori che forniscono piattaforme commerciali;
  • gli elementi costitutivi degli algoritmi vengono spesso utilizzati per creare modelli; questa tendenza continuerà poiché i modelli continuano ad essere astratti e confezionati per specifici problemi di dominio e settore.
  • modelli pacchettizzati sono sempre più disponibili tramite API consentendone la facile integrazione in applicazioni;
  • componentizzazione: le piattaforme composte da più componenti sono diventate la norma poiché i fornitori sviluppano i propri componenti, utilizzano software open source o collaborano con altri fornitori per espandere la propria offerta; i fornitori forniscono sempre più una raccolta eterogenea di strumenti, a differenza delle integrazioni native all’interno di un singolo prodotto.
  • coerenza della piattaforma: una maggiore componentizzazione e incorporazione open source aumenta il rischio di soluzioni frammentate e scomode. La necessità di accedere a più componenti e piattaforme per avere funzionalità complete e solide deve essere bilanciata con l’auspicabilità di accedere a tutte le funzionalità in modo uniforme e coerente;
  • repository di modelli e dati: esiste una tendenza a fornire mezzi per tracciare e condividere sia i dati sia gli artefatti analitici generati come parte del processo di sviluppo e distribuzione del modello; ciò è fondamentale per la deduplicazione degli sforzi, la governance e la scalabilità aziendale delle iniziative di data science;
  • collaborazione: man mano che l’accesso alle piattaforme DSML diventa più democratico e più tipologie di utenti lavorano insieme attraverso la pipeline analitica, la necessità di poter collaborare facilmente e senza interruzioni aumenta in modo significativo;
  • estensione alla gestione delle decisioni: le piattaforme DSML si stanno estendendo sempre più oltre l’operatività per supportare la collaborazione, che a sua volta alimenta l’interesse per le capacità di gestione delle decisioni poiché gli strumenti di analisi vanno oltre la previsione per guidare esplicitamente le decisioni aziendali.

I leader del Gartner Magic Quadrant for Data Science and Machine Learning Platforms

Prima di approfondire le caratteristiche generali di queste piattaforme riportiamo il Magic Quadrant for Data Science and Machine Learning Platforms (figura) dal quale, anche solo con una rapida occhiata, si evince quanto questo mercato sia affollato. Nel MQ oltretutto non compaiono i 10 vendor che hanno ricevuto una “menzione d’onore” da Gartner ma il cui punteggio non è attualmente sufficiente alto da poter entrare nella selezione.

Gartner Magic Quadrant for Data Science and Machine Learning Platforms. Fonte: Gartner, marzo 2021

Ci limitiamo quindi a una rapida carrellata dei leader (in ordine alfabetico), rimandando al report integrale disponibile sul sito di Gartner per un’analisi più di dettaglio.

Databricks

La sua Unified Data Platforms, disponibile su diversi cloud, da punto di riferimento per la community Apache Spark, pur continuando a contribuire alla community open source guidando i progetti Delta Lake e ML Flow, ha ampliato la propria offerta con l’acquisizione di Redash, che consente agli utenti di interrogare e visualizzare i dati in modo più semplice utilizzando SQL.

Tra i punti di forza evidenziati da Gartner:

  • Prestazioni multicloud su larga scala: Databricks consente ai propri clienti di sperimentare e addestrare rapidamente i propri modelli e quindi di ridimensionarli rapidamente; offre cluster CPU e GPU gestiti automaticamente e scalabili su più piattaforme cloud, preconfigurati con i framework ML più diffusi, con ottimizzazioni integrate.
  • Potenziamento dei data scientist maturi: la visione incentrata sui notebook di Databricks e l’ottimizzazione dell’OSS si rivolge a data scientist esperti che richiedono prestazioni elevate e accesso anticipato alla più recente e innovativa tecnologia ML.
  • Esecuzione ed espansione: Databricks ha sostenuto una forte crescita dei ricavi, catalizzata dalle sue partnership di successo con Microsoft Azure, AWS e centinaia di altre organizzazioni in tutto il mondo. L’azienda ha una strategia di vendita verticale ben eseguita, con un forte impegno nella creazione di valore per il cliente.

Tra i punti di attenzione, Gartner segnala che si rivolge ancora a un pubblico principalmente tecnico di ingegneri di dati e scienziati di dati con un background di coding, quindi risulta poco adatta a chi non ha queste competenze. Un altro punto di attenzione riguarda l’uso responsabile, etico e affidabile della piattaforma verso il quale, secondo Gartner, l’azienda non pone, a livello di visione e di comunicazione, la necessaria attenzione. Infine, elemento critico per una piattaforma che si basa su una strategia cloud first, rimane la crescente concorrenza da parte dei provider cloud suoi partner i quali hanno tutti le proprie offerte e visioni DSML che possono sovrapporsi a quelle del vendor.

Dataiku

La soluzione principale di Dataiku è Data Science Studio (DSS), che fornisce un’unica piattaforma per tutte le attività Data Science e Machine Learning platform, con un focus su team multidisciplinari di data science, collaborazione e facilità d’uso. L’azienda ha inoltre stretto partnership con system integrator globali e fornitori tra cui Tableau, Snowflake e UIPath. Ha una solida roadmap e una visione nelle aree riguardanti AI responsabile, collaborazione e applicazioni aziendali, che punta alla continua crescita e innovazione.

Questi i punti di forza evidenziati da Gartner:

  • Accessibile ai citizen data scientist (una persona che crea o genera modelli che utilizzano analisi diagnostiche avanzate o capacità predittive e prescrittive, ma la cui funzione lavorativa principale è al di fuori del campo dell’analisi): Dataiku ha aggiunto funzionalità avanzate a ogni fase del ciclo DSML. I citizen data scientist sono ben supportati: dalle informazioni dettagliate sulla qualità dei dati e la profilazione al controllo guidato su AutoML alle funzionalità di spiegabilità. Gli utenti che desiderano creare modelli no-code hanno a disposizione una vasta gamma di strumenti.
  • Focus sul business value: Dataiku comprende la necessità di metriche delle prestazioni che vadano oltre l’accuratezza del modello e offre la possibilità di creare metriche aziendali personalizzate e ottimizzate per fornire uno specifico vantaggio aziendale e per monitorare la deriva dei concetti. A testimoniare l’importanza riservata dall’azienda a questo aspetto, il nuovo team di servizi professionali che si concentra sul valore aziendale.
  • Crescita di mercato: Dataiku presenta un’impressionante traiettoria di crescita. L’azienda continua ad espandere il proprio ecosistema di partner al fine di costruire soluzioni analitiche specifiche per settore e funzione; questa espansione include un aumento dei programmi OEM e dei provider di servizi gestiti (MSP).

Come punti di attenzione, Gartner evidenzia l’utilizzo intensivo di estensioni e plug-in: la navigazione e l’installazione di queste funzionalità aumenta il sovraccarico di gestione della piattaforma e la complessità delle distribuzioni containerizzate. Attenzione anche al modello di prezzo: DSS è disponibile in diverse versioni con livelli di funzionalità crescenti e, secondo Gartner, i prezzi delle versioni che non offrono funzionalità aziendali complete per la scalabilità e l’implementazione del modello sono superiori a quelli delle offerte di altri fornitori che dispongono di queste funzionalità.

IBM

Il prodotto valutato da Gartner è IBM Watson Studio su IBM Cloud Pak for Data, una piattaforma modulare, aperta ed estensibile per dati e AI che combina un ampio set di funzionalità descrittive, diagnostiche, predittive e prescrittive. Gartner sottolinea che IBM offre una soluzione moderna e completa che fonda le proprie radici su SPSS, Ilog Cplex Optimization Studio e altri prodotti precedenti e che beneficia del flusso costante di innovazioni da IBM Research.

I punti di forza evidenziati da Gartner sono:

  • Supporto multipersona: IBM Watson Studio offre un’interfaccia visuale del flusso di lavoro, o “graphic canvans”, che permette a data engineer, data scientist esperti e citizen data scientist di lavorare insieme sullo stesso progetto. Le attività della pipeline ML, dall’acquisizione dei dati alle operazioni, sono supportate da AutoAI e collaborazione, incluso un catalogo per la condivisione e il riutilizzo di (meta) dati e modelli.
  • Visione AI composita: la struttura modulare della piattaforma IBM Watson Studio contiene, o può essere estesa da, più componenti per il potenziamento decisionale o l’automazione. Questi componenti includono diversi framework ML e altri AI, funzionalità di ottimizzazione, analisi spazio-temporale e grafica, funzionalità del linguaggio naturale e analisi video / immagine / audio (in modalità batch o streaming). Inoltre, includendo IBM Decision Optimization, la piattaforma supporta la modellazione delle decisioni e la gestione delle decisioni o l’elaborazione delle regole.
  • Attenzione completa all’intelligenza artificiale e alla governance responsabili: IBM offre un ampio supporto per spiegabilità, bias, equità, accuratezza e monitoraggio della deriva dei concetti, dati sintetici e privacy differenziale. La sua piattaforma fornisce anche un forte supporto di governance (e gestione del rischio opzionale.

Tra i punti di attenzione, per quanto riguarda AutoAI, Gartner rileva che, sebbene IBM Watson Studio offra automazione e potenziamento di più attività nella pipeline ML, alcuni concorrenti aumentano anche l’analisi delle serie temporali, ad esempio, utilizzando reti neurali ricorrenti e modelli di memoria a lungo termine. Infine Gartner segnala che sebbene la coesione del Watson Studio modulare su IBM Cloud Pak for Data sia migliorata, rimane confusione tra i potenziali clienti su quali prodotti e licenze sono necessari per quali configurazioni aumentando così le preoccupazioni sui costi di licenza.

MathWorks

I prodotti principali dell’azienda sono MatLab e Simulink, ma solo il primo ha soddisfatto i criteri di inclusione per questo Magic Quadrant i cui clienti sono principalmente organizzazioni ingegneristiche e asset-centric.

MathWorks dimostra una visione chiara e una leadership di pensiero nei settori incentrati sugli asset e le sue innovazioni vengono applicate, su larga scala, a casi d’uso di grandi dimensioni destinati a risolvere problemi del mondo reale. L’azienda è infatti uno dei pochi fornitori nel mercato DSML in grado di gestire implementazioni IoT di grandi dimensioni, distribuite e in tempo reale con un ambiente continuo dall’edge al cloud, dallo sviluppo alla simulazione e all’operatività e viceversa.

I punti di forza evidenziati sono:

  • Robuste capacità di AI composita: MatLab è tra le piattaforme DSML più avanzate per lo sviluppo, l’integrazione e la distribuzione di insiemi di tecniche di AI all’interno di un’unica soluzione (un approccio che Gartner chiama AI composita). MathWorks combina queste tecniche in un’infrastruttura flessibile che supporta ambienti ampiamente distribuiti, dall’edge al data center e al cloud.
  • Conoscenza integrata del dominio: MathWorks beneficia di una profonda esperienza nel dominio, che integra nella sua Data Science e Machine Learning platform. Dalla manutenzione predittiva all’analisi della flotta, all’analisi dei processi di produzione e alla gestione dei rischi, l’azienda gestisce le specificità del dominio all’interno della sua piattaforma, sviluppando tecnologie e toolbox specifici per le applicazioni.
  • ML verificabile e affidabile: la sicurezza è in genere fondamentale nei domini incentrati sugli asset in cui è attivo MathWorks: non tollerano operazioni inaffidabili. Oltre all’interpretabilità, MathWorks consente agli ingegneri di interagire con i modelli tramite applicazioni Web o ambienti di simulazione.

Tra le criticità Gartner sottolinea che MatLab rimane appannaggio degli ingegneri e degli scienziati specializzati e quindi l’azienda dovrà modernizzare l’interfaccia utente e fornire funzionalità di sviluppo visuale. Secondo Gartner MathWorks è ancora indietro anche sul tema dell’AI spiegabile rispetto a molti dei suoi concorrenti.

SAS

SAS Visual Data Mining and Machine Learning (VDMML) è il prodotto principale valutato per questo Magic Quadrant. L’azienda è il leader presente da più lunga data in questo Magic Quadrant: mantiene una posizione forte e adattabile, data la sua profonda comprensione del mercato e la sua leadership di pensiero in aree chiave come l’AI composita, gli MLOps (termine che indica la gestione dei modelli di machine learning e comprende la cultura, le pratiche e le tecnologie necessarie per sviluppare e mantenere modelli di apprendimento automatico) e l’intelligenza decisionale. La società ha recentemente annunciato una partnership con Microsoft per supportare una più stretta integrazione con Azure.

I punti di forza evidenziati da Gartner:

  • Comprensione e presenza sul mercato: la lunga tradizione e l’esperienza di SAS in questo mercato hanno guadagnato la fiducia dei clienti. L’azienda offre funzionalità e supporto della piattaforma di livello aziendale, insieme a una solida visione delle tendenze chiave del mercato, tra cui AI composita, intelligenza decisionale e MLOps. L’esperienza nel settore incorporata nei suoi prodotti e servizi di consulenza consente ai clienti di trarre valore dall’intero ciclo di vita dell’analisi.
  • Architettura cloud-native e integrazione open-source: l’ultima versione di SAS Viya (con la quale VDMML è fornita in bundle) offre un approccio completamente cloud-native. I clienti SAS possono ora sfruttare tutte le funzionalità di Viya in un’architettura flessibile basata su container che viene eseguita nel cloud; inoltre viene garantita l’integrazione con i più diffusi strumenti e linguaggi open source per i dati, la modellazione e la gestione dei modelli.
  • Progettazione automatizzata delle caratteristiche e modellazione: SAS fornisce capacità di progettazione e modellazione automatizzate differenziate delle caratteristiche attraverso la generazione automatizzata di pipeline. La sperimentazione è supportata da utilità come il set di azioni pilota per la data science e altri moduli. Per l’ottimizzazione automatizzata degli iperparametri, Model Composer utilizza una strategia di ricerca ibrida brevettata.

Tra le precauzioni, Gartner segnala che i prezzi di SAS rimangono una preoccupazione per molti clienti, che pertanto cercano alternative meno costose. Viene evidenziata inoltre che, nonostante l’azienda abbia semplificato il proprio portafoglio di prodotti, la suite completa di prodotti e componenti aggiuntivi di SAS Viya rimane complessa da “navigare” per gli utenti. L’azienda deve infine lavorare sulla propria strategia di marketing: SAS è ancora spesso percepita come un fornitore di software legacy e analisi avanzate tradizionali.

Tibco Software

Dopo aver unito strettamente vari software e piattaforme di analisi e dati, Tibco, afferma Gartner, sta realizzando la sua visione Connected Intelligence incarnata dalla piattaforma Tibco Data Science, insieme a Tibco Spotfire e Tibco Streaming nonché una solida infrastruttura di dati e processi.

L’azienda è presente in molti settori. ma ha una presenza più forte nei settori incentrati sugli asset, data la sua attenzione scientifica e ingegneristica, in particolare sull’edge computing. Le origini dell’azienda nel settore del middleware le conferiscono un vantaggio quando si tratta di implementazione e produzione di modelli, in qualsiasi ambiente, centralizzato o distribuito, in un’ampia varietà di casi d’uso.

I punti di forza segnalati da Gartner sono:

  • Funzionalità DSML all’avanguardia: dalle innovazioni come l’apprendimento dinamico sui flussi di eventi all’integrazione con piattaforme edge popolari come quelle di Microsoft e AWS, Tibco offre funzionalità IoT all’avanguardia.
  • Iperconvergenza e integrazione: l’azienda estende la sua piattaforma di Data Science sia dal punto di vista dell’infrastruttura (in relazione all’analisi edge, ad esempio) sia da un punto di vista analitico attraverso la sua business intelligence e potenti capacità di visualizzazione.
  • Supporto per la collaborazione e l’analisi applicata: Tibco, afferma la società di analisi, è una scelta forte per i team di analisi che coprono un’ampia gamma di funzioni all’interno di un’organizzazione. Questa forza si estende oltre l’ambiente tecnico integrato in cui le risorse analitiche possono essere condivise per acquisire competenze di dominio: i risultati della collaborazione con esperti in materia possono quindi essere incorporati all’interno di applicazioni integrate.

Gli elementi ai quali prestare attenzione riguardano le funzionalità ModelOps end-to-end perché, nonostante i progressi compiuti in questo ambito, deve fornire una capacità ModelOps più completa e accessibile per gestire l’intero ciclo di vita dei modelli di intelligenza artificiale. Ancora carente anche l’interfaccia per quanto riguarda l’accessibilità ai citizen data scientist.

Come già scritto in questo articolo abbiamo riportato solo alcuni spunti dal Magic Quadrant, per approfondire i singoli aspetti consigliamo la lettura del report integrale.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 4