Machine learning: le funzionalità di Oracle Cloud Data Science Platform

Costruire, allenare, gestire e implementare in modo collaborativo modelli di machine learning: questo il fine del nuovo servizio pensato dal vendor per supportare il lavoro dei data scientist

Oracle Cloud Data Science Platform è il nuovo servizio presentato da Oracle per consentire ai team di data science di creare in modo collaborativo, con velocità e semplicità, potenti modelli di machine learning.

Il servizio si basa su Oracle Cloud Infrastructure Data Science, che aiuta le aziende a costruire, allenare, gestire e implementare in modo collaborativo modelli di machine learning per aumentare il successo dei progetti in ambito data science.

Nello specifico, le funzionalità offerte ai data scientist sono, per citarne alcuni, condivisione di progetti, cataloghi di modelli, policy di sicurezza di team, riproducibilità, verificabilità. Oracle Cloud Infrastructure Data Science seleziona automaticamente i set di training ottimali attraverso processi di selezione e affinamento degli algoritmi AutoML, valutazione, spiegazione dei modelli.

“Avere modelli di machine learning efficaci – ha commentato Greg Pavlik, senior vice president product development, Oracle Data and AI Services – è la base per il successo dei progetti di data science, ma il volume e la varietà di dati da gestire può bloccare queste iniziative prima ancora che decollino. Con Oracle Cloud Infrastructure Data Science, stiamo migliorando la produttività dei singoli data scientist automatizzando tutto il loro flusso di lavoro, con in più importanti strumenti che supportano il lavoro di squadra, per fare in modo che i progetti di data science generino valore reale per le imprese”.

Indice degli argomenti

Le funzionalità di Oracle Cloud Infrastructure Data Science

La soluzione prevede flussi di lavoro automatizzati e offre le seguenti funzionalità.

La funzionalità “Selezione e tuning automatizzati degli algoritmi con AutoML” automatizza il processo di test di più algoritmi e le configurazioni di iperparametri; inoltre, controlla l’accuratezza dei risultati e conferma che siano stati selezionati per l’uso il modello e la configurazione ottimali. Questo fa risparmiare molto tempo e, soprattutto, è stato pensato per consentire a ogni data scientist a ottenere gli stessi risultati dei professionisti più esperti.

Selezione di funzionalità predittive automatizzate è utile per semplificare la progettazione delle funzionalità identificando automaticamente le funzionalità chiave da dataset più ampi.

La Valutazione dei modelli serve per generare un insieme completo di metriche di valutazione e forme di visualizzazione adeguate, per valutare le performance dei modelli su nuovi dati e classificarne l’efficacia nel tempo, così da ottimizzarne il comportamento nell’utilizzo in produzione. La valutazione dei modelli considera non solo le performance pure, ma anche il comportamento di base atteso per quell’algoritmo e un modello di costo, per poter pienamente incorporare nel processo anche i diversi impatti che possono essere causati da falsi positivi e falsi negativi.

Oracle Cloud Infrastructure Data Science offre poi una spiegazione automatizzata della ponderazione relativa e dell’importanza dei fattori che intervengono nella generazione di una previsione. Per esempio, per un modello per l’individuazione delle frodi, il data scientist è in grado di spiegare quali sono i fattori che maggiormente possono esporre al rischio di frodi, in modo che l’azienda possa modificare i processi o prendere provvedimenti per proteggersi.

Le funzionalità di team

Portare con successo in produzione modelli di machine learning efficaci richiede non solo l’impegno dei singoli, bensì il lavoro di squadra di tanti data scientist che lavorano insieme. Per questo Oracle Cloud Infrastructure Data Science offre potenti funzionalità di team.

In primo luogo, progetti condivisi, che aiutano gli utenti a organizzare il lavoro, consentono il controllo di versione e permettono di condividere in modo affidabile il lavoro del team, tra cui dati e sessioni notebook.

I cataloghi di modelli permettono di condividere in modo affidabile modelli già costruiti e gli elementi necessari per modificarli e implementarli.

Quindi, policy di sicurezza “di squadra” permettono agli utenti di controllare l’accesso a modelli, codici e dati e sono pienamente integrate con Oracle Cloud Infrastructure e Access Management.

Le funzionalità Riproducibilità e verificabilità consentono all’impresa di tenere traccia di tutti gli asset rilevanti, per poter riprodurre e sottoporre a audit i modelli, anche se i membri del team dovessero uscire dall’azienda.

I 7 nuovi servizi di Oracle Cloud Data Science Platform

Oracle Cloud Data Science Platform presenta sette nuovi servizi, per un’esperienza end-to-end completa ed efficace, che accelera i processi e migliora i risultati.

Oracle Cloud Infrastructure Data Science permette agli utenti di costruire, allenare e gestire nuovi modelli di machine learning su Oracle Cloud usando Python e altri strumenti e librerie open source, compresi TensorFlow, Keras e Jupyter.

Gli algoritmi di machine learning sono strettamente integrati in Oracle Autonomous Database, con la novità del supporto a Python e a machine learning automatizzato. Una futura integrazione con Oracle Cloud Infrastructure Data Science permetterà ai data scientist di sviluppare modelli usando sia algoritmi open source sia algoritmi scalabili in-database. La possibilità di portare gli algoritmi ai dati contenuti in Oracle Database accelera i tempi con cui si ottengono risultati, riducendo le necessità di preparazione e movimentazione dei dati.

Oracle Cloud Infrastructure Data Catalog consente agli utenti di scoprire, organizzare, arricchire e tracciare asset dati su Oracle Cloud. Oracle Cloud Infrastructure Data Catalog ha un glossario “business” integrato, che rende semplice curare e individuare dati corretti e affidabili.

Oracle Big Data Service offre un’implementazione Cloudera Hadoop completa, che si gestisce in modo semplice, con funzionalità che permettono di rendere altamente disponibile un cluster e implementare azioni di sicurezza con un solo click. Oracle Big Data Service include anche machine learning per Spark, che permette alle aziende di usare il machine learning Spark in memory con un solo prodotto e con minime esigenze di movimentazione dei dati.
Oracle Cloud SQL: permette di effettuare query SQL sui dati in HDFS, Hive, Kafka, NoSQL e Object Storage. Solo Cloud SQL permette a qualsiasi utente, applicazione o tool di analytics che può dialogare con i database Oracle di lavorare in modo trasparente con dati presenti in altri archivi dati, con il beneficio di poterli processare in modalità push-down, scale-out per minimizzarne gli spostamenti.

Oracle Cloud Infrastructure Data Flow è un servizio big data completamente gestito che permette agli utenti di avviare applicazioni Apache Spark senza implementare o gestire infrastruttura. Permette alle aziende di fornire applicazioni big data e AI più velocemente. Oracle Cloud Infrastructure Data Flow prevede una singola finestra per tracciare tutti i lavori Spark, così da semplificare l’individuazione dei compiti che richiedono più risorse e aiutare nella risoluzione dei problemi.

Con Oracle Cloud Infrastructure Virtual Machines for Data Science è possibile avere ambienti basati su GPU preconfigurati, con IDE in comune, notebook e framework che possono essere messi in azione in meno di 15 minuti, a un costo indicativo di 30 dollari al giorno.