L'Open Source Hadoop per affrontare il GDPR

Al suo Summit 2018 a Berlino, il vendor open source Hortonworks, specializzato in soluzioni basate sulla piattaforma di computing distribuito Hadoop, presenta la propria strategia per il GDPR e un nuovo servizio pensato per questa e altre analoghe compliance. Focus anche sui dati in motion e sull’edge computing

BERLINO – Dopo l’artificial intelligence (AI), tema al centro di Hortonworks Summit 2017 a Monaco, il recente Hortonworks Summit 2018 ha acceso i riflettori sul contributo che la tecnologia open source di distributed computing Apache Hadoop può offrire alle aziende di ogni settore e alle pubbliche amministrazioni a risolevere molti dei problemi legati all’ottemperanza al Regolamento europeo sulla data protection (GDPR).

Vuoi approfondire i temi del GDPR?<br>Iscriviti alla Newsletter ZeroUno per restare aggiornato sui temi della IT business innovation

Alla kermesse berlinese si è parlato certamente anche di altre innovazioni e altri ambiti di utilizzo della tecnologia Hadoop e delle sue estensioni, ma il GDPR ha fatto la parte del leone anche perché rappresenta il principale caso d’uso della soluzione che è stata lanciata all’evento: Data Steward Studio. Di che cosa si tratta? DSS non è altro che una suite di nuove funzionalità basate su Hortonworks DataPlane Service (la piattaforma software-as-a-service lanciata lo scorso mese di settembre per facilitare la gestione dei dati in multicloud complessi di grandi dimensioni). Nello specifico Data Steward Studio, supporta le aziende nel raggiungimento della conformità al GDPR, così come a standard di sicurezza e normative per la tutela dei dati confidenziali (quali, per esempio, PCI, per la protezione dei dati delle carte di credito, o HIPAA, per quella della informazioni sanitarie sensibili).

“Data Steward Studio – ha spiegato Scott Gnau, Technology Officer di Hortonworks – è un’offerta software-as-a-service che aiuta le aziende ad automatizzare i loro processi di conformità al GDPR rendendo più facile per le aziende identificare, proteggere e connettere i dati archiviati sia in locale che nel cloud”. Durante un’intervista a ZeroUno, Jamie Engesser, VP Product di Hortonworks, è tornato su questo punto: “DSS è in grado di profilare automaticamente i dati presenti nei vari repository decentrati nei datacenter on-premises o nel cloud, indipendentemente che si tratti di data at rest (memorizzati in modo stabile, archiviati) o data in motion (che cioè si trovano in uno streaming di dati fra diversi ambienti IT o cluster), di identificare quelli sensibili, e di metterli dinamicamente in sicurezza senza dover modificare il loro formato”.

Indice degli argomenti

GDPR occasione per la business transformation

Per poter assolvere automaticamente a questi compiti – una volta che i responsabili della sicurezza, della governance e della compliance o i data scientist hanno impostato obiettivi, policy e altri parametri – DSS si avvale di altre funzionalità presenti nella già citata piattaforma cloud-based Hortonworks DataPlane Service, “che gli dà accesso – aggiunge Gnau – a tutti i dispositivi di archiviazione a tutti i diversi cluster disponibili e gli permette di consolidarli tutti in una singola pane of glass (vista, ndr)”, sia in altre due: Hortonworks Data Platform (HDP), piattaforma open source scalabile sviluppata per archiviare, elaborare e analizzare grandi volumi di dati at rest, di cui al Summit è stata rilasciata la versione 2.6, e la piattaforma Hortonworks DataFlow (HDF), che sfrutta tecnologie quali Apache NiFi per l’acquisizione e la gestione dei dati in motion (ovvero in streaming) e Apache Storm e Kafka per attività di analisi (analytics) real-time.

L’utilità di sfruttare le precedenti e le nuove tecnologie Hadoop per affrontare il tema del GDPR risiede nel fatto che la business transformation ha reso e renderà sempre di più eterogenei, distribuiti e in parte archiviati una volta per tutte in un unico luogo e in parte in movimento, i dati che il Regolamento richiede vengano protetti. Di sicuro in questo caso si può dire che quello che a molti può a prima vista sembrare una “patata bollente” di cui si sarebbe volentieri voluto fare a meno (l’entrata in vigore del GDPR), in realtà può trasformarsi in una grande occasione – oltre che per migliorare la privacy delle persone – anche per fare un balzo avanti nella digital transformation.

Più tipi e fonti di dati e meglio è

“I dati sono ovunque – ha ricordato Gnau – grazie ai nuovi megatrend dell’IT come le applicazioni mobile, l’online shopping, i dispositivi wearable che registrano e inviano dati, lo streaming della musica e dei video e così via. La maggior parte dei dati in crescita si trovano al di fuori dei firewall aziendali e sono alla base di casi d’uso che vanno dall’intelligent farming, in cui si utilizzano trattori a guida autonoma in grado di acquisire da soli i dati sulle previsioni meteo, o molte attività che si svolgono lungo le supply chain”. Nel suo keynote, il Technology Officer di Hortonworks ha presentato una slide in cui era rappresentata una formula: data strategy (A)=cloud strategy (B)=business strategy (C). E ha ricordato che per la proprietà transitiva delle uguaglianze se A=B e B=C allora anche A=C. In sintesi, i dati servono per far funzionare il business, grazie anche al deep learning e al machine learning, e più ce n’è e meglio è. E soprattutto è un bene se sono di diverso tipo, interconnessi e in streaming, caratteristiche da cui hanno origine i fatidici big data. “La molteplicità dei tipi di dati, strutturati, semistrutturati, non strutturati, ad rest o in motion – spiega a ZeroUno, Nadeem Ashgar, Global Field CTO – con Hadoop non è un problema. Nello storage ci sono due aspetti fondamentali da affrontare: la scrittura e la lettura. Agli inizi i data manager avevano il problema di memorizzare dati matematici e quindi si sono concentrati soprattutto sull’aspetto della scrittura, inventando le tabelle e quindi i database per dati strutturati. Quando è nato, Hadoop (essendo già stati risolti i problemi legati alla scrittura dei dati eterogenei, ndr) si è focalizzato sulla lettura, ovvero su come estrarre i dati in differenti formati (e profilarli, qualificarli, eliminare eventualmente le ridondanze, ndr). Si tratta di un approccio diverso da quello dell’ETL (Extraction Transform Load, utilizzato per normalizzare i dati e caricarli nei data warehouse) che richiede la modifica dei dati. Con Hadoop (e in particolare HDP, ndr) i dati possono essere caricati, prelevati e spostati così come sono, con tutto ciò che ne permette di ricostruire l’origine e la storia (lineage) e altre caratteristiche”. Metadati che sono utili, fra l’altro, per analytics, deep learning, machine learning, cybersecurity, fraud prevention e GDPR.

Who's Who

Nadeem Ashgar

Tutto questo – è stato un altro dei motivi conduttori dell’evento – comporta che ormai non tutte le attività intorno ai dati si possono svolgere on-premises a causa di problemi di traffico dei dati e necessità di scalabilità dello storage. Di qui una crescente enfasi – anche da parte Hortonworks e della comunità Hadoop – sull’edge computing. Che non esime i responsabili IT da utilizzare strumenti – del tipo di quelli offerti da Hortonworks – per avere sempre un visibilità complessiva della loro data architecture decentrata, ai fini anche di sicurezza, governance e operational management.