Data masking: cos'è l'offuscamento dei dati

Può essere statico o dinamico, in ogni caso è una tecnica cruciale per rendere accessibili soltanto i dati non riservati (o peculiari) a terze parti, come per esempio i fornitori. In nome della conformità al GDPR. Ecco con quali approcci

Il Data masking è una procedura di offuscamento dei dati, usata per garantire un livello di sicurezza adeguato al rischio, nell’era della GDPR, e per tutelare la privacy nel mondo dei big data.

Le tecniche di Data masking consentono di offrire risposte alla parte di normativa del Regolamento Europeo sulla Data Protection (GDPR) che punta a limitare i rischi dell’eccesso di profilazione. Ecco con quali tecniche può assicurare la conformità al GDPR stesso.

Data masking: cos'è e procedure di offuscamento dei dati

Indice degli argomenti

Cos’è il data masking

Il Data masking è la pseudonimizzazione dei dati ovvero la possibilità di conservare informazioni di profilazione dell’utente, in modo tale da renderne difficile l’identificazione.

Può essere statico o dinamico, in ogni caso è una tecnica cruciale per rendere accessibili soltanto i dati non riservati (o peculiari) a terze parti, come per esempio i fornitori.

In nome dell’accountability del GDPR, assicura sia i diritti degli interessati che la tutela del business aziendale. Impedisce che dati altamente sensibili o riservati possano subire data breach o diffusione.

Significa che in caso di perdita di disponibilità (dati offuscati persi), perdita di integrità (corruzione dei dati mascherati), perdita di riservatezza (per furto, copia o data breach), non ci sarebbero conseguenze né per il business né per le persone coinvolte.

La profilazione rappresenta la più forte potenzialità commerciale dei big data. Tuttavia è anche la parte più fragile per la privacy del processo, perché le profilazioni, impiegate in maniera trasparente, aiutano il processo di decision-making e agevolano azioni che come target hanno l’individuo.

Per questo motivo, la tutela della privacy nel mondo dei big data richiede infatti procedure sempre più complesse e difficoltose da attuare. L’Articolo 32 del GDPR obbliga tuttavia a mettere “in atto misure tecniche e organizzative adeguate per garantire un livello di sicurezza adeguato al rischio”.

In alcuni casi è possibile ricorrere a una tecnica di anonimizzazione dei dati grazie alla tecnica di Data masking. Infatti la pseudonimizzazione dei dati, attraverso la rimozione di alcune informazioni, a volte è inefficace perché non garantisce la “minimizzazione dei dati” ex art. 5.

Il Data Masking si suddivide in offuscamento statico (SDM) e Data masking dinamico (DDM). Ecco cosa sono, nel dettaglio.

How to mask data for specific users using Dynamic Data Masking tool

Data masking statico

Il Data Masking statico (SDM) è la tecnica dove il mascheramento dei dati avviene in maniera persistente in una copia del database originale cosicché un’azienda possa effettuarne la condivisione con fornitori di terze parti.

Data masking dinamico

Il Data masking dinamico (DDM) è un mascheramento dei dati dove non occorre una seconda fonte di dati per memorizzare i dati offuscati.

Nel repository, infatti, restano i dati sensibili originali, dove risultano accessibili in maniera differente, a seconda del profilo da cui accede l’operatore. Grazie a questo approccio dinamico, esclusivamente gli utenti, che il sistema autorizza, potranno accedere ai dati originali. Invece gli utenti privi di autorizzazione potranno visualizzare unicamente contenuti offuscati.

Metodi di Data masking

Le tecniche di Data masking sfruttano software specifici, relativi al DBMS in utilizzo, per trasformare i dati dei soggetti interessati in maniera semplice, trasparente e irreversibile, in modo tale da garantire il principio di Data minimization ovvero minimizzazione dei dati.

I metodi sono: la pseudonimizzazione, l’anonimizzazione, la sostituzione, lo scrambling, la varianza di data e numero, crittografia, lo shuffling, annullamento/ cancellazione, masking out. Vediamo le tecniche nei dettagli.

La pseudonimizzazione

La pseudonimizzazione permette di celare l’identità dei soggetti a terze parti. Gli pseudonimi sostituiscono dati identificativi, in modo tale da non ricondurre a un soggetto. Le modalità di pseudonimizzazione variano, ma le più diffuse permettono di assegnare un alias o un numero di classificazione casuale a ciascun soggetto.

Tra le misure, la normativa europea prevede la pseudonimizzazione dei dati. La pseudonimizzazione significa conservare informazioni di profilazione in una forma tale da rendere impossibile identificare l’utente tramite procedure di offuscamento dei dati.

Si tratta di una tecnica che ha acquisito rilevanza quando non serve usare i dati personali degli interessati, sia reali che completi.

Per fotografare il peso di una patologia su una determinata area geografica, sesso o fascia d’età, i medici necessiteranno di tutte le informazioni del singolo paziente, tuttavia alla Ricerca e Sviluppo (R&D) non serviranno i dati di un paziente specifico, ma i dati aggregati di tutti i pazienti. Dunque un’azienda che operi nel settore della somministrazione farmaceutica e trattamenti sanitari, la pseudonimizzazione dei dati rappresenta uno strumento utilizzo per fare ricerca, senza violare la tutela della privacy.

L’anonimizzazione

L’anonimizzazione consente di offrire informazioni anonime ovvero non in grado di permettere di risalire a un soggetto fisico. Azzera dunque la correlazione tra i dati personali e una persona. Un’adeguata anonimizzazione impedisce di ricondurre agli originali.

Un software automatizzato per anonimizzare i dati reali, consentirebbe dunque di svolgere la consultazione di un’anagrafica clienti, fornitori, codici fiscali, lista fatture e carte di credito, email o indirizzi, mantenendo la coerenza dei vari campi, rendendola leggibile a chi effettua i test, senza violare la privacy degli interessati, esponendone i dati reali.

La sostituzione

Sostituire i dati sensibili con dati simili ma non correlati è una metodologia che consente di preservare l’autenticità del dato, attraverso la sostituzione delle sue parti sensibili con dati altrettanto significativi.

Ha il vantaggio di mantenere l’autenticità del dato. Però ha lo svantaggio di non funzionare con i big data. Infatti l’alta difficoltà di trovare informazioni rilevanti da sostituire, ne ipoteca l’applicabilità.

Lo scrambling

La tecnica di riorganizzazione dei caratteri prevede uno schema casuale. Anche in questo caso il processo è irreversibile, dunque impedisce la lettura/visione dei dati originali a partire da quelli offuscati.

La varianza di data e numero

Popolare in ambito finanziario, il metodo prevede la modifica algoritmica dei dati con una quota casuale del loro valore per realizzare un dataset nuovo senza modificare i valori di distribuzione. La tecnica, dunque, consiste nel conservare l’accuratezza del dato. Quindi, la data quality. Il vero problema è che l’applicazione si limita ai valori numerici.

La crittografia

Considerata come la tecnica più complessa, la crittografia sfrutta algoritmi di cifratura per rendere illeggibili i dati. Ha dunque un impatto evidente sulla formattazione e sull’aspetto esteriore dei dati. L’accesso ai dati originali richiede la relativa chiave di decrittografia. Senza di essa, la reversibilità del processo è impossibile.

La crittografia ha il vantaggio di essere efficace, ma, poiché impatta sul formato dei dati, influisce sull’utilizzabilità dei dati da parte di terze parti.

Lo shuffling

Funziona con un approccio analogo alla sostituzione, mentre la differenza che in questa tecnica si mescolano casualmente i dati tra le colonne interne di un database. Questa soluzione, se impiegata con una logica di designazione dei gruppi e delle partizioni, permette di mantenere intatte le relazioni logiche tra le colonne, rendendola la tecnica ideale per la generazione di dataset per operazioni di test.

Il rimescolamento è in grado di elaborare dati con dimensioni maggiori rispetto alla sostituzione, tuttavia è inefficace per gestire dati di piccole dimensioni.

Data masking: annullamento/ cancellazione

Molte aziende implementano questa tecnica che consiste nella banale sostituzione di alcuni campi con un valore nullo. Però è un approccio che ha lo svantaggio di essere troppo semplicistico. La sua unica finalità è di rendere invisibili i dati, poiché la soluzione impatta, in negativo, sull’accuratezza e sull’integrità dei dati.

Masking out

Affine al precedente, la tecnica intende offuscare solo una porzione dei dati originali, invece di attribuire a tutti valore zero.

Data masking: cos’è e procedure di offuscamento dei dati

Cos’è il data masking

Data masking statico

Data masking dinamico