L’utilizzo dei prompt di intelligenza artificiale si sta diffondendo in molteplici ambiti professionali, dove le capacità di ChatGPT o Gemini vengono impiegate per compiti di routine come la scrittura di una e-mail oppure per attività più strutturate come la generazione di immagini o codice software. I modelli di Deep Learning vengono addestrati su basi dati sterminate, che abbracciano i più diversi domini dell’esperienza umana, dalla ricerca biomedica alla creatività artistica.
Questo accesso smodato ai dati sta ultimamente sollevando stringenti questioni legate al copyright e al riconoscimento della proprietà intellettuale delle informazioni a cui l’intelligenza artificiale ha accesso: numerose sono state le segnalazioni da parte di artisti e professionisti di casi in cui l’intelligenza artificiale è stata sospettata di aver infranto dei copyright nei contenuti prodotti in seguito a una richiesta ricevuta da un prompt.
Difficoltà nell’attribuzione del copyright
Sebbene il problema sia chiaramente formulato, dimostrare una violazione del diritto d’autore risulta essere molto più complesso.
Per chiarezza, prendiamo ad esempio il caso di un’immagine prodotta per mezzo di un’intelligenza artificiale GAN (Generative Adversarial Networks), a cui sia stato richiesto di generare un quadro nello stile di un determinato pittore. Il tipo di intelligenza artificiale GAN crea un’immagine basandosi su migliaia di dipinti memorizzati, che utilizza per alimentare l’algoritmo di generazione. Nell’immagine finale generata si potrà riconoscere lo stile dell’artista, ma senza che si possa in modo inequivocabile parlare di un plagio. A causa della tecnologia stable diffusion impiegata per generare l’immagine, è infatti estremamente difficile rilevare una esatta somiglianza tra il contenuto generato dall’AI e uno dei quadri originali dell’artista, proprio perché l’intelligenza artificiale non lavora campionando direttamente le parti dei quadri originali, ma li rielabora per mezzo di funzioni statistiche e di algebra lineare.
Abbiamo usato un esempio sulle immagini, ma la stessa situazione si ripresenta in diversi ambiti dell’intelligenza artificiale generativa, come ad esempio la musica o gli articoli giornalistici.
Iniziative per la tutela del diritto d’autore
Una delle iniziative per la tutela del diritto d’autore che ha destato maggiore scalpore è stata quella del New York Times, che aveva intentato causa a Microsoft e ad Open AI per violazione del copyright sui propri articoli.
Ovviamente, i creatori di contenuti freelance non hanno il supporto legale delle principali testate giornalistiche. Mancano ancora normative chiare sulle interazioni tra dataset e modelli di intelligenza artificiale riguardo alla tutela del copyright nei dati usati per il training, anche se alcune commissioni europee stanno indagando sulla questione.
Un aiuto arriva dalla Blockchain
In questo scenario diventano interessanti alcune proposte del mondo Blockchain, che in questi ultimi anni ha assistito al diffondersi di marketplace specializzati nel fornire strumenti professionali per la vendita e il controllo della proprietà intellettuale sulle basi dati. Il funzionamento di questi marketplace è semplice dal punto di vista tecnico e ricco di implicazioni interessanti per chi voglia sentirsi più tutelato da potenziali violazioni di copyright.
Lo scopo di questi marketplace è permettere a istituzioni e creatori di contenuti di creare i propri dataset, validarne la proprietà intellettuale, e renderli poi disponibili per l’utilizzo agli agenti AI in cambio di una commissione.
Come funziona un marketplace per i dati
Per utilizzare uno di questi marketplace (ad esempio Ocean o Nuklai), è necessario registrarsi al sito e collegare un wallet di criptovalute, come Metamask o Coinbase wallet, tramite una procedura guidata solitamente messa a disposizione dal portale.
Alcuni marketplace richiedono, oltre alla creazione di un account, anche la verifica del proprio wallet tramite un soulbound token, ossia un NFT che non deve in nessuna condizione essere spostato o ceduto a terzi (da cui il termine “soulbound”, legato indissolubilmente).
Una volta soddisfatti i prerequisiti per l’utilizzo del portale, l’utente può procedere al caricamento del dataset. Solitamente sono supportati i formati dati più svariati, dai classici database relazionali, ai CSV, ai JSON, fino ad arrivare a formati ottimizzati per gestire grandi dataset in ambito di Machine Learning, come ad esempio il formato parquet.
Dopo che il portale ha completato il caricamento del dataset, vengono creati due oggetti su Blockchain, che permettono di identificare in modo univoco il dataset, legarlo al suo creatore, e tracciarne l’accesso da parte di terze parti.
Il primo oggetto che viene coniato è un token ERC 721 (un token non fungibile, che non può essere scambiato uno a uno a causa delle sue proprietà uniche), che rappresenta il dataset sulla Blockchain sotto forma di NFT. Il secondo oggetto è un insieme di token ERC 20, che sono impiegati per permettere l’accesso al dataset.
Tramite la combinazione dei due token, ERC 721 e ERC 20, lo smart contract del marketplace può tenere traccia degli accessi al dataset e ricompensare il suo creatore versando le commissioni di accesso direttamente nel wallet collegato al suo profilo.
Il creatore viene perciò così tutelato contro utilizzi abusivi dei suoi dati da parte degli algoritmi di apprendimento, e può disporre di una tracciabilità esaustiva in tempo reale degli accessi al dataset.