Database vettoriali, come rivoluzionano il nostro rapporto con l'AI generativa

Riducendo la necessità di strutturare i dati permettono di accelerare notevolmente i tempi di addestramento per i modelli di intelligenza artificiale generativa, automatizzando gran parte del lavoro relativo all’elaborazione di dati non strutturati per la formazione e la produzione

L’AI generativa ha ricevuto molta attenzione nel mondo della tecnologia e oltre. Ma dietro i titoli dei giornali, il 2022 ha portato uno sviluppo ancora più importante nell’AI: l’ascesa del database vettoriale. L’adozione di database vettoriali potrebbe stravolgere completamente il modo in cui interagiamo con i nostri dispositivi, oltre a migliorare notevolmente la nostra produttività in una vasta gamma di attività amministrative e d’ufficio. In definitiva, i database vettoriali saranno un’infrastruttura essenziale per realizzare i cambiamenti sociali ed economici promessi dall’AI.

Ma cos’è un database vettoriale? Per capirlo, dobbiamo dare un senso al problema di fondo che affronta: i dati non strutturati.

Indice degli argomenti

Database: il problema dei dati non strutturati

I database sono uno dei verticali più longevi e resilienti del settore software. La spesa totale per database e soluzioni di gestione dei database è raddoppiata da 38,6 miliardi di dollari nel 2017 a 80 miliardi di dollari nel 2021. E dal 2020, i database hanno solo ulteriormente consolidato la loro posizione come una delle categorie di software in più rapida crescita, a causa dell’ulteriore digitalizzazione a seguito del passaggio di massa al lavoro a distanza.

Tuttavia, il database moderno è ancora vincolato da un problema che persiste da decenni: il problema dei dati non strutturati. Si tratta fino all’80% dei dati memorizzati a livello globale che non sono stati formattati, etichettati o strutturati in modo da consentirne una rapida ricerca o richiamata.

Per una semplice analogia tra dati strutturati e non strutturati, si pensi a un foglio di calcolo con più colonne per riga. In questo caso, una riga di “dati strutturati” ha tutte le colonne pertinenti compilate, mentre una riga di “dati non strutturati” no. Nel caso della voce non strutturata, è possibile che i dati siano stati automaticamente importati nella prima colonna della riga; qualcuno ora deve suddividere quella cella e popolare i dati in colonne pertinenti.

Perché i dati non strutturati sono un problema

In breve, ciò rende più difficile ordinare, cercare, rivedere e utilizzare le informazioni in un database. Tuttavia, la nostra comprensione dei dati non strutturati è relativa al modo in cui i dati sono solitamente strutturati.

Tag mancanti o formattazione disallineata significa che le voci non strutturate possono essere perse nelle ricerche o erroneamente escluse/incluse dal filtro. Ciò introduce rischi di errore in molte operazioni di database, che dobbiamo affrontare strutturando manualmente i dati. Questo spesso ci impone di rivedere manualmente le voci non strutturate. Ciò non significa che i dati stessi siano necessariamente non strutturati; Richiede solo più intervento manuale rispetto ai nostri soliti mezzi di archiviazione dei dati.

Sentiamo spesso parlare dell’onere della revisione manuale con affermazioni come i data scientist che dedicano l’80% del loro tempo alla preparazione dei dati. Questo è qualcosa che tuttiabbiamo sperimentato: se abbiamo dovuto lottare con un esploratore di file per trovare qualcosa sul disco rigido o passare molto tempo a selezionare i risultati irrilevanti dei motori di ricerca, probabilmente siamo stati colpiti dal problema dei dati non strutturati.

Questo spreco di tempo in formattazione, revisione e filtraggio manuali non è un problema nuovo o esclusivamente digitale. Ad esempio, i bibliotecari dispongono manualmente i libri secondo il sistema decimale Dewey. Il problema dei dati non strutturati è solo una versione digitale di una sfida fondamentale con ogni compito di tenuta dei registri che gli esseri umani hanno avuto da quando abbiamo inventato la scrittura: dobbiamo classificare le informazioni per archiviarle e utilizzarle.

È qui che i database vettoriali si rivelano particolarmente interessanti. Piuttosto che fare affidamento su categorie ed elenchi distinti per organizzare i nostri record, i database vettoriali li posizionano invece su una mappa.

Database vettoriali: vettori e mappatura

I database vettoriali utilizzano un concetto nell’apprendimento automatico e nell’apprendimento approfondito chiamato incorporamento vettoriale. L’incorporamento vettoriale è una tecnica in cui parole o frasi in un testo vengono mappate su vettori ad alta dimensione, noti anche come incorporamenti di parole. Questi vettori vengono appresi in modo tale che parole semanticamente simili siano vicine nello spazio vettoriale.

Questa rappresentazione consente alle reti neurali profonde di elaborare i dati testuali in modo più efficace e si è dimostrata molto utile in una varietà di attività di elaborazione del linguaggio naturale come la classificazione del testo, la traduzione e l’analisi del sentiment.

Nel contesto del database, l’incorporamento vettoriale è effettivamente una rappresentazione numerica di un gruppo di proprietà che vogliamo misurare.

Per creare un incorporamento, prendiamo un modello di Machine learning addestrato e lo istruiamo per monitorare tali proprietà nelle voci di un set di dati.

Nel caso di una stringa di testo, ad esempio, al modello potrebbe essere detto di registrare la lunghezza media delle parole, i punteggi dell’analisi del sentiment o l’occorrenza di parole specifiche.

L’incorporamento finale assume la forma di una serie di numeri corrispondenti ai “punteggi” registrati nell’audit delle proprietà. Un database vettoriale prende i punteggi degli incorporamenti vettoriali e li traccia su un grafico. Ogni proprietà che misuriamo in un incorporamento vettoriale costituisce una dimensione del grafo, con il risultato che di solito ha molte più delle tre dimensioni che possiamo visualizzare convenzionalmente.

Con tutte queste informazioni tracciate, possiamo ancora calcolare quanto sia “lontano” un incorporamento da un altro incorporamento nello stesso modo in cui possiamo farlo in qualsiasi altro grafico. Forse ancora più importante, possiamo impegnarci in un nuovo modo di cercare i dati. Generando un incorporamento vettoriale di una query di ricerca immessa, tracciamo un punto sul grafico che vogliamo scegliere come target. Quindi, possiamo scoprire gli incorporamenti più vicini al nostro punto di ricerca.

Gli incorporamenti vettoriali non sono una soluzione perfetta per tutto. In genere vengono appresi in modo non supervisionato, rendendo difficile interpretarne il significato e il modo in cui contribuiscono alle prestazioni complessive del modello. Gli incorporamenti pre-addestrati possono anche contenere pregiudizi presenti nei dati di addestramento, come pregiudizi di genere, razziali o politici, che possono influire negativamente sulle prestazioni del modello.

Il potenziale della ricerca vettoriale

Un database vettoriale non si basa su tag, etichette, metadati o altri strumenti tipicamente utilizzati per strutturare i dati. Invece, poiché un incorporamento vettoriale può tracciare qualsiasi proprietà che riteniamo rilevante, i database vettoriali ci consentono di ottenere risultati di ricerca basati sulla somiglianza complessiva.

Mentre le attuali ricerche di dati non strutturati comportano la revisione e l’interpretazione manuali, i database vettoriali consentiranno alle ricerche di riflettere effettivamente il significato dietro le nostre query piuttosto che proprietà superficiali come le parole chiave.

Questo cambiamento rivoluzionerà la gestione dei dati, la tenuta dei registri e la maggior parte del lavoro amministrativo e delle attività d’ufficio. A causa della riduzione dei risultati di ricerca “falsi positivi” e della ridotta necessità di preselezionare e formattare le query in un sistema, i database vettoriali possono aumentare notevolmente la produttività e l’efficienza di quasi tutti i lavori nell’economia della conoscenza.

Oltre ai guadagni in termini di produttività amministrativa, queste funzionalità di ricerca avanzate ci consentiranno di fare affidamento sui database per interagire in modo più efficace con query creative e aperte.

Questo è un complemento ideale per l’ascesa dell’AI generativa. Poiché i database vettoriali riducono la necessità di strutturare i dati, possiamo accelerare notevolmente i tempi di addestramento per i modelli di intelligenza artificiale generativa automatizzando gran parte del lavoro relativo all’elaborazione di dati non strutturati per la formazione e la produzione.

Conclusioni

Di conseguenza, molte organizzazioni possono semplicemente importare i propri dati non strutturati in un database vettoriale e indicare quali proprietà vogliono misurare nei loro incorporamenti. Con questi incorporamenti generati, un’organizzazione può addestrare e distribuire rapidamente un modello generativo semplicemente consentendo di eseguire ricerche nel database vettoriale per raccogliere informazioni per le attività.

Il database vettoriale è impostato per migliorare notevolmente la nostra produttività e rivoluzionare il modo in cui mettiamo in campo le query ai computer. Nel complesso, questo rende i database vettoriali una delle tecnologie emergenti più importanti del prossimo decennio.