DNA Data Storage: tutta la conoscenza umana in un solo grammo

La memorizzazione dei dati sul DNA è molto più vicina alla realtà commerciale che alla fantascienza ed espande enormemente le potenzialità di archiviazione. Si comincia da musica, video e dati statistici, per poterli conservare eoni anni in uno spazio ultramicro. Twist Bioscience con Netflix il primo caso

La storia della tecnologia di storage è quella di una continua lotta per codificare più informazioni in spazi sempre più piccoli a costi sempre più bassi. Quando l’archiviazione delle informazioni è diventata digitale, lo sforzo si è concentrato sulla creazione di strutture magnetiche, piuttosto che ottiche o di silicio, sempre più piccole. Ma mentre si continua a schiacciare sempre più bit su un chip o un disco, la codifica dei dati nella doppia elica del DNA fa intravedere la possibilità di raggiungere densità enormemente più elevate.

Indice degli argomenti

La (molto) fine stampa sul DNA

La lunghezza di 10 coppie di basi di DNA è 3,4 nanometri, con un diametro di 2 nanometri. Ogni coppia di basi è una combinazione di due nucleotidi: adenina (A) e timina (T), o citosina (C) con guanina (G). Se ogni coppia rappresentasse un bit, ad esempio AT o TA come zero e CG o GC come uno, un filamento di DNA potrebbe teoricamente contenere 10 bit per 6,8 nm quadrati. In altre parole, la densità delle informazioni sul DNA è 1,47 terabit/mm ² o 950 terabit/in². Più di 800 volte la densità degli HDD. Se si considera che ci sono tre miliardi di coppie di basi in un microscopico genoma umano strettamente avvolto in ogni cellula, le opportunità di memorizzazione dei dati del DNA sono enormi.

Oggi, la tecnologia che usiamo per sintetizzare, immagazzinare e sequenziare il DNA non è esente da difetti; inoltre richiede che qualsiasi sistema di DNA Data Storage abbia grandi quantità di ridondanza, in aggiunta a un sofisticato data coding. Ma la crescita esplosiva della generazione di dati richiederà tecniche di storage rivoluzionarie, in particolare per gli scopi di archiviazione.

Gartner ripone grandi speranze nella crescita delle conoscenze per la conservazione del DNA e osserva che tutta la conoscenza umana potrebbe essere conservata in una piccola quantità di DNA sintetico. Secondo gli analisti, il 30% delle aziende digitali condurrà sperimentazioni di DNA Data Storage entro il 2024. Poiché il DNA può essere conservato a tempo indeterminato, Gartner vede l’archiviazione di musica, video e dati statistici come potenziali applicazioni per l’archiviazione del DNA.

Tecnologia di base, sfide e limiti

L’archiviazione e il recupero dei dati del DNA è un processo in sei fasi che converte un flusso di bit digitale in una sequenza di coppie di basi. È concettualmente simile alla codifica dei bit come una serie di pit and land su un disco ottico. I passaggi sono questi:

Il coding traduce il flusso di bit in una sequenza di coppie di basi ed è un ambito al centro di molte ricerche. Le tecniche più avanzate utilizzano la codifica di Huffman, a volte abbinata a codici di correzione degli errori Reed-Solomon, per resistere agli errori di degrado derivanti dallo storage a lungo termine.
La sintesi e l’assemblaggio utilizzano varie reazioni biologiche per creare brevi sequenze di DNA e assemblarle in filamenti più lunghi. Poiché è molto più veloce ed economico generare frammenti di DNA di poche centinaia di coppie di basi rispetto a lunghe sequenze simili al genoma, l’archiviazione dei dati del DNA suddivide i dati in blocchi che vengono codificati e indicizzati. La tecnica è concettualmente simile a come un’unità disco scompone file o database in blocchi logici o reti IP che pacchettizzano i dati prima della trasmissione.
Lo stoccaggio preserva il DNA in una soluzione all’interno di fiale per ridurre al minimo la degradazione nel tempo. L’esposizione all’acqua e all’ossigeno accelera notevolmente la degradazione del DNA a temperatura ambiente, di conseguenza, la maggior parte della conservazione ospita campioni in vitro in una soluzione inerte o in un solido. In effetti, nell’ambiente giusto, il DNA può rimanere intatto per eoni. Alcuni scienziati hanno recentemente estratto il genoma dai denti di un mammut siberiano di un milione di anni.
Il recupero estrae sottoinsiemi di DNA da un campione più grande. Esistono diverse tecniche ad accesso casuale per l’estrazione da un pool di DNA che in genere utilizzano l’amplificazione della reazione a catena della polimerasi come nei test COVID-19.
Il sequenziamento legge la serie di coppie di basi nucleotidiche del DNA attraverso tecniche simili a quelle utilizzate dai test genetici medici. Frammenti di DNA sono spesso sequenziati in parallelo per accelerare il processo.
La decodifica trasforma la sequenza della coppia di basi in un flusso binario decodificando e riassemblando i segmenti di dati.

Applicazioni e aziende importanti

Il DNA Data Storage sta passando rapidamente dal laboratorio alla produzione. Tuttavia, poiché i processi di sintesi e sequenziamento sono lenti rispetto all’elaborazione elettronica delle informazioni, l’unica applicazione praticabile è l’archiviazione. Ad esempio, attualmente ci vogliono ore per scrivere alcuni gigabyte di dati, sebbene esista una tecnica di elaborazione parallela sperimentale che, secondo quanto si afferma, permette di raggiungere un terabyte al giorno.

Il DNA Data Storage tollera alti tassi di errore. A differenza degli usi farmaceutici, in cui piccoli errori nella sequenza del DNA possono avere effetti profondi, la capacità di impiegare sofisticati algoritmi di ridondanza e codifica significa che i sistemi di archiviazione possono mantenere la piena fedeltà dei dati con tassi di errore del 10% o superiori nei processi di sintesi e sequenziamento.

L’industria del video streaming ha prodotto un esempio significativo dell’uso emergente del DNA per l’archiviazione dei dati. Twist Bioscience, in collaborazione con Netflix, ha dimostrato la fattibilità del DNA per la conservazione dei video utilizzando la codifica fatta dai ricercatori del Politecnico fedrale di Zurigo del primo episodio della serie Netflix Biohackers in nucleotidi di DNA, che gli stessi ricercatori hanno poi sintetizzato in filamenti di DNA nella piattaforma di silicio di Twist Bioscience. Si tratta di un’impressionante dimostrazione del potenziale del DNA come mezzo d’archivio.

Twist Bioscience è leader nell’archiviazione dei dati del DNA e ha presentato la sua tecnologia allo Stanford Compression Workshop 2021. Twist Bioscience, Illumina, Microsoft e Western Digital hanno recentemente costituito la DNA Data Storage Alliance per promuovere la tecnologia e sviluppare una roadmap del settore, casi d’uso e materiali didattici. Altri membri della Data Storage Alliance sono: Ansa Biotechnologies, Catalog, The Claude Nobs Foundation, DNA Script, École polytechnique fédérale de Lausanne (Cultural Heritage & Innovation Center), ETH Zurich, Imec, Iridia, Molecular Assemblies, Molecular Information Systems Lab at the University of Washington, Quantum.

Ci sono poi altre aziende importanti – tra cui Evonetix, Helixworks, Kilobaser e Synthomics – che sono pioniere di tecnologie come la sintesi del DNA e il materiale di storage. Questo lavoro faciliterà l’archiviazione dei dati sul DNA, oltre ad altre applicazioni terapeutiche in cui si fa uso del DNA.

Il DNA Data Storage è molto più vicino alla realtà commerciale che alla fantascienza. I professionisti dell’archiviazione dei dati responsabili delle strategie di archiviazione farebbero bene a seguire gli sviluppi in questo campo e inserire la tecnologia del DNA nelle roadmap, non meno delle evoluzioni in LTO tape.