L'evoluzione delle basi dati nella PMI

L’evoluzione delle basi dati nella PMI

La digitalizzazione ha richiesto nuove tecnologie di gestione dei dati. Da Access a SQL, passando per le esigenze ETL e di analisi dati, fino alle nuove soluzioni Elastic e Mongo DB: ecco come le soluzioni di data management si evolvono nella PMI.

Pubblicato il 25 Gen 2022

La digitalizzazione dei processi aziendali non ha solo introdotto nuove tecnologie e metodologie nella PMI, ma ha anche motivato le aziende a inserire nella propria infrastruttura informatica nuove soluzioni per la gestione dei dati.

Indice degli argomenti

Il cuore della digitalizzazione: i dati

L’ufficio paperless e le integrazioni tra gestionale ERP e linee di produzione richieste dall’Industria 4.0 hanno causato un aumento della complessità dei dati da gestire, sia come quantità di informazioni, sia come tipi di dati da immagazzinare nel database. Oltre ai tipi di dati numerici e alfanumerici, nella regolare gestione dei dati sono entrati tipi di file che prima venivano gestiti separatamente dal database, a partire dai formati dell’archiviazione documentale (Word, PDF, fogli Excel), oltre ai flussi XML e JSON, fino ad arrivare alla memorizzazione di coordinate geografiche o informazioni geometriche provenienti da sistemi di CAD/CAM.

Le infrastrutture di gestione dei dati si sono dovute adeguare a queste nuove sfide, sia a livello di complessità dello storage, sia a livello di backup e sistemi di failover. Ma questo non è stato sufficiente: anche le tecniche di estrazione e modellazione hanno dovuto abbracciare le nuove logiche di business.

Da Office a SQL

Innanzitutto, si è assistito a una graduale evoluzione dai sistemi incentrati su Access ed Excel all’implementazione di basi dati SQL, sia per motivi di aumento della complessità delle tabelle, sia per motivi di prestazioni causate dall’aumento di utenti con accesso simultaneo al database.

Il passaggio a SQL è stato reso necessario in molte aziende anche per implementare soluzioni di clustering e replica, in modo da garantire una disponibilità 24/7 del dato. L’aumento di integrazioni con sistemi informatici esterni, a partire dalle APP di e-commerce fino alle piattaforme SaaS di Business Intelligence, ha infatti reso necessario che i dati fossero sempre consumabili all’esterno del perimetro della rete aziendale. Queste nuove metodologie di fruizione hanno anche motivato le aziende ad ampliare il familiare concetto di Intranet e rete locale (LAN) acquisendo maggiore domestichezza con il cloud e le soluzioni ibride.

API di accesso ai dati

Proprio il cloud si è rivelato occasione di incontro con sistemi di gestione dati dalle caratteristiche disruptive rispetto ai DBMS on premise. L’esigenza di dover eseguire la manutenzione di API (Application Programming Interface) oltre che della base dati ha fatto nascere la ricerca di database in cloud che unificassero le due caratteristiche (dato salvato e interfaccia per accedervi) in soluzioni più smart e di facile gestione.

Con l’aumentare del livello di dettaglio delle informazioni gestite sono iniziati poi ad emergere alcuni limiti prestazionali dei database relazionali, soprattutto in caso di base dati frammentati su un grande numero di tabelle. In questi casi, infatti, il costo in termini di prestazioni pagato a causa delle JOIN necessarie per reperire le informazioni sulle tabelle periferiche diventa poco tollerabile da APP mobili che fanno della velocità di utilizzo una delle loro criticità.

Per questi motivi si è assistito al diffondersi di tecnologie di salvataggio dati non relazionali o no SQL. Un esempio di queste tecnologie può essere Mongo DB, che espone delle API in cloud, tramite cui i dati possono essere direttamente interrogati. Inoltre, Mongo DB utilizza non un formato tabellare per salvare fisicamente i dati, ma impiega il formato JSON, superando così i colli di bottiglia tipici dei database relazionali.

BI e Machine Learning

Con il crescere della complessità dei dati, le soluzioni di reportistica integrate nei gestionali ERP hanno iniziato a mostrare i loro limiti e a richiedere sempre maggiori interventi di customizzazione. La reportistica si è dovuta evolvere innanzitutto per gestire le nuove esigenze di output dettate dal bisogno di consultare i report non solo su stampati di carta, ma anche sullo schermo responsive di uno smartphone. Inoltre, è cresciuto il bisogno di avere a disposizione le analisi in tempo reale anche fuori dal perimetro della rete aziendale. Per questi motivi si è assistito al diffondersi di tool di reportistica più strutturati, che supportano un’ampia gamma di basi di dati, fruibili in cloud come servizi SaaS.

Questi tool di reportistica, come ad esempio Power BI, a loro volta hanno aperto la strada al diffondersi di ambienti di programmazione equipaggiati con librerie di manipolazione dati potenti e di semplice utilizzo, come ad esempio Python, che con la sua libreria Panda è in grado di realizzare con poche linee di codice script di ETL che si possono importare in Power BI Desktop.

L’introduzione di queste tecnologie di scripting ha portato all’adozione attiva di tecniche di machine learning, con cui si è arrivati alla possibilità non solo di accedere a basi dati consolidate, ma anche di trasformare in basi di dati file e sorgenti che prima non erano serializzabili. Si pensi, ad esempio, alla capacità attuale dei sistemi di machine learning di estrarre dati strutturati da un file PDF, trasformando in una origine dati un’entità che fino a poco tempo fa era considerata solo un output, e non una fonte di informazioni consumabile da un algoritmo.

La sfida IOT

Il diffondersi di sistemi di produzione basati su IOT (Internet Of Things) rappresenta una nuova sfida per il data management aziendale. L’ambito della produzione richiede continui flussi di dati da immagazzinare ed elaborare per estrarre costi e stati di produzione, ma tipicamente i device IOT hanno uno storage ridotto e non sono pensati per immagazzinare grosse quantità di dati. Si viene creare perciò uno scenario in cui device evoluti colloquiano con server Edge, che fanno da tramite tra il punto di generazione o raccolta dati e il software di BI responsabile della loro presentazione. Questo scenario porterà le attività di ETL e BI ad appoggiarsi sempre maggiormente a soluzioni di scripting o di salvataggio No SQL, in modo da poter ottimizzare prestazioni e resilienza dei dati della produzione industriale.