Dati coerenti e analisi tempestive per le Ferrovie

La manutenzione e lo sviluppo della rete ferroviaria italiana sono gestite da Rfi in base alle informazioni e alle analisi elaborate su milioni di dati raccolti e armonizzati in un data warehouse che, grazie anche alle funzioni di ETL incorporate, è in continua evoluzione

La rete ferroviaria italiana si sviluppa per 16.000 km di linee in esercizio, conta 2.300 stazioni e 500 impianti per il servizio merci. Fisicamente, si tratta di 22.400 km di binari, ai quali si sommano migliaia di chilometri di linea aerea e lungo i quali si distribuiscono migliaia di scambi deviatoi, scambi aerei, passaggi a livello, segnali, dispositivi di regolazione automatica. La responsabilità dello sviluppo, della gestione e soprattutto della manutenzione di questo immenso patrimonio, che assomma a circa due milioni di ‘oggetti’ dalla cui efficienza e funzionalità dipende, come è evidente, la sicurezza e il funzionamento dell’intero sistema ferroviario italiano, è di Rfi, Rete Ferroviaria Italiana (www.rfi.it), un’azienda che occupa 35.700 persone ed è interamente controllata dal Gruppo Ferrovie dello Stato.
Rfi nasce nel luglio 2001 a seguito della riorganizzazione delle Ferrovie dello Stato in una holding che controlla due società separate; una, Trenitalia, che si occupa della produzione dei servizi, cioè di far viaggiare i treni, e una, Rfi appunto, che gestisce le infrastrutture. Ma il progetto di automatizzare i processi di gestione e manutenzione della rete, considerando rotaie, scambi, segnali e tutto il resto come ‘risorse d’impresa’ gestibili da un sistema Erp, era partito ancora prima della costituzione della società. Per cui, con l’aiuto di una grande società di consulenza che personalizza Sap R3 in modo da poter applicare i modelli dei classici processi transazionali a operazioni quali il rilevamento di un guasto e la sua riparazione, nel gennaio del 2000 la futura Rfi si trova con il sistema Erp già installato e operativo. E a questo punto, come in molte realtà di grandi dimensioni e organizzazione complessa, si presenta la necessità di trarre dalla montagna di dati disponibili delle informazioni che siano di guida alla gestione dell’impresa stessa.
In particolare, Rfi stimava necessario disporre di precisi indici relativi alla sua attività primaria, che è la manutenzione dell’infrastruttura. Questa comprende indici tecnici (come il tempo medio tra i guasti, il tempo medio di riparazione e altri ancora definiti dall’Uni), e indici di performance, che legano dati relativi a guasti e riparazioni agli oggetti o alle famiglie di oggetti che compongono la rete ferroviaria. E per giungere a ciò, Maurizio Levi, responsabile dell’area Sistemi Informativi Infrastruttura della Direzione Strategia, Qualità e Sistemi di Rfi, stabilì che le informazioni necessarie alle elaborazioni dovessero prima essere consolidate in un unico grande Data warehouse, in modo da poter condurre analisi e realizzare prospetti in modo tempestivo e avendo una garanzia sulla coerenza dei dati. Una cosa che l’elaborazione di dati diversi realizzata a livello individuale con strumenti tipo Excel, come s’era fatto sino ad allora, non era possibile.

Consolidare i dati per analizzarli
Nel giugno del 2000 parte quindi, con uno studio di fattibilità che si conclude in ottobre, il progetto, promosso da Levi, per raccogliere e consolidare i dati dell’Erp di Rfi, quelli di ‘Sfinge’ (l’Erp, anch’esso Sap R3, che gestisce amministrazione e contabilità della holding), nonché, con un progetto che è in parte ancora in corso, i dati sulla circolazione dei treni, forniti da un sistema legacy. Da questo grande Data warehouse, frazionabile in specifici Data mart, si traggono, con opportuni strumenti di analisi e reporting, tutte le informazioni necessarie.
“Il data warehouse di Rfi – spiega Marcella Schiavi, che nell’ambito della Direzione Strategia, Qualità e Sistemi di Rfi segue l’area Business Intelligence – è strutturato su due livelli [vedi lo schema logico riportato in figura, ndr]. Il primo livello è un database relazionale, Oracle per la precisione, che rappresenta quelle che sono le entità del business ed è svincolato dai sistemi sorgente. Il secondo livello, sempre su Dbms Oracle, è dato dai datamart specifici creati per le varie aree applicative, cioè manutenzione, logistica e così via, che sono ottimizzati per le analisi multidimensionali e i conseguenti report desiderati”. Questi ultimi, realizzati con strumenti di Business Objects, rappresentano la parte visibile, il front end, del sistema, ma una parte tanto essenziale quanto invisibile è la cosiddetta ‘Staging Area’, ossia l’area che s’interpone tra l’estrazione dati dal sistema sorgente e il loro caricamento nel Data warehouse, dove i dati sono trasformati in modo da essere armonizzati tra loro, rispondendo a definizioni precise per formato, unità di misura, numero di decimali e quant’altro possa migliorare la qualità e la velocità delle successive elaborazioni.
Queste funzioni di estrazione, trasformazione e caricamento dati (Etl), per le quali Rfi ha scelto Ibm WebSphere DataStage, si applicano in due punti del processo che dai dati di partenza porta alle analisi finali (vedi ancora lo schema in figura). Il primo è nella già descritta Staging Area, tra i sistemi sorgente e il database di primo livello, che oltre a garantire la qualità e uniformità dei dati da elaborare svolge l’indispensabile compito di svincolare l’intero Data warehouse dalle diverse fonti di dati che lo alimentano e permette quindi di aggiungere nuovi sistemi sorgente estendendo le potenzialità del sistema. Il secondo punto è tra il database di primo livello e i Datamart, dove il processo Etl garantisce che questi ultimi vengano caricati con dati consistenti tra loro e, per quanto possibile, privi di ridondanze, migliorando quindi la velocità e l’accuratezza delle analisi richieste. In sostanza, come osserva Schiavi, la funzione Etl delegata a DataStage, “Entra, per così dire, nelle giunture dello schema logico del sistema e rappresenta l’elemento dinamico che abilita l’intero framework, intervenendo in ogni livello della struttura”.
WebSphere DataStage è una componente fondamentale della WebSphere Data Integration Suite, l’offerta Ibm per l’integrazione delle informazioni a livello d’impresa (Eii), che dopo l’acquisizione di Ascential avvenuta nella primavera 2005 è stata ridisegnata incorporando le soluzioni ex Ascential, tra cui appunto DataStage, nel brand WebSphere e rappresenta una soluzione di riferimento in ambito Etl. “Il valore di questo strumento, invisibile all’utente, è ben chiaro agli sviluppatori”, osserva Schiavi, che spiega come la soluzione Etl adottata, la cui necessità era stata evidenziata già a livello di studio di fattibilità, sia indispensabile per realizzare un progetto di tali dimensioni e, soprattutto, destinato a ulteriori sviluppi.

Manutenzione semplificata ma non solo
“Il vantaggio principale che abbiamo ottenuto tramite questa soluzione – precisa Schiavi – è stato la sistematizzazione del processo, ovvero il rendere esplicito ed in maniera ordinata il lavoro svolto dall’Etl. Date le dimensioni del Data warehouse e la prevista crescita nel tempo era infatti impensabile servirsi di procedure Sql o programmi ad hoc. Lo strumento Etl permette invece di tenere sotto controllo tutta questa massa di dati, gestendone le trasformazioni, i filtraggi e quant’altro”. Questo semplifica di molto la manutenzione del sistema e permette inoltre un facile trasferimento di conoscenza, che si traduce nella possibiità di affidare la manutenzione anche a chi non abbia partecipato allo sviluppo del progetto.
Il Data warehouse Rfi, andato in esercizio a febbraio 2002 per l’area Manutenzione, ha subito portato evidenti vantaggi sul piano operativo guadagnando l’apprezzamento degli utenti, in quanto ha eliminato lo scarico dalla rete aziendale di milioni di record che venivano elaborati a mano su fogli Excel fatti poi circolare in azienda e ha eliminato il rischio di incoerenze tra le analisi dovute a diversi criteri adottati dalle unità periferiche. Ma, come si è detto, il vantaggio più strategico, dato dall’Etl della Staging Area sta nel rendere indipendente il Data warehouse dai sistemi sorgente, e quindi nella possibilità di aggiungere questi ultimi man mano senza intervenire sul sistema. Il sistema si è così esteso progressivamente, dall’inizio 2004, alle aree Logistica, Giacenze, Movimento e Fabbisogno, ed è in continua evoluzione. Ultimamente, aggiunge Schiavi, “È stata implementata un’area che ci permette di integrare i dati provenienti dall’Erp Sap sulla gestione dei progetti Rfi con un’applicazione da noi sviluppata per valutare i ritorni sugli investimenti nei progetti stessi, il loro impatto sull’economia di Rfi e altro ancora. È un’area ancora piccola, e non si può dire che noi gestiamo i progetti tramite il Data warehouse, almeno non ancora, ma sicuramente una fetta delle informazioni relative alla gestione dei progetti passa di lì”.