Intelligence anche per i contenuti

Per essere realmente d’aiuto ai fini della gestione di un’impresa, un’applicazione di business intelligence deve poter analizzare tutte le informazioni potenzialmente disponibili, ivi comprese quelle ‘nascoste’ nella mole di scritti ed altri documenti quotidianamente prodotti sul lavoro. Da questa esigenza nascono le soluzioni per l’analisi e la gestione dei dati non strutturati, un’area d’offerta dalle grandi opportunità

La Business Intelligence è sempre più considerata un investimento strategico da parte delle aziende. Una valutazione che trova conferma anche nelle previsioni dei maggiori analisti dell’It.
Secondo Idc, ad esempio, dopo il sensibile rallentamento verificatosi nel triennio 2001-2003, durante il quale lo sviluppo del mercato della Bi non sarebbe andato oltre un 3,3%, nel quinquennio 2004-2008 il suo tasso di crescita composto annuo dovrebbe triplicare, per raggiungere il 10%. Gartner, a sua volta, ritiene che il mercato europeo della Bi comincerà di nuovo ad espandersi nel 2004 per poi crescere da oggi al 2007 al tasso medio annuo dell’8,2%. E prevede inoltre che la cosiddetta ‘embedded Bi’, ovvero l’insieme delle funzioni di ‘intelligence’ che i vendor di sistemi gestionali sempre più spesso incorporano nei loro prodotti, crescerà ancora più rapidamente delle soluzioni di business intelligence ‘standalone’.
Tuttavia, affinché l’uso della Bi possa diventare realmente strategico, è indispensabile che le aziende siano messe nelle condizioni di sviluppare una visione globale, ‘olistica’, di tutti i dati rilevanti per le loro attività. L’input delle tradizionali applicazioni di Bi è infatti limitato ai dati strutturati. Quelli che non lo sono, come i testi, le e-mail, le pagine Web ed in generale tutto il materiale prodotto in formato digitale da chi lavora nelle più svariate organizzazioni, pur costituendo almeno potenzialmente una fonte ricca di contenuti informativi, non è invece considerato dalla Bi ‘classica’.
Eppure, è un dato di fatto che una buona parte delle attività del mondo in cui viviamo, per poter essere svolte, richiedono sempre più spesso la lettura e la comprensione di grandi quantità di documenti testuali. Dai politici ai manager, dai ricercatori agli avvocati, dai giornalisti ai medici, sono moltissimi coloro che si trovano continuamente nella necessità di estrarre informazioni, individuare trend, fare previsioni e prendere decisioni in base ai documenti testuali di cui dispongono. Tutto questo, senza avere troppo tempo per leggerli, né tanto meno per esaminarli in dettaglio o classificarli e, soprattutto, senza essere, nella gran maggioranza dei casi, capaci di sfruttarne in modo adeguato i contenuti, perchè le informazioni ‘sepolte’ nei testi sono più ambigue e assai meno facilmente analizzabili di quelle strutturate.

Gli approcci dell’offerta
Per cercare di risolvere il problema, anche perchè la crescente quantità di documenti elettronici sta rendendo sempre meno affrontabile, anche dal punto di vista economico, la loro classificazione manuale, negli anni più recenti hanno incominciato ad essere messe a punto un certo numero di tecnologie in grado di rendere automatici i processi di categorizzazione, di sommarizzazione e di creazione di tassonomie applicabili ai contenuti non strutturati. Tra i fornitori che propongono tali soluzioni compaiono sia società specializzate, quali Autonomy, Inktomi, Inxight e Verity, sia grandi vendor globali come Ibm e Microsoft.
Una posizione particolare in quest’area d’offerta è quella occupata da Sas che già due anni fa ha rilasciato ‘Text Miner’, una suite di tool per l’analisi dei testi (vedi riquadro) con la quale la sua offerta di soluzioni per il Data mining si estende anche ai dati non strutturati e che, in versione aggiornata, è stata recentemente rilasciata come parte della nuova piattaforma Sas 9. Il Text Miner di Sas consente di leggere insiemi di qualsiasi dimensione di documenti, memorizzati nei formati più diffusi (Ascii, Word, Html, Pdf, Excel, Lotus e PowerPoint); di identificare i concetti in essi contenuti (ed eventualmente di integrarli con informazioni provenienti da dati strutturati) e infine di sottoporre tale base di conoscenza ad algoritmi che consentono di classificarli in base a categorie predefinite e di effettuare su di essi analisi predittive. In sostanza questi prodotti consentono, consente di applicare ai dati non strutturati le stesse tecniche di analisi che permettono di scoprire, all’interno di insiemi anche molto complessi di dati strutturati, correlazioni altrimenti difficilmente identificabili.

Soluzioni collaborative per gestire la conoscenza dell’impresa
In ogni caso, sia pur con svariati approcci al problema da parte dei diversi vendor, l’obiettivo è unico: fornire soluzioni che consentano di gestire meglio la cosiddetta ‘conoscenza esplicita’ delle aziende, indipendentemente dal fatto che sia interna od esterna.
Questo problema non si può affrontare solo con tecniche di ‘document management’, che si limitino ad archiviare testi in modo da facilitarne il recupero. Occorrono strumenti più potenti, capaci di combinare la funzione primaria di archiviazione e recupero con nuovi strumenti di collaborazione che vadano oltre il normale flusso ‘stesura-editing-approvazione’. Questo perché oggi la maggior parte dei documenti non è più prodotta da un singolo individuo, ma da gruppi di persone, e molte attività richiedono lo sviluppo coordinato di più documenti da parte di più settori aziendali.
Accade così che fornitori di applicazioni di ‘content management’, come Documentum e Vignette, abbiano incominciato ad arricchire la loro offerta con funzioni di collaborazione, oppure vendor di soluzioni di collaborazione, quali Open Text, stiano aggiungendo ai loro prodotti base funzioni di content management e di publishing.
Un trend così evidente da indurre Gartner a identificare una nuova categoria di applicazioni alla quale è stato dato il nome di Ses (Smart Enterprise Suite), che in un unico package offrono diverse funzioni: portali enterprise, capacità di information retrieval, categorizzatori di informazioni, generatori di tassonomie, servizi di collaborazione e di content management’. È stato elaborato anche uno specifico ‘Quadrante Magico’ il cui ultimo aggiornamento risale allo scorso mese di maggio (vedi figura).

Il mercato delle ‘Smart Enterprise Suite’

Fonte: Gartner

In questo mercato, che già nel 2004 potrebbe valere un miliardo di dollari, Gartner ha individuato sei leader, ed è interesssante osservare come in quest’area, accanto a software house specializzate come le gìà citate Open Text e Vignette, più Hummingbird e Plumtree Software, compaiano nomi come Ibm e Sap, avendo Microsoft come unico ‘challenger’.

il “minatore” alla ricerca dei testi
Text Miner di Sas non è un’applicazione d’information retrieval, né un motore di ricerca o un sistema per la comprensione del linguaggio. Gli algoritmi statistici utilizzati per l’analisi testuale sono gli stessi impiegati nel Data Mining. C’è però una fase iniziale, che è specifica della soluzione, dove i testi vengono letti ed ogni loro parola è valutata per capirne l’importanza allo scopo di eliminare tutte quelle che non sono significative (articoli, avverbi, congiunzioni, parole che compaiono una sola volta). Viene poi fatto un ‘pattern match’ per la validazione dei nomi di persone, aziende, località e così via, seguito dall’analisi morfologica delle parole, alla fine della quale, per ogni termine e forma verbale avente la stessa derivazione (porta-portello, pesca-pescare) viene trattenuto un solo lemma in rappresentanza di tutti gli altri, che vengono quindi eliminati. A questo punto ad ogni documento e ad ogni termine significativo viene attribuito un codice univoco e ne vengono calcolate le ricorrenze (ad esempio: la parola ‘computer’, codice1869, compare 1 volta nel documento 34; la parola ‘mouse’, codice 4123, compare 4 volte nel documento 55 e così via).
Così vengono create delle matrici ‘documento/parola/frequenza’ che, opportunamente elaborate, permettono di classificare i diversi documenti selezionando quelli che si possono considerare più interessanti.
Come osserva Sabina Silani, del supporto vendite divisione Analytical & Business Application di Sas Italia: “L’attività più impegnativa per l’adozione di Text Miner è quella per la costruzione dei vocabolari, perchè ogni azienda deve operare con i suoi compendi di termini. Ed è proprio questo che distingue le analisi testuali fatte da un’azienda farmaceutica da quelle fatte da una banca o da un’organizzazione turistica. Evidentemente, le analisi testuali non possono prescindere dalle parole le quali, a seconda dei contesti nei quali vengono usate, possono assumere significati diversi. Ogni settore di attività tende a sviluppare un suo lessico specializzato per cui è indispensabile creare di volta in volta dei vocabolari ad hoc.” (C.C.)