Il text mining analizza le informazioni Glaxo

La multinazionale farmaceutica ha in atto un importante progetto che prevede l’automazione del lavoro di lettura, classificazione ed analisi della mole di documenti scientifici utilizzati per la comunicazione e la conoscenza sia all’interno sia all’esterno della società. Un compito che oggi impegna numerose risorse e che la tecnologia adottata dimostra di poter svolgere con vantaggi di efficienza e qualità di processo

In Italia la GlaxoSmithKline (Gsk), una delle maggiori case farmaceutiche del mondo (vedi riquadro) è presente con una struttura che le consente di operare a ciclo completo, dalla progettazione della molecola di un farmaco, fino alla sua immissione sul mercato, passando per gli stadi intermedi della formulazione farmaceutica, della sperimentazione clinica e della produzione.
“Nella nostra azienda – spiega Francesca Paternello, responsabile della Direzione Clinical Data Science di Gsk Italia – abbiamo a che fare con una gran quantità di documenti scientifici di diversa provenienza, i quali, dopo essere stati sottoposti ad un processo di selezione e di sintesi, vengono distribuiti tanto all’interno, dove vengono usati sia per migliorare le nostre conoscenze sia per supportare i programmi di sviluppo di nuovi farmaci, quanto all’esterno: alla comunità scientifica, ai medici e agli informatori commerciali.”
Questi documenti vengono in generale elaborati senza seguire schemi predefiniti, salvo il fatto di valutarne i contenuti affinché quelli considerati d’interesse per l’azienda possano essere usati nel modo più opportuno. Si tratta di un compito svolto da persone dedicate che si occupano di tutte le fasi del processo d’importazione dei documenti e della loro lettura, rielaborazione e distribuzione finale. Quest’attività presenta alcuni aspetti critici: innanzi tutto richiede molte risorse. Inoltre, non essendo standardizzabile oltre certi livelli, alcuni contenuti e informazioni corrono il rischio di essere trascurate. Si possono infine verificare meccanismi inconsapevoli di distorsione nella lettura, oltre che sviste nella diffusione dei documenti.
“Per queste ragioni – osserva Paternello – abbiamo considerato la possibilità di introdurre approcci alternativi, uno dei quali ci ha portato a valutare l’impiego del Text Mining attraverso un progetto pilota basato sulle tecnologie proposte da Sas per affrontare questo tipo di problemi. Abbiamo dunque iniziato a lavorare attorno all’idea verso la metà del 2003, e poiché stavamo già sviluppando, sempre con Sas, un importante progetto di Data Warehousing, ci è stato abbastanza facile inserire questo progetto pilota all’interno dell’altro.”

Lo sviluppo del progetto
È stato così creato un gruppo di lavoro costituito da due persone della direzione Clinical Data Science e da un consulente Sas che si è affiancato a quello che stava già lavorando sul progetto di Data warehousing. A questo nucleo si sono poi associate altre persone, come il responsabile della parte medica di un prodotto farmaceutico e quello dell’informazione medico-scientifica di un’area terapeutica, utili per valutare i risultati raggiunti all’interno di alcune delle strutture dove l’applicazione potrebbe venire effettivamente rilasciata.
Una delle più importanti fasi del progetto è stata quella del ‘text refining’, nel corso della quale i testi sono stati ‘puliti’ e le loro dimensioni ridotte per poterli trasformare in matrici numeriche da sottoporre successivamente a particolari analisi statistiche. Il Text mining, nella versione Sas, è a tutti gli effetti un Data mining applicato alle matrici numeriche ottenute da questa trasformazione dei testi originali. Le analisi statistiche producono delle tabelle contenenti i parametri che consentono di classificare opportunamente i documenti originali, che possono così essere distribuiti alle persone o agli enti interessati.
Per il progetto pilota sono stati utilizzati 2.500 documenti in lingua inglese estratti dalla banca dati pubblica ‘PubMed’. In realtà potrebbero interessare testi scritti anche in altre lingue, tuttavia non è possibile applicare il Text mining a più lingue contemporaneamente. Una fase fondamentale nello sviluppo di questi progetti consiste infatti nella produzione di un vocabolario derivato dai contenuti dei testi che si vogliono analizzare. In questo compito Gsk è stata aiutata dal fatto di disporre già di un dizionario specializzato, che è stato utilizzato senza importanti modifiche nella fase di refining dei documenti riducendo sensibilmente i tempi necessari per la realizzazione del prototipo.

Considerazioni conclusive
La tecnologia di Text Miner è apparsa molto affidabile: una classificazione dello stesso set di documenti fatta con metodologie tradizionali ha infatti consentito di verificare una corrispondenza pressoché totale. Poichè questa applicazione potrebbe in futuro sostituire una attività che coinvolge numerose persone, prima di rilasciarla in modo definitivo Glaxo intende studiare bene lo strumento, migliorare per quanto possibile il dizionario e applicarlo a tutte le aree d’interesse della società. Un lavoro per il quale ha bisogno ancora di tempo.
“Da questa applicazione – conclude Paternello – ci attendiamo due tipi di ritorno: il primo riguarda l’incremento della qualità dei risultati del processo considerato, mentre il secondo è relativo al miglioramento della sua efficienza operativa, essendo legato a una possibile riduzione delle risorse oggi dedicate a tale attività. Ma si tratta di un risparmio che non rappresenterà comunque un ritorno sul breve termine. Per questo pensiamo che si debba mettere al primo posto, tra i vantaggi, quello di poter gestire un processo delicato come questo nel modo più appropriato.”

GSK, i numeri di un gigante
Nata nel 2001 dalla fusione di GlaxoWellcome e di SmithKline Beecham, l’anglo-americana GlaxoSmithKline è una delle prime case farmaceutiche al mondo, con una quota di mercato stimata attorno al 7% del totale. La posizione prominente raggiunta in quattro delle cinque principali aree terapeutiche: anti-infettivi, farmaci per il sistema nervoso centrale, il sistema respiratorio e il sistema metabolico/gastrointestinale, le ha consentito di realizzare nel 2003 ricavi per 35,2 miliardi di dollari e utili prima delle tasse pari a 11 miliardi. In Gsk lavorano più di 100 mila persone di cui oltre 16 mila nella Ricerca e Sviluppo, dove ogni anno viene investito circa il 12% del fatturato. In Italia Gsk impiega circa 3.000 persone. Tra questi, 550 ricercatori che svolgono la loro attività a Verona in uno dei sei Centri di Eccellenza responsabili a livello mondiale dello sviluppo dei farmaci per il trattamento di alcune patologie psichiatriche (depressione, schizofrenia, disturbi del sonno, dipendenza da farmaci, nicotina e alcool) e 750 addetti alla produzione nei due stabilimenti di Parma e Verona, il cui output viene esportato per oltre il 50% in 64 Paesi del mondo, Stati Uniti compresi. (C.C.)