Speech recognition: cos’è e come funzionano gli algortimi su cui si basa

Speech recognition tra algoritmi e linguaggio naturale: cos’è e come funziona

pittogramma Zerouno

Guida

Speech recognition tra algoritmi e linguaggio naturale: cos’è e come funziona

Se da una parte la parola è il principale mezzo di comunicazione dell’essere umano e dall’altra, il desiderio dell’uomo di automatizzare compiti ha radici antiche nei secoli, intelligenza artificiale e reti neurali sono fondamentali per l’evoluzione della tecnologia del riconoscimento vocale. Ma vediamo di cosa si tratta

04 Mag 2021

di Roberta Fiorucci

Lo speech recognition interpreta il linguaggio umano e lo traduce in testo o comandi. Una tecnologia nata come interazione uomo macchina e basata su input che si è evoluta grazie a intelligenza artificiale, algoritmi di machine learning e al deep learning. Lo speech recognition è stato inserito dagli analisti di Gartner nell’Hype Cycle sull’Intelligenza Artificiale del 2019 all’interno della fase definita Plateau of Productivity (Altopiano della Produttività) in cui le aspettative e l’effettivo ritorno sull’investimento si incontrano. Una previsione significativa dell’adozione generalizzata della tecnologia e dei relativi vantaggi fatta nell’arco dei due anni successivi (2020-2021) con l’invito a CIO e Leader aziendali a includerla nelle roadmap tecnologiche di intelligenza artificiale a breve termine.

HYPE CYCLE

Cos’è lo Speech recognition

I sistemi di speech recognition o riconoscimento vocale comprendono ed interpretano il linguaggio umano attraverso un segnale audio e lo trasformano in testo o in altri formati di dati. Una tecnologia impiegata principalmente nel controllo di apparecchi per il mondo consumer, per applicazioni self-service e di instradamento delle chiamate come avviene nei contact center e per le trascrizioni e controllo di interfacce utente per pc, mobile e sistemi di bordo. In sostanza, permette di utilizzare la voce per eseguire molte attività in cui normalmente vengono impiegate le mani e che richiedono comandi ripetitivi o ripetuti.

WHITEPAPER
Computer quantistico: i player principali e la supremazia quantistica
Intelligenza Artificiale
Realtà virtuale

L’impiego di intelligenza artificiale e machine learning ha permesso di migliorare l’efficacia e oggi, la tecnologia del riconoscimento vocale ASR (Automatic Speech Recognition) viene utilizzata anche attraverso il Natural Language Processing o NLP. L’obiettivo è di interagire con le macchine sempre di più tramite la voce e in linguaggio naturale. Gartner ha previsto che, entro il 2023, il 25% delle interazioni dei dipendenti con le applicazioni avverrà tramite voce.

Come funziona il riconoscimento vocale automatico

Il riconoscimento vocale automatico è composto da elementi di acustica e modelli linguistici. Le parole vengono convertite da segnali acustici fino a segnali digitali e le unità acustiche sono abbinate a fonemi. La componente linguistica analizza le parole utilizzando modelli, tra i più comuni ci sono quelli di Markov, poi addestrati in modo appropriato. Il riconoscimento può essere o di parole specifiche o una frase come nelle applicazioni IVR (Interactive Voice Response), fino al riconoscimento di un parlato naturale.

Esistono soluzioni di speech recognition sviluppate per contesti applicativi diversi che permettono il controllo dell’infrastruttura e dei dati vocali on premise, in cloud e tramite API per un deployment flessibile; addestrate per frequenza di campionamento e personalizzate per l’adattamento vocale, per trascrivere termini specifici del dominio e basati su architetture neurali e algoritmi di rete neurale di deep learning.

Speech recognition e Speech synthesis

La voce in un sistema veicola informazioni che possono essere di input e di output e questo genera una differenza tra il riconoscimento vocale e la sintesi vocale. La speech technology vede, quindi, da una parte tecnologie di voice e speech recognition e dall’altra, quelle di sintesi vocale in grado di tradurre parole scritte in simboli fonetici. Un esempio sono le tecnologie di text-to-speech in grado di generare un discorso con un’intonazione simile a quella umana. L’insieme delle tecnologie che confluiscono nella migliore Speech Interaction genera un’esperienza di interazione uomo-computer completa attraverso sistemi e applicazioni in grado di ascoltare, comprendere e parlare.

Speech recognition e Voice recognition: le differenze

Le funzioni di voice recognition sono legate al riconoscimento della voce di chi parla e non al riconoscimento delle parole dette. Si tratta di una differenza che può sembrare arbitraria ma che delinea ruoli diversi nell’applicazione della tecnologia. Il riconoscimento della voce di chi parla consente funzionalità di sicurezza come la biometria vocale.

Una modalità e fattore di autenticazione per la verifica dell’identità che riduce l’utilizzo di password o di altri sistemi e la possibilità di frode in fase di accesso ad un dispositivo o ad un servizio. Le soluzioni basate su autenticazione biometrica vocale spesso collegate ad altri fattori di identificazione, si applicano ai servizi di riconoscimento sui canali telefonici o di mobile banking ma anche per la firma vocale o per compiere un’azione in base ad istruzioni predefinite a livello di processo o più in generale, al controllo tramite impronta vocale. L’affidabilità della voce rispetto alle impronte digitali si basa su algoritmi adattivi in grado di evolversi e aggiornarsi in linea con i mutamenti naturali della voce.

Il riconoscimento vocale diretto

Una diversa interpretazione è anche quella del riconoscimento vocale diretto definito da Gartner come un sistema che utilizza un dialogo simile ad un copione in alternativa al linguaggio naturale completo e libero. Ad ogni domanda che viene posta corrisponde un numero limitato di risposte valide. Si tratta di un sistema che permette anche ad un hardware meno costoso di essere preciso.

Speech recognition e campi di applicazione

La tecnologia di riconoscimento vocale è implementata nel customer care, in contact center, help desk, call center e sistemi IVR ma anche nelle soluzioni di dettatura vocale, compilazione di moduli, trascrizioni vocali, flussi di lavoro e applicazioni assistite.

Viene utilizzata nei chatbot con automazione vocale, nelle trascrizioni multimediali, riunioni o conference call o negli strumenti analitici e di data mining. Si parla di speech analytics per indicare sistemi in grado di estrarre informazioni dai flussi vocali basandosi su “parole chiave”.

Largamente diffusa nel customer care, in applicazioni per disabili e nelle trascrizioni medico e legali, è utilizzata in sostituzione a tastiere o touch screen, nei dispositivi a “mani libere” o nelle interfacce di controllo delle funzioni o per la navigazione di contenuti per i dispositivi mobile, pc, i prodotti consumer e i sistemi di automazione e controllo e più in generale nei progetti di robotic process automation.

Nell’automotive e nei sistemi a bordo auto, il riconoscimento vocale aiuta a rendere più sicura la guida. Recentemente è stata impiegata nel progetto pubblico/privato Malorca finanziato da Orizzonte 2020 per l’automazione nella gestione del traffico aereo. In particolare, per ridurre i carichi di lavoro dei controllori del traffico aereo dalle comunicazioni radio vocali per trasmettere istruzioni. A questo scopo è stato introdotto l’apprendimento automatico al posto della programmazione manuale del software. Numerose le soluzioni di machine translation in cui il riconoscimento vocale è integrato con modelli di traduzione automatica basati su architetture neurali.

Speech recognition: quali vantaggi?

Oltre ad essere integrabile con altri sistemi, l’utilizzo ha vantaggi come:

  • Aumento dei livelli di produttività – Si ottiene l’automazione di processi con conseguente risparmio di tempo e riduzione dei carichi di lavoro. Aumenta l’efficienza del servizio e si velocizzano i processi ripetitivi.
  • Permette di lavorare a “mani libere” – Il completamento di una attività viene eseguito più facilmente attraverso comandi vocali.
  • Genera personalizzazione – Permette alle aziende di offrire servizi digitalizzati personalizzati.
  • Genera più tempo – La tecnologia è veloce e precisa. Le aziende riducono i tempi di scrittura e semplificano i processi di verbalizzazione. Il personale può concentrarsi su altri aspetti del lavoro.
  • Migliora la comunicazione – Traduce il contenuto in una determinata lingua rimuovendo le barriere linguistiche e aiutando l’internazionalizzazione delle aziende.
  • Maggiore trasparenzaAvere l’accesso alla fonte originaria, la voce, vuol dire avere in ogni momento informazioni e dati originali e completi che possono essere processati e analizzati.
  • Accessibilità – Ha un forte impatto sull’inclusività delle persone in particolare, per le categorie più deboli e nella disabilità. Socialmente utile e di aiuto alle persone.
  • Raggiunge più utenti contemporaneamente – Una tecnologia alla base della multifunzionalità e omnicanale.

Limiti delle soluzioni di speech recognition

Caratteristica fondamentale di una soluzione di speech recognition è l’applicabilità e l’implementazione con altri sistemi. Al contrario, persistono diversi fattori dovuti ad imprecisioni nell’individuazione delle parole e del loro significato che influiscono sulle prestazioni di riconoscimento vocale.

Tra questi:

  • i rumori di sfondo e ambientali;
  • gli accenti, il tono di voce, la velocità con cui si parla;
  • la cadenza o i dialetti e la mancanza di supporto per alcune lingue

Si tratta di variabili spesso difficili da controllare completamente. Gli studi e i progressi in questa direzione riguardano discipline come i sistemi di riconoscimento delle emozioni (SER) e dell’analisi del sentiment aprendo, di fatto, a nuovi ambiti applicativi e a nuove opportunità per l’intero settore voice e speech recognition.

A che punto siamo

La società di consulenza e analisi Opus Research ha recentemente condotto un sondaggio su 400 decisori in nordamerica in settori pubblici e privati, per capire come le aziende vedono le tecnologie di riconoscimento vocale utilizzate per acquisire, trascrivere e analizzare le conversazioni. Secondo il sondaggio oltre l’80% degli intervistati utilizza attivamente automatic speech recognition o ASR per trascrivere i dati vocali ma i 2/3 affermano di fare un utilizzo inferiore alle potenzialità.

Questo mostra che le aziende sono ancora in una fase di superficie rispetto al valore e alle opportunità. L’obiettivo è spingere verso sistemi sempre più personalizzati ed integrati basati sul linguaggio naturale e meno su API e soluzioni cloud standardizzate. Gartner ha sottolineato anche come la mancata integrazione dei sistemi comporta la perdita di metadati. Il riconoscimento vocale insieme alle tecnologie di interfaccia utente conversazionali e agli assistenti virtuali sono passati all’Hype Cycle del linguaggio naturale, in un ambito molto più ristretto.

Roberta Fiorucci

Giornalista

Roberta Fiorucci scrive di tecnologia, innovazione digitale e digital transformation per le imprese, prima come copywriter e technical writer poi collaborando con case editrici e riviste di settore. Nel 2008 ha creato una sua agenzia di comunicazione specializzata in brand management nel settore IT e sviluppo di progetti innovativi. Nel 2020 ha iniziato la sua collaborazione con ZeroUno

Argomenti trattati

Approfondimenti

I
Intelligenza Artificiale

Articolo 1 di 5