Che cos'è il riconoscimento vocale?

Il riconoscimento vocale, o riconoscimento vocale, è una tecnologia informatica che utilizza l’input audio per l’immissione di dati anziché una tastiera. Parlare al microfono, ad esempio, produce lo stesso risultato della digitazione manuale delle parole con una tastiera. In parole povere, il software di riconoscimento vocale è progettato con un database interno di parole o frasi riconoscibili. Il programma abbina la firma audio del discorso con le voci corrispondenti nel database.

Sebbene trasformare il discorso in testo possa sembrare facile, è un compito estremamente difficile. Il problema risiede nella gamma virtualmente infinita di schemi vocali e accenti individuali, aggravata dalla naturale tendenza umana a mettere insieme le parole.

Vari modelli di software di riconoscimento vocale vengono utilizzati per una vasta gamma di applicazioni, dalla dettatura personale all’instradamento automatico delle chiamate commerciali, dall’assistenza ai disabili alla sottotitolazione di eventi sportivi e di notizie. Ogni modello si comporta in modo diverso e ha le proprie capacità e limiti.

I programmi di riconoscimento vocale che richiedono all’utente di “addestrare” il software a riconoscere i loro particolari modelli di parlato stilizzati sono chiamati sistemi dipendenti dall’altoparlante. Gli individui usano comunemente questi tipi di programmi a casa o in ufficio. E-mail, promemoria, lettere, dati e testo possono essere inseriti parlando in un microfono.

Alcuni sistemi di riconoscimento vocale, chiamati sistemi vocali discreti, richiedono all’utente di parlare in modo chiaro e lento e di separare le parole. I sistemi vocali continui sono progettati per comprendere un modo di parlare più naturale.
I sistemi vocali discreti sono ampiamente utilizzati per il routing del servizio clienti. Il sistema è indipendente dall’altoparlante, ma comprende solo una piccola quantità di parole o frasi. Al chiamante viene data la possibilità di rispondere a una domanda, di solito con “sì” o “no”. Dopo aver ricevuto una risposta, il sistema porta il chiamante al livello successivo. Se il chiamante risponde con una risposta univoca, la risposta automatica di solito è “Scusa, non ti ho capito; per favore riprova”, con una ripetizione della domanda e delle risposte disponibili. Questo tipo di riconoscimento vocale è indicato anche come riconoscimento vincolato alla grammatica.

Il parlato continuo è una forma più sofisticata di software di riconoscimento vocale, in cui il chiamante può parlare in modo naturale per spiegare un problema o richiedere un servizio. Questo programma è progettato per individuare parole o frasi chiave e fare una stima statistica di ciò che il cliente desidera. Parlare chiaramente aiuta il programma a identificare la necessità. Questo tipo di sistema ha un database molto più intenso rispetto ai sistemi vocali discreti ed è indicato anche come riconoscimento del linguaggio naturale.

Il riconoscimento vocale automatico (ASR) è un modello di riconoscimento vocale progettato per la dettatura. Questo software differisce dai modelli precedenti in quanto non si sforza di capire ciò che viene detto, ma solo di identificare le parole pronunciate. Poiché molte parole nella lingua inglese suonano simili, gli errori sono facilmente commessi. Il software ASR si trova spesso sui registratori vocali digitali.