Il software di riconoscimento vocale ha fatto grandi progressi da quando è stato inventato, ma presenta ancora diversi grossi problemi che ne impediscono l’uso esclusivo come metodo di trascrizione. Alcuni dei problemi di riconoscimento vocale difficili da risolvere includono variazioni nella pronuncia delle parole, accenti individuali, omonimi e rumori ambientali indesiderati. Un’altra serie di problemi di riconoscimento vocale riguarda il tipo di hardware utilizzato per immettere effettivamente il suono, poiché i risultati possono avere un grande impatto sul modo in cui il software interpreterà il discorso. C’è anche il problema di non conoscere il contesto delle parole pronunciate, che può portare a un testo privo di punteggiatura o ortografia imprecisa.
Uno dei problemi di riconoscimento vocale più basilari è la qualità dei dispositivi di input utilizzati. Se un microfono non è abbastanza sensibile o è eccessivamente sensibile, può creare informazioni audio difficili da decifrare per il software. Ciò è particolarmente vero quando un microfono è così sensibile che il discorso è distorto, rendendo il software di riconoscimento quasi inutile. Un problema simile deriva dal rumore di fondo che può essere problematico da separare dal discorso principale e può causare traduzioni imprecise quando incluso nell’elaborazione del discorso.
Le differenze di pronuncia, accenti e cadenza del parlato si combinano per formare uno dei problemi di riconoscimento vocale più pervasivi. Quando una singola parola può essere pronunciata in diversi modi, il software può confondersi e interpretare male ciò che viene detto. Lo stesso può accadere quando una persona parla più lentamente o più velocemente di quanto previsto dal programma. Esistono alcune soluzioni parziali, come l’addestramento del software nei modelli vocali di un singolo utente e l’utilizzo di algoritmi dinamici di distorsione temporale per abbinare il parlato al database di campioni, ma non risolvono tutti i problemi.
Il più complesso dei problemi di riconoscimento vocale è identificare il contesto delle parole pronunciate. Il software del computer non è in grado di identificare il significato previsto di una raccolta di parole, causando una serie di problemi con il testo trascritto. Le parole che hanno un suono simile, come “loro” e “là”, possono essere scritte con precisione solo quando è noto il contesto di utilizzo. Per questo stesso motivo, è quasi impossibile per il software posizionare una punteggiatura accurata basandosi esclusivamente sulla conoscenza della sequenza di parole. Esiste un software di trascrizione funzionale che viene utilizzato in campi come la medicina, ma il risultato è spesso un blocco di parole senza alcun tipo di separazione, il che significa che ci vuole ancora un trascrittore umano per modificare il documento e creare una copia finale leggibile.