Che cos’è un modello acustico?

Un modello acustico è essenzialmente una mappa della voce in relazione a una serie di parole stampate. Questa tecnologia viene utilizzata nei programmi di riconoscimento vocale per aiutare un computer a imparare a riconoscere i modelli del parlato di una persona. Un modello acustico è uno dei due file principali necessari per eseguire un programma di riconoscimento vocale; l’altro è il modello linguistico, che indica le parole e gli schemi linguistici probabili che possono essere utilizzati dall’oratore. Questi modelli vengono creati confrontando i dettagli del suono di un file audio parlato con il testo delle parole pronunciate.

Il software di riconoscimento vocale è un software progettato per riconoscere e trascrivere o rispondere alle parole pronunciate da una persona. Molti sistemi operativi sono progettati con funzionalità di riconoscimento vocale di base integrate che l’utente può attivare e disattivare. Le capacità di riconoscimento vocale sui sistemi operativi di solito danno all’utente la possibilità di controllare il computer e digitare parole sullo schermo usando la sua voce.

Per accedere al software di riconoscimento vocale, un utente ha bisogno di un microfono per trasmettere la sua voce al computer, oltre a un programma che elabori il suono. Mentre molti computer dispongono di microfoni incorporati, un microfono con cuffia esterno consente all’utente il vantaggio di un suono della voce più chiaro e la libertà di muoversi nella stanza mentre parla. I marchi di software di riconoscimento vocale autonomi includono LumenVox®, Loquendo® e Dragon®.

La maggior parte dei programmi di riconoscimento vocale dispone di una programmazione del modello acustico che consente al programma di riconoscere le variazioni di pronuncia. Usano modelli nel suono della voce di chi parla per identificare le parole nel discorso. Molti sono progettati con software di configurazione per aiutare l’utente a creare un modello acustico progettato per interpretare la propria voce. Alcuni programmi avanzati di riconoscimento vocale possono identificare e interpretare più lingue, spesso con una piccola quantità di informazioni sonore. Più un programma di riconoscimento vocale è avanzato, più è probabile che interpreti accuratamente le parole in base al suo contesto, incluso il punto in cui viene pronunciata una parola in una frase.

Il campo di studio che sviluppa la tecnologia di riconoscimento vocale è chiamato linguistica computazionale. La linguistica computazionale prevede lo studio e la progettazione che creano software programmati per comprendere il linguaggio umano. Questo campo spesso incorpora informazioni dallo studio della psicologia per creare modelli acustici in grado di interpretare in modo più accurato il discorso.

La parola “acustica” si riferisce generalmente a tutto ciò che ha a che fare con il suono. Sebbene i modelli acustici siano più spesso utilizzati nel riconoscimento vocale, possono essere utilizzati anche nella musica. Un modello acustico di una traccia musicale può identificare proprietà come i battiti al minuto, i tasti musicali o le altezze dominanti nella musica. Queste informazioni possono essere utilizzate da un programma per computer per identificare una traccia musicale, oppure possono essere utilizzate per determinare in modo approssimativo il genere in cui è probabile che la musica sia classificata. I modelli acustici sono utilizzati anche in un campo di studio chiamato psicoacustica, in cui i ricercatori sperano di imparare a strutturare la musica che prevedibilmente colpisce il cervello.