Che cos'è l'estrazione audio?

L’estrazione audio viene solitamente utilizzata nei software di riconoscimento vocale e nell’analisi musicale. Questa tecnologia offre all’utente la possibilità di cercare attraverso il parlato o l’audio musicale che è stato analizzato per caratteristiche specifiche. Quando viene utilizzato nella tecnologia di riconoscimento vocale, l’estrazione audio identifica le parole pronunciate nell’audio e le inserisce in un file ricercabile. Questa funzione può essere utile per gli studenti o per coloro nel mondo degli affari che partecipano a molte riunioni perché consente all’utente di sfogliare più facilmente le informazioni di attualità dalle presentazioni vocali. Questo tipo di analisi può essere utilizzato anche nella musica per determinare caratteristiche come battiti al minuto (BPM), tonalità e struttura musicale, informazioni utilizzate per classificare la musica.

Nel riconoscimento vocale, dove la tecnologia viene utilizzata più spesso, l’estrazione audio viene impiegata per creare un modello acustico. Un modello acustico programma un software di riconoscimento vocale per riconoscere i modelli del parlato come parole. Questa tecnologia è sviluppata mediante l’estrazione audio di una registrazione di una frase pronunciata, che viene confrontata con il testo corrispondente alla frase pronunciata. Il computer utilizza le informazioni per riconoscere le parole quando l’utente emette suoni simili a quelli del modello acustico. Un modello acustico viene utilizzato in combinazione con un file che indica al programma di riconoscimento vocale quale lingua interpretare e quali modelli di parole possono essere pronunciati in determinate frasi e situazioni.

Sia i musicisti che gli ascoltatori di musica possono trarre vantaggio dall’estrazione audio nella musica. A volte, il software musicale che classifica la musica per genere utilizza l’estrazione audio per organizzare la musica. Il processo identifica e raggruppa i file musicali con somiglianze sonore che si verificano frequentemente nei generi musicali. Sebbene questa tecnologia possa semplificare l’organizzazione della musica e la ricerca di nuova musica, può commettere errori classificando brani che hanno caratteristiche misurate simili ma un suono complessivo diverso. Il software di analisi audio può essere utile ai musicisti, in particolare ai compositori, perché consente al compositore di passare a parti specifiche della struttura del brano, inclusi i cambiamenti di tonalità musicali e le parole all’interno dei testi.

Il produttore di software di riconoscimento vocale Dragon® vende un programma chiamato AudioMining® che trascrive i file audio e contrassegna i file in modo che possano essere ricercati per il testo. Dragon è un produttore di programmi di linguistica informatica, il termine tecnico per il campo del software progettato per interpretare il parlato. Il mining audio, quando usato come due parole, è un termine generale che si riferisce all’analisi di un file audio per un determinato insieme di caratteristiche audio. Altri produttori di software di estrazione audio includono Nuance® e Nexidia®.