Che cos’è la distorsione temporale dinamica?

La deformazione temporale dinamica (DTW) prevede un metodo di calcolo, chiamato algoritmo, per confrontare suoni, video e grafica che possono essere simili ma i cui campioni possono presentare sottili differenze. I calcoli in genere formulano una rappresentazione lineare del campione e misurano le differenze in funzione del tempo. Diversi elementi di un campione possono essere mappati su una griglia per identificare le somiglianze, mentre i comandi per le funzioni utilizzano spesso simboli per identificare ciascuna variabile. Il riconoscimento vocale, ad esempio, a volte utilizza la distorsione temporale dinamica per abbinare le parole anche se vengono pronunciate a velocità diverse o alcune parti sono pronunciate in modo diverso.

Molti programmi di riconoscimento vocale utilizzano la distorsione temporale dinamica perché le persone spesso parlano a velocità diverse. Alcuni suoni vocalici possono essere annunciati in modo diverso a seconda delle emozioni o di altri fattori. Alcuni programmi possono riconoscere le parole pronunciate indipendentemente da chi sta parlando. Per questo motivo, di solito non è efficace sommare le distanze in intervalli di tempo per confrontare i suoni. Con DTW vengono analizzati vari punti temporali specifici per ciascun segnale; queste distanze sono calcolate su una griglia che va da in basso a sinistra a in alto a destra.

Le somiglianze nelle parti corrispondenti di due campioni possono essere misurate utilizzando la distanza di Levenshtein. Le lettere sono usate per rappresentare i cambiamenti tra una fonte e l’altra. La soluzione dell’algoritmo è tipicamente un numero maggiore quanto più diversi sono i due campioni. Questo concetto viene spesso utilizzato per il riconoscimento vocale, il controllo ortografico e l’analisi del materiale genetico.

In alcune misurazioni, le variazioni di frequenza possono compensare la capacità di distorsione temporale dinamica. I segnali possono essere calcolati in modo tale che la loro forma venga utilizzata indipendentemente dalla frequenza. Anche i segnali modulati possono rappresentare un problema, ma una griglia che calcola le distanze tra i segmenti di linea anziché i punti può compensare.

L’allineamento della sequenza è generalmente matematico e sono necessarie alcune abilità di programmazione del computer per comprenderlo appieno. Gli algoritmi di time warping dinamico dipendono da alcune condizioni di base per calcolare realisticamente le differenze tra campioni audio o visivi. Considerando un campione come un percorso lungo una griglia, l’algoritmo segue spesso delle regole, ad esempio il percorso non può tornare indietro e viene misurato un passo alla volta. Oltre al formato in basso a sinistra in alto a destra, le misurazioni sono limitate a posizioni vicine a una linea diagonale. I valori troppo ripidi o poco profondi vengono spesso ignorati perché possono causare errori nella misurazione finale.