¿Qué es la deformación dinámica del tiempo?

La deformación de tiempo dinámica (DTW) implica un método de cálculo, llamado algoritmo, para comparar sonidos, videos y gráficos que pueden ser similares pero muestras de los cuales pueden tener diferencias sutiles. Los cálculos suelen formular una representación lineal de la muestra y miden las diferencias en función del tiempo. Se pueden mapear diferentes elementos de una muestra en una cuadrícula para identificar similitudes, mientras que los comandos para funciones a menudo usan símbolos para identificar cada variable. El reconocimiento de voz, por ejemplo, a veces usa distorsión de tiempo dinámica para hacer coincidir palabras, incluso si se pronuncian a diferentes velocidades o ciertas partes se pronuncian de manera diferente.

Muchos programas de reconocimiento de voz utilizan la deformación temporal dinámica porque las personas a menudo hablan a ritmos diferentes. Ciertos sonidos de las vocales pueden anunciarse de manera diferente dependiendo de las emociones u otros factores. Algunos programas pueden reconocer palabras habladas sin importar quién esté hablando. Por esta razón, generalmente no es efectivo sumar las distancias en intervalos de tiempo para comparar sonidos. Con DTW, se analizan varios puntos específicos de tiempo para cada señal; estas distancias se calculan en una cuadrícula que va de abajo a la izquierda a arriba a la derecha.

Las similitudes en las partes correspondientes de dos muestras se pueden medir utilizando la distancia de Levenshtein. Las letras se utilizan para representar los cambios entre una fuente y otra. La solución al algoritmo suele ser un número mayor cuanto más diferentes sean las dos muestras. Este concepto se utiliza a menudo para el reconocimiento de voz, así como para la revisión ortográfica y el análisis de material genético.

En algunas mediciones, los cambios de frecuencia pueden contrarrestar la capacidad de deformación temporal dinámica. Las señales se pueden calcular de tal manera que su forma se utilice independientemente de la frecuencia. Las señales moduladas también pueden plantear un problema, pero una cuadrícula que calcula distancias entre segmentos de línea en lugar de puntos puede compensar.

La alineación de secuencias es generalmente matemática y se necesitan algunas habilidades de programación de computadoras para comprenderla completamente. Los algoritmos dinámicos de distorsión del tiempo dependen de algunas condiciones básicas para calcular de manera realista las diferencias entre muestras de audio o visuales. Al considerar una muestra como una ruta a lo largo de una cuadrícula, el algoritmo a menudo sigue reglas, como que la ruta no puede retroceder y que se mide paso a paso. Además del formato de abajo a la izquierda a arriba a la derecha, las mediciones se limitan a ubicaciones cercanas a una línea diagonal. Los valores que son demasiado pronunciados o poco profundos a menudo se ignoran porque pueden causar errores en la medición final.