Qu’est-ce que la transcription automatique ?

La transcription automatique est le processus de production d’une transcription écrite d’un discours parlé ou enregistré à l’aide d’ordinateurs et sans intervention humaine directe. Une transcription automatique précise nécessite un logiciel de transcription de haute qualité et un appareil capable de recevoir avec précision les entrées auditives. En général, il est également nécessaire que la parole ou l’enregistrement à transcrire soit raisonnablement exempt de distorsion et d’interférence du bruit de fond. Des tentatives ont également été faites pour transcrire de la musique à l’aide d’ordinateurs exécutant un logiciel de transcription spécialisé. La transcription musicale consiste à écrire les notes d’un morceau de musique donné, en particulier lorsqu’il n’y a pas de notation préexistante pour cette musique, comme c’est le cas avec les solos improvisés.

Un bon logiciel de transcription est nécessaire pour une transcription automatique réussie. Le logiciel est responsable du traitement de l’entrée auditive, de la séparation d’un flux linguistique continu en mots séparés, de la reconnaissance de ces mots et de leur représentation correcte dans le texte. Un échec à n’importe quelle étape de ce processus se traduit généralement par une transcription qui diffère quelque peu du matériel source. Un bon logiciel de transcription automatique doit être capable de reconnaître les différences subtiles entre des mots similaires et de compenser les différents styles et vitesses de parole. Les accents difficiles à comprendre ont tendance à être problématiques, même pour le meilleur logiciel de transcription.

Certaines personnes utilisent un logiciel de transcription automatique car elles préfèrent la dictée à la saisie ou à l’écriture directe de leur texte. Certaines formes de logiciels de transcription automatique sont particulièrement adaptées à cette fin, car elles peuvent « apprendre » les voix des personnes dont elles transcrivent les mots. Dans de tels cas, la transcription automatique n’est pas utilisée pour créer des transcriptions de discours à partir d’une variété de sources différentes, il n’est donc pas nécessaire que le logiciel soit ouvert à une grande variété de modèles de parole. Permettre ce processus d’optimisation, qui peut se produire lors d’une utilisation prolongée du logiciel par une seule personne ou lors d’un étalonnage préliminaire, peut augmenter considérablement la précision et la vitesse potentielle de la dictée.

Les ordinateurs ne sont malheureusement pas aussi bien adaptés que les humains pour reconnaître de manière cohérente et précise la parole humaine. Ils ne peuvent pas, par exemple, utiliser des indices contextuels s’ils ne parviennent pas à comprendre un mot particulier. En tant que tel, il est souvent nécessaire pour un humain de relire les transcriptions créées par transcription automatique. Des erreurs mineures de formatage et diverses erreurs de transcription sont, dans de nombreux cas, courantes à moins que le discours transcrit soit très clair. Pourtant, l’utilisation de la transcription informatisée peut rapidement constituer une base solide pour une transcription qui ne nécessite qu’une intervention humaine limitée avant la soumission ou l’utilisation.

SmartAsset.