Qu'est-ce que la transcription audio ?

La transcription audio est le processus consistant à prendre des mots parlés et à les transformer en texte écrit. Dans le passé, une personne s’asseyait et écrivait des mots au fur et à mesure qu’ils étaient prononcés. Or, il existe des enregistrements audio de divers types et plusieurs méthodes de transcription. Les méthodes d’enregistrement analogiques et numériques permettront à une personne qui n’est pas présente lors de la conversation de tout de même transcrire le texte. De plus, de nombreux logiciels liront les fichiers audio et les convertiront rapidement en texte sans avoir à les lire.

Pendant de nombreuses années, la transcription audio a été un métier spécialisé et fastidieux. Les personnes qui transcrivent le discours doivent être présentes au moment de la prise de parole, ce qui signifie souvent que les entreprises doivent embaucher des personnes formées aux techniques avancées telles que la sténographie. Cela a également limité les services de transcription à ceux qui avaient accès à un transcripteur qualifié.

Avec l’invention des enregistrements audio, ce domaine a radicalement changé. Avec un enregistrement, le transcripteur pourrait travailler de n’importe où où l’enregistrement pourrait être livré. De plus, la transcription n’avait plus besoin de sténographie car l’enregistrement pouvait être inversé et écouté plusieurs fois. Une seule transcriptrice pouvait également travailler pour une multitude de clients simultanément, puisqu’elle n’avait plus besoin d’être présente pour les discours.

Avec l’augmentation de l’utilisation des ordinateurs et des vitesses Internet, le domaine de la transcription audio est resté en grande partie le même. Les fichiers, plutôt que les bandes, étaient souvent envoyés par courrier électronique au lieu d’être envoyés par courrier normal. La vitesse du processus a augmenté, mais pas les méthodes.

Cela a changé à la fin des années 90 avec l’utilisation croissante des logiciels de reconnaissance vocale et de dictée. Le travail de transcription s’orientait de plus en plus vers l’assistance informatique puis l’automatisation complète. Des progiciels sont sortis qui pouvaient lire les informations contenues dans un fichier audio et utiliser les modèles d’ondes du locuteur pour créer une version texte d’un discours. Cela prendrait des secondes plutôt que les minutes ou les heures d’un transcripteur humain.

La transcription audio automatisée par ordinateur présente quelques défauts difficiles à surmonter, dont le plus important est un manque relatif de correction de la parole. Lorsqu’un transcripteur humain écoute du texte, il peut corriger de légères erreurs dans le discours afin de le rendre plus lisible. Alors que certaines transcriptions sont textuelles, ce qui signifie que c’est exactement ce que la personne a dit, la plupart ne le sont pas. Sans discours correctif, un humain devra souvent vérifier la transcription pour les erreurs avant de l’utiliser.

L’autre défaut commun de la transcription audio informatisée réside dans le discours même des humains. Étant donné que les gens ont une vaste gamme de tons et de motifs lorsqu’ils parlent, il est exceptionnellement difficile de créer un programme informatique capable de lire et de traduire avec précision toute la gamme. Cela signifie qu’une certaine quantité d’erreurs est courante dans presque tous les logiciels de transcription. La façon la plus courante de contourner ce défaut est la parole apprise, où le programme et un seul locuteur travaillent suffisamment ensemble pour que le programme se concentre sur les modèles de la personne seule.