Quels sont les problèmes de reconnaissance vocale les plus courants ?

Le logiciel de reconnaissance vocale a beaucoup évolué depuis son invention, mais il présente encore plusieurs gros problèmes qui l’empêchent d’être utilisé exclusivement comme méthode de transcription. Certains des problèmes de reconnaissance vocale qui sont difficiles à résoudre incluent des variations dans la prononciation des mots, des accents individuels, des homonymes et des bruits ambiants indésirables. Un autre ensemble de problèmes de reconnaissance vocale concerne le type de matériel utilisé pour réellement saisir le son, car les résultats peuvent avoir un impact important sur la façon dont le logiciel interprétera la parole. Il y a aussi le problème de ne pas connaître le contexte des mots prononcés, ce qui peut conduire à un texte dépourvu de ponctuation ou d’orthographe inexacte.

L’un des problèmes de reconnaissance vocale les plus fondamentaux est la qualité des périphériques d’entrée utilisés. Si un microphone n’est pas assez sensible – ou est trop sensible – alors il peut créer des informations audio difficiles à déchiffrer pour le logiciel. Cela est particulièrement vrai lorsqu’un microphone est si sensible que la parole est déformée, rendant le logiciel de reconnaissance presque inutile. Un problème similaire provient du bruit de fond qui peut être problématique à séparer de la parole principale et peut entraîner des traductions inexactes lorsqu’il est inclus dans le traitement de la parole.

Les différences de prononciation, d’accents et de cadence de parole se combinent pour former l’un des problèmes de reconnaissance vocale les plus répandus. Lorsqu’un même mot peut être prononcé de plusieurs manières, le logiciel peut devenir confus et mal interpréter ce qui est dit. La même chose peut se produire lorsqu’une personne parle plus lentement ou plus vite que prévu par le programme. Il existe des solutions partielles, telles que l’apprentissage du logiciel dans les modèles de parole d’un seul utilisateur et l’utilisation d’algorithmes de déformation temporelle dynamique pour faire correspondre la parole à la base de données d’échantillons, mais elles ne résolvent pas tous les problèmes.

Le plus complexe des problèmes de reconnaissance vocale consiste à identifier le contexte des mots prononcés. Les logiciels informatiques sont incapables d’identifier le sens voulu d’un ensemble de mots, ce qui entraîne un certain nombre de problèmes avec le texte transcrit. Les mots qui ont un son similaire, tels que « leur » et « là », ne peuvent être orthographiés avec précision que lorsque le contexte d’utilisation est connu. Pour cette même raison, il est presque impossible pour le logiciel de placer une ponctuation précise en se basant uniquement sur la connaissance de la séquence de mots. Il existe un logiciel de transcription fonctionnel utilisé dans des domaines tels que la médecine, mais le résultat est souvent un bloc de mots sans aucun type de séparation, ce qui signifie qu’il faut toujours un transcripteur humain pour éditer le document et créer une copie finale lisible.