Qu'est-ce que la reconnaissance vocale ?

La reconnaissance vocale, ou reconnaissance vocale, est une technologie informatique qui utilise une entrée audio pour saisir des données plutôt qu’un clavier. Parler dans un microphone, par exemple, produit le même résultat que de taper des mots manuellement avec un clavier. En termes simples, le logiciel de reconnaissance vocale est conçu avec une base de données interne de mots ou de phrases reconnaissables. Le programme fait correspondre la signature audio de la parole avec les entrées correspondantes dans la base de données.

Bien que transformer la parole en texte puisse sembler facile, c’est une tâche extrêmement difficile. Le problème réside dans l’éventail virtuellement infini de modèles de discours et d’accents individuels, aggravés par la tendance humaine naturelle à combiner les mots.

Divers modèles de logiciels de reconnaissance vocale sont utilisés pour un éventail d’applications, de la dictée personnelle au routage d’appels automatisé commercial, de l’aide aux personnes handicapées au sous-titrage d’événements sportifs et d’actualités. Chaque modèle se comporte différemment et a ses propres capacités et limites.

Les programmes de reconnaissance vocale qui nécessitent que l’utilisateur « entraîne » le logiciel à reconnaître ses modèles de parole stylisés particuliers sont appelés systèmes dépendants du locuteur. Les individus utilisent couramment ces types de programmes à la maison ou au bureau. Les e-mails, mémos, lettres, données et textes peuvent être saisis en parlant dans un microphone.

Certains systèmes de reconnaissance vocale, appelés systèmes vocaux discrets, demandent à l’utilisateur de parler clairement et lentement et de séparer les mots. Les systèmes de parole continue sont conçus pour comprendre un mode de parole plus naturel.
Les systèmes vocaux discrets sont largement utilisés pour le routage du service client. Le système est indépendant du locuteur, mais ne comprend qu’un petit nombre de mots ou de phrases. L’appelant a le choix de répondre à une question, généralement par « oui » ou « non ». Après avoir reçu une réponse, le système fait passer l’appelant au niveau suivant. Si l’appelant répond avec une réponse unique, la réponse automatique est généralement : « Désolé, je ne vous ai pas compris ; veuillez réessayer », avec une répétition de la question et des réponses disponibles. Ce type de reconnaissance vocale est également appelé reconnaissance grammaticale contrainte.

La parole continue est une forme plus sophistiquée de logiciel de reconnaissance vocale, dans laquelle l’appelant peut parler naturellement pour expliquer un problème ou demander un service. Ce programme est conçu pour sélectionner des mots ou des phrases clés et faire une estimation statistique de ce que le client veut. Parler clairement aide le programme à identifier le besoin. Ce type de système a une base de données beaucoup plus intensive que les systèmes vocaux discrets et est également appelé reconnaissance du langage naturel.

La reconnaissance vocale automatique (ASR) est un modèle de reconnaissance vocale conçu pour la dictée. Ce logiciel diffère des modèles précédents en ce qu’il ne cherche pas à comprendre ce qui est dit, seulement à identifier les mots prononcés. Étant donné que de nombreux mots de la langue anglaise se ressemblent, des erreurs sont facilement commises. Le logiciel ASR se trouve souvent sur les enregistreurs vocaux numériques.