Qu'est-ce que la synthèse vocale?

La synthèse vocale est un processus où la communication verbale est reproduite à l’aide d’un dispositif artificiel. Un ordinateur qui convertit le texte en parole est un type de synthétiseur vocal.

Les premières formes de synthèse vocale ont été mises en œuvre par des machines conçues pour fonctionner comme le conduit vocal humain. La machine à parler créée par Wolfgang von Kempelen dans les années 1700 en est un exemple. Avec cet appareil, la parole était produite à travers un soufflet de cuisine, un roseau de cornemuse et une cloche de clarinette. Le soufflet de la cuisine était conçu pour agir comme un poumon, tandis que la glotte (la zone des cordes vocales) était représentée à travers l’anche de cornemuse. Le pavillon de la clarinette servait de bouche.

Le fonctionnement de l’appareil était entièrement manuel. La main droite contrôlait une série de leviers tandis que la main gauche manipulait le pavillon de la clarinette (bouche). Il y avait aussi la possibilité de boucher les “narines”, pour produire un son moins nasal. Dans tous les cas, tant que les commandes de base étaient correctement utilisées, la machine recevait un flux d’air. Ce flux d’air déterminait les types de sons qui seraient produits.

Les machines parlantes ultérieures tout au long des XVIIIe et XIXe siècles ont maintenu cette configuration, bien qu’il y ait eu des améliorations. Par exemple, à la fin des années 18, Joseph Faber a créé une machine parlante qui pouvait recevoir des entrées via un clavier et une pédale. La machine était également très créative, car le son sortait d’un “visage” artificiel.

Au début du XXe siècle, les innovations en électronique ont permis à la synthèse vocale de prendre une direction encore plus puissante. Bien que la prémisse d’imiter l’appareil vocal humain soit toujours la même, les machines parlantes du début du 20e siècle pouvaient produire de meilleurs sons puisque l’entrée était plus précise.

Cependant, ce n’est qu’avec l’avènement des ordinateurs que la synthèse vocale a pu être utilisée en dehors du domaine du divertissement. Ceci est principalement dû au fait que les synthétiseurs vocaux pourraient être stockés dans un logiciel au lieu d’une machine séparée. De plus, avec l’aide des ordinateurs, la synthèse vocale pourrait prendre une forme différente ; en utilisant les voix humaines comme principale source de son.

Cette forme de synthèse vocale est connue sous le nom de concaténation. Le processus fonctionne en connectant divers enregistrements de la parole humaine. Le son obtenu est beaucoup plus naturel et agréable à l’oreille. Cela contraste avec les programmes qui utilisent la synthèse articulatoire, où la parole est répliquée à travers un modèle informatisé du conduit vocal.
Les synthétiseurs vocaux commerciaux peuvent utiliser des méthodes concaténatives ou articulatoires, mais les deux sont capables d’atteindre le même objectif ; être en mesure de donner aux gens l’occasion d’entendre du texte. Ceci est particulièrement utile dans les situations où la lecture est gênante ou impossible.

Dans le monde des affaires, de telles situations sont très courantes, notamment pour les transactions téléphoniques. Sans les alternatives de synthèse vocale (TTS), les propriétaires d’entreprise devraient dépenser de l’argent pour embaucher encore plus de personnel de service client. Les solutions synthétisées évitent ce problème, puisque tout se fait par ordinateur ; pas un être humain.
La parole synthétisée joue également un rôle dans la vie quotidienne, en particulier pour les personnes handicapées. Les horloges parlantes, dictionnaires et autres appareils peuvent faciliter les choses pour les personnes qui ont du mal à voir ou à lire. La parole synthétisée est même capable de donner une voix à des individus qui ne pouvaient pas du tout parler. Steven Hawking, un célèbre physicien, en est un exemple frappant. Depuis que la maladie de Lou Gehrig l’a rendu muet, Hawking utilise un synthétiseur vocal pour communiquer avec les gens.

Il existe également des applications TTS disponibles pour aider les personnes dans diverses activités informatiques. Pour obtenir ces types d’applications, la plupart des utilisateurs devront acheter des logiciels séparés ou télécharger des correctifs. Cette dernière option est généralement gratuite, selon le système d’exploitation ou le programme de traitement de texte utilisé. Cependant, si une personne décide d’acheter un logiciel séparé, elle pourrait avoir accès à un système de meilleure qualité. Des exemples spécifiques peuvent être vus via Natural Reader 7 et Text Aloud 2.
En fin de compte, la synthèse vocale est une technologie qui a révolutionné la façon dont l’humanité communique. En un sens, il donne au texte une vie qui lui est propre. Cela donne également au monde l’occasion d’entendre les pensées d’individus brillants qui auraient normalement été sans voix.