Che cos'è la sintesi vocale?

La sintesi vocale è un processo in cui la comunicazione verbale viene replicata attraverso un dispositivo artificiale. Un computer che converte il testo in parlato è un tipo di sintetizzatore vocale.

Le prime forme di sintesi vocale sono state implementate attraverso macchine progettate per funzionare come il tratto vocale umano. La macchina parlante creata da Wolfgang von Kempelen nel 1700 ne è un esempio. Con questo dispositivo, la parola veniva prodotta attraverso un mantice da cucina, un’ancia per cornamusa e una campana per clarinetto. Il mantice della cucina era concepito per fungere da polmone, mentre la glottide (l’area delle corde vocali) era rappresentata attraverso l’ancia della cornamusa. La campana del clarinetto fungeva da bocca.

Il funzionamento del dispositivo era completamente manuale. La mano destra controllava una serie di leve mentre la mano sinistra manovrava la campana (bocca) del clarinetto. C’era anche la possibilità di tappare le “narici”, per produrre un suono meno nasale. Ad ogni modo, fintanto che i controlli di base sono stati utilizzati correttamente, la macchina ha ricevuto il flusso d’aria. Questo flusso d’aria determinava i tipi di suoni che sarebbero stati prodotti.

Le successive macchine parlanti nel corso del XVIII e XIX secolo mantennero questa configurazione, sebbene ci fossero miglioramenti. Ad esempio, alla fine del 18, Joseph Faber creò una macchina parlante che poteva ricevere input tramite una tastiera e un pedale. La macchina era anche molto creativa, poiché il suono veniva fuori attraverso una “faccia” artificiale.

Quando è arrivato il XX secolo, le innovazioni nell’elettronica hanno permesso alla sintesi vocale di prendere una direzione ancora più potente. Sebbene la premessa per imitare il tratto vocale umano fosse sempre la stessa, le macchine parlanti dell’inizio del XX secolo potevano produrre suoni migliori poiché l’input era più preciso.

Tuttavia, è stato solo con l’avvento dei computer che la sintesi vocale poteva essere effettivamente utilizzata al di fuori dell’arena dell’intrattenimento. Ciò è dovuto principalmente al fatto che i sintetizzatori vocali potrebbero essere memorizzati nel software anziché in una macchina separata. Inoltre, con l’ausilio dei computer, la sintesi vocale potrebbe assumere una forma diversa; usando le voci umane come fonte principale del suono.

Questa forma di sintesi vocale è nota come concatenativa. Il processo funziona collegando varie registrazioni del linguaggio umano. Il suono risultante è molto più naturale e piacevole per l’orecchio. Ciò è in contrasto con i programmi che utilizzano la sintesi articolatoria, in cui il discorso viene replicato attraverso un modello computerizzato del tratto vocale.
I sintetizzatori vocali commerciali possono impiegare metodi concatenativi o articolatori, ma entrambi sono in grado di raggiungere lo stesso obiettivo; essere in grado di dare alle persone l’opportunità di ascoltare il testo. Ciò è particolarmente utile in situazioni in cui la lettura è invadente o impossibile.

Nel mondo degli affari, tali situazioni sono molto comuni, soprattutto per le transazioni telefoniche. Senza alternative di sintesi vocale (TTS), gli imprenditori dovrebbero spendere soldi assumendo ancora più personale del servizio clienti. Le soluzioni sintetizzate evitano questo problema, poiché tutto è fatto dal computer; non un essere umano.
Anche il discorso sintetizzato svolge un ruolo nella vita quotidiana, soprattutto per le persone disabili. Gli orologi parlanti, i dizionari e altri dispositivi possono rendere le cose più facili per le persone che hanno difficoltà a vedere o leggere. Il discorso sintetizzato è persino in grado di dare voce a individui che non potevano parlare affatto. Steven Hawking, un famoso fisico, è un esempio lampante. Dal momento che la malattia di Lou Gehrig lo ha reso muto, Hawking usa un sintetizzatore vocale per comunicare con le persone.

Sono disponibili anche applicazioni TTS per aiutare le persone con varie attività informatiche. Per ottenere questo tipo di applicazioni, la maggior parte degli utenti dovrà acquistare software separato o scaricare patch. Quest’ultima opzione è generalmente gratuita, a seconda del sistema operativo o del programma di elaborazione testi utilizzato. Tuttavia, se una persona decide di acquistare un software separato, potrebbe avere accesso a un sistema di qualità superiore. Esempi specifici possono essere visti tramite Natural Reader 7 e Text Aloud 2.
In definitiva, la sintesi vocale è una tecnologia che ha rivoluzionato il modo in cui l’umanità comunica. In un certo senso dà al testo una vita propria. Dà anche al mondo l’opportunità di ascoltare i pensieri di individui brillanti che normalmente sarebbero stati senza voce.