A6) Quelques mots sur la synthèse vocale
Écrit par Mastaroth   
03-02-2008
VI) LA SYNTHESE VOCALE

Merci à C.Bourdoncle et L.Favre pour leur participation à la rédaction de cet article

 

6.1 Historique

C’est en 1939, à l’occasion de la Foire Internationale de New York, que Homer Dudley, ingénieur des laboratoires Bell, présenta au public une machine unique en son genre : le VODER (le Voice Operating DEmonstratoR). Cette machine, qui paraîtrait aujourd’hui pour le moins incongrue, ressemblait à un orgue pouvant « jouer » la voix humaine. Dudley fut également l’inventeur du Vocoder, ou Voice Coder, littéralement « codeur de voix », reconstituant approximativement la voix. Avec un principe unique de décomposition et de reconstitution du signal, le Vocoder de Dudley allait pouvoir faire avancer les recherches et les applications en matière de reconnaissance vocale, de compression des données audio et de crypto-sécurité. En effet, l’une des applications du Vocoder fut l’encryptage militaro-industriel. Pour éviter à l’ennemi de pouvoir capter les transmissions, on pouvait dès lors encrypter le signal de la voix, le coder à l’aide de « clefs » numériques, et de le transmettre via modem pour le décrypter à l’arrivée. Roosevelt et Churchill ont communiqué ainsi pendant la deuxième guerre mondiale, entre Washington et Londres.

Les principes élémentaires du Vocoder de Dudley sont toujours actifs aujourd’hui…jusque dans le codage de nos téléphones cellulaires.

Dans le domaine musical, le vocoder a connu son apogée à la fin des années 70 grâce au groupe Kraftwerk et leur titre bien connu Radioactivity.

6.2 Explications préliminaires

Pour être en mesure de comprendre comment fonctionne un vocoder, il faut se baser sur les principes phonatoires et auditifs de l’être humain.

6.2.1 L’oreille

Nous avons vu dans la partie sur les aspects auditifs du son le fonctionnement de l’oreille (cf. figure 5). Elle se comporte comme un capteur de vibrations codant le rapport fréquence/temps en impulsions électriques et crée ainsi une image « électrique » du son.

Ces « images » sonores vont être traitées et stockées dans la mémoire du cerveau pour y être triées, analysées, comparées en même temps que tous les autres stimuli de nos sens. L’oreille est incapable de faire des mesures exactes mais pratique le principe de corrélation : l’information est traitée de façon globale. L’oreille reconnaît les formes et les nuances par comparaison entre deux images sonores… La fréquence de résonance du pavillon de notre oreille est de 1000 Hz, c’est donc dans la zone des mediums que les sons sont le mieux perçus. 1000Hz représente le seuil de l’audibilité, 3000Hz celui de la sensibilité : c’est précisément ces aspects que Dudley a pris en compte pour son Vocoder. L’oreille est psycho-acoustiquement capable de compenser les pertes dues à la dégradation d’un signal : Il est ainsi possible de compresser un signal vocal ayant une bande passante de 3000Hz pour le faire transiter au travers de la bande passante des 100Hz d’un câble transatlantique.

6.2.1 La voix

La plus petite unité de la voix est le « phonème » : il peut être une voyelle, une consonne, une double consonne… L’alphabet français en compte 37. Ces phonèmes sont créés par compression de l’air grâce aux poumons, aux cordes vocales, à la langue, à la cavité buccale et au larynx. Le son ainsi produit est modélisé par un filtre fréquentiel, composé de plusieurs résonances, les « formants1 ». Chaque formant est une sorte de filtre passe-bande caractérisé par trois paramètres : la fréquence de résonance, la largeur de bande et son amplitude, son énergie.

Trois à six formants sont suffisants pour obtenir un phonème à l’aide de filtres électroniques. C’est également à partir de ces particularités que Dudley a pu construire le Vocoder.

Les principes phonatoires et auditifs de l’être humain ayant été expliqués, il est maintenant possible d’aborder plus facilement le fonctionnement de Vocoder car celui-ci n’est, en réalité, qu’une modélisation des cordes vocales par l’intermédiaire de filtres plus ou moins sélectifs afin de donner une certaine couleur à la voix. 

6.3 Principes de fonctionnement du Vocoder

Le vocoder se divise en deux parties distinctes : un dispositif d’analyse du signal et un dispositif de synthèse du signal.

L’analyseur contient une série de filtres passe-bande contigus qui vont couvrir l’étendue spectrale de la voix (300 à 3300 Hz pour le téléphone).

Le nombre de ces filtres varie considérablement en fonction des modèles, il peut aller de 8 filtres pour les anciens modèles analogiques, jusqu’à 1024 pour les modèles les plus récents (Vokator de Native Instruments par exemple).

En amont du filtre, on trouve un détecteur de pitch et un dispositif de séparation « voisé »/ « non voisé » pour traiter la différence d’amplitude entre une consonne et une voyelle.

A travers chaque filtre, c’est l’amplitude du signal et les variations lentes de la densités spectrale qui vont être mesurées et échantillonnées à intervalles réguliers. Cette suite d’échantillons formera le « code » qui pourra alors être transmissible via une bande passante beaucoup plus réduite.

Le synthétiseur du vocoder comprend un oscillateur pour les sons « non voisés » et un générateur de bruit pour les sons « voisés ». Il réalise le travail inverse en reprenant les données de l’analyseur et en les renvoyant vers un réseau de filtres alimentés par un générateur de bruit.

Pour donner une image plus claire : les filtres des sorties vont agir comme une voix artificielle et le signal est pulsé comme des cordes vocales artificielles. C’est le Channel Vocoder.

Comme nous pouvons l’observer sur la figure 29, les deux entrées Input Voice et Input Carrier vont être prises respectivement par une voix parlée et un signal entretenu du type dents-de-scie avec les variations spectrales de la voix. C’est le procédé de décorrélation de la mélodie vocale des phonèmes qui donne l’effet de « voix de robot » bien connu ; la hauteur pourra être contrôlée par un clavier.

Une autre technique, celle du Vocoder de phase, sera rapidement employée en musique : les effets sont plus nombreux et permettent la synthèse croisée, le time stretching et les changements de pitch.

Aujourd’hui avec la synthèse granulaire, on arrive à dissocier complètement le pitch de la vitesse et du formant.

6.4 Les différentes familles de Vocoders

6.4.1 Les Vocoders analogiques

Ils sont encombrants, chers, et pour la plupart considérés comme des objets de collection. On peut citer le BODE 7702, les EMS, les Roland VP-330… qui ne sont plus fabriqués (à part le Doepfer A 129, et le MicroKorg sorti en 2002). Ce sont les Syntovox qui sont les plus appropriés et qui ont une définition suffisamment précise pour travailler correctement la voix et le chant.

6.4.2 Les DSP Vocoders

Les DSP Vocoders à processing digial empruntent les mêmes schémas que leurs aînés et sont aussi utilsés comme synthétiseurs (AccesVirus, Waldorf Q)ou comme effets sous forme de racks (effet « Harmoniseur » - VP-70 de Roland, Eventide H-3000). Des modèles comme le Redsound Vocoda dans la pure tradition du Channel Vocoder et l’Electrix Warp Factory sont, eux, autonomes.

6.4.3 Les software Vocoders

Ce sont des applications « stand-alone » qui ne travaillent pas en temps réel. Elles sont bien évidemment tributaires de la rapidité de l’ordinateur. Simples d’utilisation et efficaces, elles permettent de transformer rapidement des fichiers audio en « robots intergalactiques ».

6.4.4 Les software Vocoders Plug-ins

Ils sont beaucoup plus nombreux, fonctionnent en temps réels et permettent de travailler soit en stand-alone, soit en plug-in dans un séquenceur. Ils sont aussi beaucoup plus complexes, offrent une meilleure définition et prolongent le Vocoder vers le futur (morphing d’enveloppes, ring modulator, commutation des inputs a/b b/a mix, réverb…) Pour n’en citer que quelques-uns : Hyperprism, Orange Vocoder, Vokator…

6.5 Conclusion

L’utilisation du Vocoder a donné naissance à de nombreuses applications dérivées. Notamment, les synthèses vocales « text-to-speech » sont des applications qui convertissent l’écriture (par l’intermédiaire d’un OCR) en une suite de phonèmes.

 


Le plus célèbre d’entre eux était un jeu électronique développé par Texas Instrument : Speak And Spell.

D’autres applications ont trouvé leur place dans la bureautique comme Cool Speech (produit par ByteCool qui convertit directement le fichier texte en fichier mp3 ou wav.

L’application ultime du vocoder serait-elle, la création d’un chanteur virtuel ? Il suffirait d’entrer les textes de la chanson, puis de sélectionner les notes devant être « chantées » par la voix synthétique. Un procédé quasi-similaire n’avait-il pas déjà été expérimenté dans le film FARINELLI ?

Commentaires
Ajouter un nouveauRechercher
Seul les utilisateurs enregistrés peuvent écrire un commentaire!

Copyright (C) 2007 Alain Georgette / Copyright (C) 2006 Frantisek Hliva. All rights reserved.

Dernière mise à jour : ( 17-02-2008 )