|
VI) LA SYNTHESE VOCALE
Merci à C.Bourdoncle et L.Favre pour leur participation à la rédaction de cet article
6.1 Historique
C’est en 1939, à l’occasion
de la Foire Internationale de New York, que Homer Dudley, ingénieur
des laboratoires Bell, présenta au public une machine unique
en son genre : le VODER (le Voice Operating DEmonstratoR). Cette
machine, qui paraîtrait aujourd’hui pour le moins incongrue,
ressemblait à un orgue pouvant « jouer »
la voix humaine. Dudley fut également l’inventeur du
Vocoder, ou Voice Coder, littéralement « codeur de
voix », reconstituant approximativement la voix. Avec un
principe unique de décomposition et de reconstitution du
signal, le Vocoder de Dudley allait pouvoir faire avancer les
recherches et les applications en matière de reconnaissance
vocale, de compression des données audio et de
crypto-sécurité. En effet, l’une des applications du
Vocoder fut l’encryptage militaro-industriel. Pour éviter à
l’ennemi de pouvoir capter les transmissions, on pouvait dès
lors encrypter le signal de la voix, le coder à l’aide de
« clefs » numériques, et de le
transmettre via modem pour le décrypter à l’arrivée.
Roosevelt et Churchill ont communiqué ainsi pendant la
deuxième guerre mondiale, entre Washington et Londres.
Les principes élémentaires
du Vocoder de Dudley sont toujours actifs aujourd’hui…jusque dans
le codage de nos téléphones cellulaires.
Dans le domaine musical, le vocoder a
connu son apogée à la fin des années 70 grâce
au groupe Kraftwerk et leur titre bien connu Radioactivity.
6.2 Explications préliminaires
Pour être en mesure de comprendre
comment fonctionne un vocoder, il faut se baser sur les principes
phonatoires et auditifs de l’être humain.
6.2.1 L’oreille
Nous avons vu dans la partie sur les
aspects auditifs du son le fonctionnement de l’oreille (cf. figure
5). Elle se comporte comme un capteur de vibrations codant le rapport
fréquence/temps en impulsions électriques et crée
ainsi une image « électrique » du son.
Ces « images »
sonores vont être traitées et stockées dans la
mémoire du cerveau pour y être triées, analysées,
comparées en même temps que tous les autres stimuli de
nos sens. L’oreille est incapable de faire des mesures exactes mais
pratique le principe de corrélation : l’information est
traitée de façon globale. L’oreille reconnaît
les formes et les nuances par comparaison entre deux images sonores…
La fréquence de résonance du pavillon de notre oreille
est de 1000 Hz, c’est donc dans la zone des mediums que les sons
sont le mieux perçus. 1000Hz représente le seuil de
l’audibilité, 3000Hz celui de la sensibilité :
c’est précisément ces aspects que Dudley a pris en
compte pour son Vocoder. L’oreille est psycho-acoustiquement
capable de compenser les pertes dues à la dégradation
d’un signal : Il est ainsi possible de compresser un signal
vocal ayant une bande passante de 3000Hz pour le faire transiter au
travers de la bande passante des 100Hz d’un câble
transatlantique.
6.2.1 La voix
La plus petite unité de la voix
est le « phonème » : il peut être
une voyelle, une consonne, une double consonne… L’alphabet
français en compte 37. Ces phonèmes sont créés
par compression de l’air grâce aux poumons, aux cordes
vocales, à la langue, à la cavité buccale et au
larynx. Le son ainsi produit est modélisé par un filtre
fréquentiel, composé de plusieurs résonances,
les « formants1 ».
Chaque formant est une sorte de filtre passe-bande caractérisé
par trois paramètres : la fréquence de résonance,
la largeur de bande et son amplitude, son énergie.
Trois à six formants sont
suffisants pour obtenir un phonème à l’aide de
filtres électroniques. C’est également à
partir de ces particularités que Dudley a pu construire le
Vocoder.
Les principes phonatoires et auditifs
de l’être humain ayant été expliqués, il
est maintenant possible d’aborder plus facilement le fonctionnement
de Vocoder car celui-ci n’est, en réalité, qu’une
modélisation des cordes vocales par l’intermédiaire
de filtres plus ou moins sélectifs afin de donner une certaine
couleur à la voix.
6.3 Principes de fonctionnement du Vocoder
Le vocoder se divise en deux parties
distinctes : un dispositif d’analyse du signal et un
dispositif de synthèse du signal.
L’analyseur contient une série
de filtres passe-bande contigus qui vont couvrir l’étendue
spectrale de la voix (300 à 3300 Hz pour le téléphone).
Le nombre de ces filtres varie
considérablement en fonction des modèles, il peut aller
de 8 filtres pour les anciens modèles analogiques, jusqu’à
1024 pour les modèles les plus récents (Vokator de
Native Instruments par exemple).
En amont du filtre, on trouve un
détecteur de pitch et un dispositif de séparation
« voisé »/ « non voisé »
pour traiter la différence d’amplitude entre une consonne et
une voyelle.
A travers chaque filtre, c’est
l’amplitude du signal et les variations lentes de la densités
spectrale qui vont être mesurées et échantillonnées
à intervalles réguliers. Cette suite d’échantillons
formera le « code » qui pourra alors être
transmissible via une bande passante beaucoup plus réduite.
Le synthétiseur du vocoder
comprend un oscillateur pour les sons « non voisés »
et un générateur de bruit pour les sons « voisés ».
Il réalise le travail inverse en reprenant les données
de l’analyseur et en les renvoyant vers un réseau de filtres
alimentés par un générateur de bruit.
Pour donner une image plus claire :
les filtres des sorties vont agir comme une voix artificielle et le
signal est pulsé comme des cordes vocales artificielles. C’est
le Channel Vocoder.
Comme nous pouvons l’observer sur la
figure 29, les deux entrées Input Voice et Input Carrier vont
être prises respectivement par une voix parlée et un
signal entretenu du type dents-de-scie avec les variations spectrales
de la voix. C’est le procédé de décorrélation
de la mélodie vocale des phonèmes qui donne l’effet
de « voix de robot » bien connu ; la
hauteur pourra être contrôlée par un clavier.
Une autre technique, celle du Vocoder
de phase, sera rapidement employée en musique : les
effets sont plus nombreux et permettent la synthèse croisée,
le time stretching et les changements de pitch.
Aujourd’hui avec la synthèse
granulaire, on arrive à dissocier complètement le pitch
de la vitesse et du formant.
6.4 Les différentes familles de Vocoders
6.4.1 Les Vocoders analogiques
Ils sont encombrants, chers, et pour la
plupart considérés comme des objets de collection. On
peut citer le BODE 7702, les EMS, les Roland VP-330… qui ne sont
plus fabriqués (à part le Doepfer A 129, et le
MicroKorg sorti en 2002). Ce sont les Syntovox qui sont les plus
appropriés et qui ont une définition suffisamment
précise pour travailler correctement la voix et le chant.
6.4.2 Les DSP Vocoders
Les DSP Vocoders à processing
digial empruntent les mêmes schémas que leurs aînés
et sont aussi utilsés comme synthétiseurs (AccesVirus,
Waldorf Q)ou comme effets sous forme de racks (effet « Harmoniseur »
- VP-70 de Roland, Eventide H-3000). Des modèles comme le
Redsound Vocoda dans la pure tradition du Channel Vocoder et
l’Electrix Warp Factory sont, eux, autonomes.
6.4.3 Les software Vocoders
Ce sont des applications
« stand-alone » qui ne travaillent pas en temps
réel. Elles sont bien évidemment tributaires de la
rapidité de l’ordinateur. Simples d’utilisation et
efficaces, elles permettent de transformer rapidement des fichiers
audio en « robots intergalactiques ».
6.4.4 Les software Vocoders Plug-ins
Ils sont beaucoup plus nombreux,
fonctionnent en temps réels et permettent de travailler soit
en stand-alone, soit en plug-in dans un séquenceur. Ils sont
aussi beaucoup plus complexes, offrent une meilleure définition
et prolongent le Vocoder vers le futur (morphing d’enveloppes, ring
modulator, commutation des inputs a/b b/a mix, réverb…) Pour
n’en citer que quelques-uns : Hyperprism, Orange Vocoder,
Vokator…
6.5 ConclusionL’utilisation du Vocoder a donné
naissance à de nombreuses applications dérivées.
Notamment, les synthèses vocales « text-to-speech »
sont des applications qui convertissent l’écriture (par
l’intermédiaire d’un OCR)
en une suite de phonèmes.
Le plus célèbre d’entre
eux était un jeu électronique développé
par Texas Instrument : Speak And Spell.
D’autres applications ont trouvé
leur place dans la bureautique comme Cool Speech (produit par
ByteCool qui convertit directement le fichier texte en fichier mp3 ou
wav.
L’application ultime du vocoder
serait-elle, la création d’un chanteur virtuel ? Il
suffirait d’entrer les textes de la chanson, puis de sélectionner
les notes devant être « chantées »
par la voix synthétique. Un procédé
quasi-similaire n’avait-il pas déjà été
expérimenté dans le film FARINELLI ?
|