LOGO_CIRAL_MINI.GIF (1192 bytes)



Phonétique acoustique 

L’objet d’étude de la phonétique acoustique est constitué par l’onde sonore telle que produite par les organes de la phonation. Bien que cette onde soit audible, ses propriétés physiques ne sont observables qu’à l’aide d’appareils permettant d’analyser les éléments qui la constituent.

Du point de vue de la phonétique acoustique, les sons du langage humain sont constitués par des ondes en mouvement. Il s’agit essentiellement d’un mouvement vibratoire régulier ou irrégulier généré par les articulateurs et les cordes vocales, mouvement qui se propage dans l’air ambiant à une vitesse de 340 mètres à la seconde. La classification des sons du langage que nous propose la phonétique acoustique est basée sur les propriétés physiques des sons. Ces propriétés ont trait à la nature périodique ou apériodique de l’onde sonore et sont en outre responsables de la sensation de hauteur, de celle d’intensité, du timbre et de la durée des sons perçus. 

L’onde sonore 

On établit, dans une premier temps, une distinction entre les sons constitués d’ondes périodiques et ceux formés par des ondes apériodiques. Une vibration est dite périodique lorsqu’elle se répète à des intervalles de temps égaux comme, par exemple, le mouvement du pendule. Dans la chaîne parlée, c’est le mouvement des cordes vocales qui est la source des ondes périodiques.
Au contraire de ce mouvement régulier de va et vient du pendule, passant chaque fois par son point de repos, les ondes apériodiques sont irrégulières, anarchiques. Elles sont à l’origine de ce que nous percevons comme des " bruits ": bruit du vent dans les feuilles des arbres, d’un objet qui tombe, du verre cassé, bruit d’une explosion, etc. Les bruits résultant d’un rétrécissement du chenal expiratoire (constriction) de même que le bruit d’explosion qui survient lors du relâchement d’une occlusion consonantique sont le fait d’ondes apériodiques.

Les vagues créées par un objet lancé dans un plan d'eau calme constituent un exemple visible d'ondes périodiques. Pour un exemple, vous pouvez consulter cette image du site de l'Université de Leeds.

Caractéristiques de l’onde sonore

La vitesse des mouvements d’aller et de retour des vibrations est responsable de la sensation de hauteur. Plus les mouvements vibratoires sont rapides, plus le son sera aigu. À l’inverse, un mouvement plus lent engendre un son plus grave. De façon objective, la hauteur d’un son correspond à sa fréquence et est exprimée en cycles par secondes ou Hertz. Un son comportant 100 cycles par seconde, soit 100 mouvements complets d’aller et de retour par rapport au point de repos, aura une fréquence de 100 Hertz.

Son pur 250 Hz Son pur 500 Hz

L’amplitude du mouvement d’oscillation, c’est-à-dire la distance parcourue ou la pression exercée par le déplacement des molécules dans l’air ambiant par rapport au point de repos, correspond à la sensation d’intensité sonore ou de force; plus le mouvement est ample, plus le son sera perçu intense. Outre sa fréquence supérieure, l'onde sinusoïdale de 500 Hz présentée ci-haut est plus intense que celle dont la fréquence est de 250 Hz.

L’amplitude d’une vibration peut être exprimée objectivement par le calcul des variations de pression d’air (exprimée en Micron Bar et convertie en watt/cm2). On utilise toutefois plus fréquemment une unité de mesure relative, le décibel (dB), pour rendre compte de l’intensité d’un son. À titre d'exemple, mentionnons que le seuil de perception est fixé à 0 dB, le bruissement des feuilles dans les arbres correspond à 20 dB, l'environnement sonore d'une rue achalandée où la circulation est intense est de 70 dB et le seuil de la douleur de 120 dB.

Enfin, l’étalement du mouvement oscillatoire dans le temps est responsable de la sensation de durée d’un son. On mesure objectivement la durée en centièmes (cs) ou en millièmes (ms) de seconde. Pour une illustration des paramètres de fréquence et d'amplitude, rendez-vous au tableau intitulé "Physical variables" dans le site suivant: Université Mc Gill (site en anglais).

On distingue également, en acoustique, les ondes simples des ondes complexes. L’onde complexe se compose d’une multitude de fréquences secondaires, périodiques ou non, que l’on appelle des harmoniques. Les sons du langage humain sont tous des manifestations d’ondes complexes.

L’onde apériodique complexe est constituée d’une multitude de mouvements vibratoires arnachiques. Les sons tels que " s " ou " ch " sont formés d’ondes apériodiques complexes.
L’onde périodique complexe est constituée par la sommation d’ondes périodiques simples, c’est-à-dire une somme de sons purs. Chacun d’entre eux correspond à un mouvement d’oscillation périodique, comme celui du pendule qui imprime dans l’air un tracé sinusoïdal. Il est donc possible de décomposer l’onde périodique complexe en ondes simples et de calculer la fréquence de chacune d’entre elles. Cette opération est impossible à réaliser avec les harmoniques d’ondes apériodiques, vu leur caractère anarchique et irrégulier.

Propriétés de l’onde périodique complexe

L’onde périodique complexe possède certaines propriétés que le langage humain exploite et mérite, de ce fait, qu’on s’y attarde. L’onde périodique complexe est constituée d’une première onde que l’on appelle le " fondamental ". C’est la fréquence de cette onde qui nous permet d’évaluer, de façon globale, la hauteur du son, à la manière d’une note de musique que l’on situerait par rapport à la gamme. La fréquence correspond au nombre de cycles (mouvements d’aller et de retour par rapport au point de repos) sur une période d’une seconde. Les ondes qui accompagnent le fondamental sont appelées les harmoniques. La fréquence de chacune des harmoniques est un multiple entier de la fréquence du fondamental. Les harmoniques possèdent ainsi des fréquences propres qui sont plus élevées que celle du fondamental. Leur intensité est, par contre, moins importante que l’intensité du fondamental. 

Comment sont générées ces harmoniques? Pour répondre à cette question, nous devons garder à l’esprit le rapport qui existe entre la fréquence du fondamental (générée par l’entier des cordes vocales) et les fréquences d’harmoniques, multiples entiers de la fréquence du fondamental. Procédons par une analogie fort simple, soit en comparant les cordes vocales à des cordes de guitare. Lorsque, d’une pression du doigt, on met en mouvement une corde de guitare, un son d’une hauteur précise en résulte. Si on divise cette même corde de guitare en deux parties égales et que l’on fait vibrer les deux demi-cordes ainsi obtenues, un son plus élevé se fait entendre. Il en va de même si nous subdivisons la corde en trois, puis en quatre: chaque fois, on obtient un son dont la hauteur est supérieure à celle obtenue avec la corde entière, c’est-à-dire non subdivisée.  

Le mouvement des cordes vocales est à l’image de cette corde que l’on subdivise. Cette subdivision ne résulte pas d’une pression quelconque mais plutôt d’une déformation du mouvement initial de la masse musculaire qui constitue chacune des cordes vocales, comme dans l'image ci-contre. La fourniture laryngée ou, si l’on préfère, le voisement produit donc un son riche, composé de la fréquence du fondamental et d’harmoniques.

La résonance

Le voisement que nous percevons est différent de celui produit à la source par les cordes vocales. Ce que nous entendons est le fruit d’un phénomène mixte d’amplification et de filtrage des différentes fréquences formant l’onde complexe. La capacité d’amplifier ou, au contraire, d’atténuer certaines fréquences est la propriété de tout résonateur. Dans le cas précis du langage humain, la masse d’air contenue dans les cavités supra-glottiques entre en vibration sous l’effet du mouvement des cordes vocales et ce sont les cavités supra-glottiques qui jouent le rôle de résonateur. La forme, la dimension ainsi que la matière qui compose ces cavités sont autant de particularités qui détermineront les fréquences qui seront mises en évidences et celles qui seront atténuées.

Des illustrations ainsi que diverses informations sur les résonateurs sont données dans le site suivant que nous vous invitons à consulter avant de poursuivre votre lecture: Cours de phonétique de l'Université de Lausane.

Entrons un peu plus en détail dans le phénomène de la résonance. Tout corps, qu’il soit solide, liquide, gazeux peut entrer en vibration et peut, de ce fait, constituer un résonateur. En effet, tout corps possède sa propre fréquence, c’est-à-dire sa propre longueur d’onde. Un stimulus vibratoire dont la longueur d’onde s’approche ou équivaut à celle d’un corps se trouvant à proximité entraînera la mise en vibration de ce corps. L’onde initiale, provenant du stimulus, se verra ainsi amplifiée et sa perceptibilité en sera augmentée. Le corps agit alors comme amplificateur de l’onde initiale. Au contraire, si le stimulus ne vibre pas à une fréquence identique ou voisine de celle du corps solide, liquide ou gazeux, l’onde ne pourra être amplifiée. Le corps n’entrera pas en vibration et agira comme un filtre par rapport à l’onde initiale.  

Le corps ou la matière qui entre en vibration joue un rôle de courroie de transmission entre la fréquence de vibration d’un stimulus et le milieu ambiant. Dans le cas précis de la parole, le stimulus est fourni par l’onde périodique complexe provenant du mouvement des cordes vocales et ce sont les cavités supra-glottiques avec l’air qui y est contenu qui assurent la fonction de résonateur. 

Les cavités supra-glottiques ont la capacité de neutraliser certaines harmoniques et d’en mettre d’autres en évidence par un simple changement de configuration. Tout changement dans la position des articulateurs entraînera la création d’un nouveau résonateur potentiel possédant sa propre longueur d’onde et répondant à des stimuli vibratoires précis. Lorsque l’on prononce, sur une note constante ou à une hauteur de voix constante, des voyelles aussi différentes que " a e i o u ", c’est le procédé d’atténuation et de renforcement que nous avons décrit plus tôt qui entre en jeu et qui est responsable de l’apparition du timbre propre à chacune des voyelles. Les harmoniques renforcées sont, en fait, des ondes dont la fréquence est rendue plus proéminente. On appelle ces fréquences proéminentes des formants. La production d’un son tel que [i] requiert que soient renforcées les fréquences avoisinant 250 Hz, 2 250 Hz, 3 000Hz, et 3 500Hz. L’articulation du [o] appelle un renforcement des fréquences situées autour des valeurs de 400Hz, 800Hz, 2500Hz, et 3200Hz. La mise en position des organes articulatoires pour la production de chacune des voyelles entraîne la création d’un résonateur capable de renforcer et d’atténuer des harmoniques précises. Il en résulte à chaque fois un timbre particulier, celui de chacune des voyelles d’une langue donnée. 

Les formants

La fréquence fondamentale (fréquence de vibration des cordes vocales) est responsable de la hauteur perçue d’un son. Elle est également appelée F zéro et notée F0. Les fréquences d’harmoniques renforcées, responsables du timbre d’un son, sont elles aussi numérotées. F1 correspond à la première zone d’harmoniques renforcées, F2 à la seconde et ainsi de suite jusqu’à F5. Il est à noter que, généralement, la lettre " F " de " F0 " nous réfère à une valeur de fréquence alors que cette même lettre " F " lorsqu’elle accompagne les valeurs s’étalant de 1 à 5 est le plus souvent associé au terme " formant ". Donc, " F0 " est la fréquence du fondamental alors que " F1 ", " F2 ", etc. font le plus souvent référence à " formant 1 ", ou premier formant, " formant 2 " ou deuxième formant, etc. Il n’en demeure pas moins qu’à chaque formant doit être associée une valeur de fréquence. 

Voyelles et consonnes 

La description acoustique des voyelles prend principalement en compte les valeurs des deux premiers formants. Les valeurs des formants 1 et 2 permettrait aux auditeurs d’identifier les voyelles orales. Leurs valeurs respectives rend compte des propriétés du résonateur buccal et du résonateur pharyngal. Ce sont les formants les plus graves et il arrive que le premier formant se confonde avec le fondamental, particulièrement lorsqu’il s’agit de voix de femmes ou d’enfants dont la fréquence naturelle de la voix est plus élevée. La labialisation (ou arrondissement) des articulations vocaliques agit sur le valeur du troisième formant. Ce lien ne vaut toutefois que pour les voyelles antérieures. La production des voyelles nasales implique la participation d’un résonateur supplémentaire: les fosses nasales. Cela a pour conséquence d’affaiblir l’intensité des formants 1 et 2 et de générer un formant supplémentaire dont la valeur se situe entre 300Hz et 600Hz. Enfin, on considère que les quatrième et cinquième formants seraient liés à des caractéristiques individuelles ayant trait à la forme et à la dimension du résonateur ainsi qu’au timbre individuel de la voix. 

La caractérisation acoustique des consonnes doit rendre compte de certaines propriétés acoustiques des ondes non périodiques dont elles sont constituées. On peut effectuer une certaine classification à partir des bruits d’explosion ou de friction de même qu’à l’aide des mouvements de transitions des voyelles vers les consonnes puis des consonnes vers les voyelles. Ces mouvements de transition sont appelés " locus " mais nous n’entreront pas dans le détail de leurs caractéristiques pour nous restreindre plutôt à des observations plus générales qui nous permettront tout de même de saisir de façon globale les traits acoustiques principaux des consonnes françaises. 

Tout d’abord, on doit retenir que les consonnes sont constituées d’ondes apériodiques complexes, c’est-à-dire de " bruits ". C’est pourquoi, tant du point de vue acoustique que perceptif, la classification des consonnes reposera sur la nature du bruit. C’est en modifiant le parcours du courant d’air provenant des poumons par un rétrécissement ou une fermeture temporaire du canal buccal suivi d’une ouverture brusque que sont produits les sons consonantiques. Le bruit consonantique sera continu ou discontinu, et couvrira une certaine zone de fréquence de telle sorte qu’on le percevra plus grave ou plus aigu. Un bruit où prédominent les fréquences basses sera perçu comme grave alors qu’un bruit où prédominent les fréquences hautes sera perçu comme aigu. Le bruit d’explosion du " t " s’oppose à celui du " p " par sa hauteur. De même, le bruit du " s " est plus aigu que celui du " ch ". Pour entendre quelques exemples de réalisations des consonnes françaises, vous pouvez consulter les sites suivants:

Cours de phonétique Université de Lausane (consonnes isolées)

Phonétique CIRAL (consonnes à l'intérieur de mots)

Lorsque la consonne est voisée, il y a aussi production d’ondes périodiques. Certaines consonnes (m, n, l, r en français) possèdent une structure acoustique qui ressemble à celle des voyelles. La faible tension qui accompagne les phases d’occlusion (m, n) ou de constriction (l, r) permettent la mise en évidence des ondes périodiques produites ce qui se traduit par l’apparition de formants. C’est la raison pour laquelle on utilise fréquemment le terme " sonantes " pour désigner ces consonnes.

Traitement du signal

Cet exposé sur les propriétés acoustiques des sons du langage sera complété sous peu par une rubrique portant sur le traitement du signal. En attendant, vous pouvez consulter certains sites intéressants dont celui de l'Université de Leeds.

Le site de l'Institut de la communication parlée (ICP, Grenoble) vous convie à des démonstrations de divers synthétiseurs de parole.

Revision: 15 October 1998