14
]~TUDE D'UN SYST~ME DE SYNTH~SE DE MESSAGES VOCAUX* par .lacques PONCIN h|g6nieur des t~16communications ** SOMMAIRE. - - Dans le cadre des recherches sur les principes de rdalisation d'unitds & rdponse vocale, on prdsente une dtude utilisant une m6thode de synlhdse par roots el un synthdtiseur de type vocoder reli~ & un petit ealcu- lateur. On ddcrit en pariiculier les principes des programmes de composition du message vocal et de modifi- cation des roots en /onction du contexle qui constituent le point le plus original du sysldme. PLAN. - - - I : Introduction II : Choix du syst~me III : Prineipe de la r('.alisation et matdriel utilisd III.1. Programme g~ndral de l'~tude; III.2. Le vocoder; III.3. Raccordement du vocoder au calculateur. IV : Vocabulaire de base IV.I. D~/iuition du vocabulaire; IV.2. Enregistrement du vocabulaire; IV.3. Correction des donndes d'analyse; IV.4. Programme de traduction : prdparation de l'assemblage du message brut. V : Etudes sur le rythme V.1. Imporlance dtt probldme des modifications de cerlains paramdtres en /onetion du conlexte; V.2. Choix du principe de modulation du d~bit; V.3. Principe du marquage : les (~ roots de rythme ~) ; V.4. Sous-programme de choix des roots de rythme. VI : Etudes sur l'intortation VIA. Rdle du paramdtre d'intonation; VI.2. Etude expdrimentale de l'intonation sur les hombres; VI.3. Sous-programme de synthdse de l'intonation. VII : Rdsultuts Conclusion. Bibliographie (7 r6f.). I. INTRODUCTION Dans le domaine des communications homme- machine, dont 1'importance ne cesse de croitre avec la g6n6ralisation de l'emploi des calculateurs dans de nombreux secteurs d'activit6, la communication vocale, pr6sente un int6r6t tout particulier. Elle doit permettre en effet d'utiliser le r6seau t616phonique elassique pour transmettre h distance certaines formes d'information. Si les recherches concernant l'entr6e vocale et la reconnaissance de la parole en sont encore au stade des 6tudes de laboratoire, en revanche dans le domaine de la sortie vocale et de la synth~se de la parole, existent d6jA d'int6ressantes r6alisations industrielles. Un certain loss6 subsiste cependant entre ces r6ali- sations actuelles, off les messages vocaux sont cons- titu6s par juxtaposition de roots pr6-enregistr6s et en nombre limit6, et le but final que l'on pourra consi- d6rer comme atteint lorsqu'une machine sera capable, par exemple, de dire intelligiblement et agr6ablement un texte quelconque qu'on lui aura fourni sous forme 6crite. Sur le plan th6orique, l'6tude que l'ou va d6crire repr6sente nne approche de ce probl~me g6n6ral, une 6tape interm6diaire dans la mesure oh l'on y a conserv6 le principe de la synthbse par roots mais en s'int6ressant particuli~rement aux r~gles d'assemblage de ces mots darts un contexte variable. Sur le plan pratique, on a consid6r6 l'application particuli~re ~ la synth6se de messages oh l'essentiel de l'information ~ sortir sous forme vocale est cons- titu6e par des nombres. Les r6sultats obtenus doivent notaminent 6tre utilis6s pour la r6alisation en 1971 d'une unit6 h rdponse vocale permettant d'autmnatiser uue certaine forme de renseignements t616phoniques. Le rSle de cette unitd, qui sera raise en exploitation exp6rimentale dans le r6seau de commutation 61ec- tronique PLATON install6 ~ Lannion, sera de fournir h tout abonn6 qui eu fera la demande, l'indication de la taxe de sa derni~re communication, le montant global de son compteur, l'heure, etc. Daus les paragraphes qui vont suivre, on exposera tout d'abord les crit~res de choix qui sont intervenus dans la d6finition du syst~me. On d6crira ensuite le mat6riet utilis6 pour l'6tude et les m6tbodes mises en oeuvre pour r6soudre les probl~mes rencontr6s. On fera le point en conclusion sur les r6sultats obtenus et l'on pr6sentera les perspectives ouvertes par ces 6tudes sur la synth~se de parole. II. CHOIX DU SYST~.ME Le premier choix h faire pour d6finir le syst~me 6tait celui du type de synth~se. Si l'on exclut le principe des syst~mes de r6ponse vocale dans lesquels l'ensemble du message int6ressant le correspondant cst enregistr6 puis fourni en bloc, deux proc6d6s pouvaient 6tre utilis6s darts l'application consid6r6e, celui de la synth~se par rdgles et celui de la synth~se par roots. Dans un proc6d6 de synth~se par r~gles [1, 2, 3], on utilise des 616ments phon6tiques (~ micro- scopiques ,) tels que les phonemes, les syllabes, les diphones, etc. que l'on assemble au moyen de r6gles appropri6es pour former des roots et des phrases, alors que duns la synth~se par roots, le d6coupage * Faite au d6partement I~TU'DESET TECHNIQUES D'ACOUSTIQUE, (/NET-Lannion. ** Au CNET-Issy, gl'Otll)enlent INFOI{MATIQUI" ET 'I'IIANSMISSION,% I)ES I)ONNI']ES, d6partement TIIANSMISSION ET TI/AI- TI,:MENT DES IMAGES. -- 405 --

Étude d’un système de synthèse de messages vocaux

Embed Size (px)

Citation preview

Page 1: Étude d’un système de synthèse de messages vocaux

] ~ T U D E D ' U N S Y S T ~ M E D E S Y N T H ~ S E D E M E S S A G E S V O C A U X *

par

. lacques P O N C I N

h|g6nieur des t~16communications **

SOMMAIRE. - - Dans le cadre des recherches sur les principes de rdalisation d'unitds & rdponse vocale, on prdsente une dtude utilisant une m6thode de synlhdse par roots el un synthdtiseur de type vocoder reli~ & un petit ealcu- lateur. On ddcrit en pariiculier les principes des programmes de composition du message vocal et de modifi-

cation des roots en /onction du contexle qui constituent le point le plus original du sysldme.

PLAN. - - - I : Introduct ion �9 II : Choix du sy s t~me �9 III : Prine ipe de la r('.alisation e t matdr ie l utilisd III .1. Programme g~ndral de l'~tude; III .2. Le vocoder; III .3. Raccordement du vocoder au calculateur. �9 IV : Vocabulaire de base IV.I . D~/iuition du vocabulaire; IV.2. Enregistrement du vocabulaire; IV.3. Correction des donndes d'analyse; IV.4. Programme de traduction : prdparation de l'assemblage du message brut. �9 V : Etudes sur le r y t h m e V.1. Imporlance dtt probldme des modifications de cerlains paramdtres en /onetion du conlexte; V.2. Choix du principe de modulation du d~bit; V.3. Principe du marquage : les (~ roots de rythme ~) ; V.4. Sous-programme de choix des roots de rythme. �9 VI : E t u d e s sur l'intortation VIA. Rdle du paramdtre d'intonation; VI.2. Etude expdrimentale de l'intonation sur les hombres; VI.3. Sous-programme de synthdse de l'intonation. �9 V I I : R d s u l t u t s �9 Conclusion.

�9 Bibliographie (7 r6f.).

I . I N T R O D U C T I O N

Dans le domaine des communica t ions homme-

machine, dont 1 ' importance ne cesse de croitre avec

la g6n6ralisation de l 'emploi des calculateurs dans de

nombreux secteurs d 'act ivi t6 , la communica t ion

vocale, pr6sente un int6r6t tou t part iculier . Elle doit

pe rmet t re en effet d 'ut i l iser le r6seau t616phonique

elassique pour t r ansmet t re h distance certaines formes

d ' informat ion .

Si les recherches concernant l 'entr6e vocale et la

reconnaissance de la parole en sont encore au stade

des 6tudes de laboratoire , en revanche dans le domaine

de la sortie vocale et de la synth~se de la parole,

ex is ten t d6jA d ' int6ressantes r6alisations industrielles.

Un certain loss6 subsiste cependant entre ces r6ali-

sations actuelles, off les messages vocaux sont cons-

t i tu6s par jux tapos i t ion de roots pr6-enregistr6s et en

nombre limit6, et le but final que l 'on pourra consi-

d6rer comme a t te in t lorsqu 'une machine sera capable,

par exemple, de dire inte l l ig iblement et agr6ablement

un t ex te quelconque qu 'on lui aura fourni sous forme

6crite. Sur le plan th6orique, l '6tude que l 'ou va

d6crire repr6sente nne approche de ce probl~me

g6n6ral, une 6tape interm6diaire dans la mesure oh

l 'on y a conserv6 le principe de la synthbse par roots

mais en s ' int6ressant par t icul i~rement aux r~gles

d 'assemblage de ces mots darts un contexte variable.

Sur le plan prat ique, on a consid6r6 l ' appl ica t ion

particuli~re ~ la synth6se de messages oh l 'essentiel

de l ' in format ion ~ sortir sous forme vocale est cons-

t i tu6e par des nombres. Les r6sultats obtenus doivent

no t aminen t 6tre utilis6s pour la r6alisation en 1971

d 'une unit6 h rdponse vocale p e r m e t t a n t d ' au tmna t i se r

uue certaine forme de renseignements t616phoniques.

Le rSle de cet te unitd, qui sera raise en exploi ta t ion

exp6rimentale dans le r6seau de commuta t ion 61ec-

t ronique PLATON install6 ~ Lannion, sera de fournir

h tou t abonn6 qui eu fera la demande, l ' indica t ion

de la taxe de sa derni~re communica t ion , le m o n t a n t

global de son compteur , l 'heure, etc.

Daus les paragraphes qui von t suivre, on exposera

tou t d ' abord les crit~res de choix qui sont in tervenus

dans la d6finition du syst~me. On d6crira ensuite le

mat6riet utilis6 pour l '6tude et les m6tbodes mises en

oeuvre pour r6soudre les probl~mes rencontr6s. On

fera le point en conclusion sur les r6sultats obtenus

et l 'on pr6sentera les perspect ives ouver tes par ces

6tudes sur la synth~se de parole.

II. C H O I X D U S Y S T ~ . M E

Le premier choix h faire pour d6finir le syst~me

6tait celui du type de synth~se. Si l 'on exclut le

principe des syst~mes de r6ponse vocale dans lesquels

l 'ensemble du message int6ressant le cor respondant

cst enregistr6 puis fourni en bloc, deux proc6d6s

pouva i en t 6tre utilis6s darts l ' appl ica t ion consid6r6e,

celui de la synth~se par rdgles et celui de la synth~se

par roots. Dans un proc6d6 de synth~se par r~gles [1,

2, 3], on utilise des 616ments phon6t iques (~ micro-

scopiques ,) tels que les phonemes, les syllabes, les

diphones, etc. que l 'on assemble au moyen de r6gles

appropri6es pour former des roots et des phrases,

alors que duns la synth~se par roots, le d6coupage

* Faite au d6partement I~TU'DES ET TECHNIQUES D'ACOUSTIQUE, (/NET-Lannion. ** Au CNET-Issy, g l ' O t l l ) e n l e n t INFOI{MATIQUI" ET 'I'IIANSMISSION,% I)ES I)ONNI']ES, d6partement TIIANSMISSION ET TI /AI -

TI,:MENT DES IMAGES.

- - 405 - -

Page 2: Étude d’un système de synthèse de messages vocaux

2/14 en ~l~ments de vocabulaire est macroscopique et se f a i t h l '~chelon du mot. On a considdr~ comme ~l~ment de choix ddcisif sur ce point la qualit~ de la parole synthdt ique obtenue par les deux proc~d~s. Elle est

encore m~diocre du poin t de rue de l ' intell igibili t~ et sur tou t du na ture l avec les m~thodes de synth~se par r~gles, alors que les m~thodes d 'assemblage de roots donnen t des r~sultats plus satisfaisants et com- mercia lement exploitables, comme le p rouven t les r~alisations dans ce domaine (*).

Le deuxi~me choix concernai t le mode de stockage des roots de vocabulaire, les solutions possibles d tant illustr~es par l 'exemple des deux r~alisations (*) :

dans un des syst~mes (**), les roots sont enregistrds sous forme analogique sur un t ambour magn~tique, chaque mot occupant une piste du t ambour et la composit ion du message se faisant par s~lection

programm~e de ces pistes. Dans l ' aut re syst~me (***), la parole est cod~e et le vocabulaire rang~ dans une m~moire de masse num~rique (disque). Une solution de ce genre a ~t~ rc tenue pour le proje t du C.N.E.T. ; elle pr~sente plusieurs avantages, no tam- men t celui d 'dviter l '~tude d 'une m~moire analogique

spdciale et son raccordement h un calculateur, d 'au to- riser plus faci lement une extension du volume du vocabulaire et sur tout celui de permet t re de mod i f e r les donn~es entre l ' ex t rac t ion de la m~moire, et la

synth~se p roprement dite de mani~re h tenir compte

du contexte des roots qui ne sont plus figds comme dans le cas d ' u n enregis t rement analogique. On verra que cette possibilit~ est ex t r~mement intdressante pour am~liorer la qualit~ d 'ensemble des messages synthdtis~s.

Enf in , le dernier choix a port~ sur le proc~d~ de codage de la parole. La modula t ion par impulsions et codage ainsi que la modula t ion A aura ien t condui t h des d~bits binaires h l ' interface (et h des volumes

de m~moires de stockage) trop importants . Un proc~d~ de codage avec compression de type vocoder a ~t~

utilis~ p e r m e t t a n t d 'ob ten i r un gain d ' un facteur 20 environ sur ces quant i t~s avec un d~bit de l 'ordre de 2 400 ~l~ments binaires par seconde. Un autre avantage du vocoder est que son codage t ien t compte des caract~res sp~cifiques du signal de parole, et donne acc~s directement , par exemple, aux param~tres de ry thme et d ' in tona t ion , ce qui est pr~cieux pour introduire les modificat ions en fonction du contextc

qu 'on ~voquait ci-dessus.

III. PBINCIPES DE LA B~.ALISATION ET MAT]~BIEL UTILIS~.

III . l . Programme g~n~ral de l'$tude.

A par t i r des principes ainsi d~finis, l '~tude pro- p rement dite peut se diviser en deux phases.

(*) Par la Soci6t6 I.B.M. (**) I.B.M. 7770.

(***) I.B.M. 7772.

J , P O N C I N [ANNALES DES T~LECOMMUNICATIONS

La premiere phase est ind~pendante de toute not ion de temps r~el ; c 'est un t ravai l de preparat ion qui doit permet t re de const i tuer le vocabulaire de base (ou dictionnaire) dont les ~16ments seront utilis~s

comme donn6es dans la deuxi~me phase. Les roots du vocabulaire sont d 'abord enregistr6s par une voix humaine et cod~s par la part ie d 'analyse du vocoder. Ces donn~es brutes sont ensuite soumises h des cor- rections pour 61iminer un certain hombre de d~fauts dus h l 'analyse ; on ob t ien t alors les donn~es d~fi- nit ives ou donndes dlabordes.

La deuxi~me phase concerne la synth~se proprement dite. Elle doit se d~rouler en temps r~el, c 'est-h-dire que la dur~e d 'ex~cution du programme doit ~tre

telle que l ' interval le de temps qui s'~coule entre le m o m e n t off la d~finition du message est in t rodui te sous forme cod~e et le m o m e n t o/~ le message sort sous forme parl~e ne d~passe pas un d61ai d ' a t t en te normal de quelques secondes. Dans cette phase, il faut d 'abord interprdter la question, puis en fonction de cette in te rpre ta t ion composer le message vocal et r6aliser les adapta t ions de certains param~tres pour obtenir un ensemble coherent ; enfiu, la parole ainsi assembl6e sous forme de codes num~riques doit ~tre t radui te en s ignaux acoustiques par la part ie de

synth~se d ' u n vocoder. La figure 1 mont re l ' ensemble de l '~quipement

d '~tude utilis~ : celui-ci comporte essentiel lement un

vocoder (dont la part ie d 'analyse a ~t~ utilisde dans la premiere phase et la par t ie de synth~se essentiel- lement dans la seconde phase) et un pet i t calculateur sur lequel on t ~t~ programm~es l 'acquis i t ion des

donn6es, l ' in terpr~ta t ion et la composit ion du message.

III.2. Le vocoder.

Un vocoder h canaux 6tudi6 au d6par tement

Etudes et tcchniques d 'acoust ique du C N E T [5] a 6t6 utilis6. Sans entrer dans les d6tails de r~alisation de ce vocoder, on rappelle qu ' i l permet d 'extraire d ' un signal 61ectrique de parole deux types d ' informat ions concernant d ' une par t le spectre ins tantan6, d 'au t re pa r t la fr~quence fondamenta le de la voix (fr~quence de m61odie ou pitch).

Le spectre ins tan tan~ est d~crit sous une forme doublement quantifi~e en fr~quence et en niveau : la bande de /rdquences utiles de la parole qui s '6tend de 300 Hz h 5 000 Hz est divis~e en 14 zones ou canaux, l '~nergie globale h l ' int~rieur de chaque canal 6 tant cod~e h 16 niveaux. L '~chelonnement des fr~quences

centrales des filtres passe-bandes de ces canaux est logar i thmique ainsi que celui des n iveaux de codage

de l '~nergie, les ~chelons ~tant dans ce cas de 4 dB.

La m~lodie est d~crite par une quant i f ica t ion lin~aire 256 n iveaux de la p6riode de l 'exci ta t ion vocale,

un ~chelon correspondant ~ une dur~e de 64 ~s. Lorsque aucune fr~quence fondamenta le n ' e s t d6tect6e h l 'analyse (sons non vocalists), ce fait est signald par la valeur cod6e 0 en sortie du ddtecteur de m~lodie.

L 'ensemble de ces param~tres (~nergie dans les canaux et p6riode de m~lodie) est 6chanti l lonn~ h une

406

Page 3: Étude d’un système de synthèse de messages vocaux

t. 25, n ~ 11-12, 19701 S Y S T E M E D E S Y N T H E S E D E M E S S A G E S V O C A U X 3/14

Fio. 1. - - Aspect d'ensemble de l'6quipement d'dtude. De gauche ?~ droile : l'oseilloscope h m6moire pour la visualisation, le bfiti d'analyse-synth6se contenant deux vocoders ainsi que le magn6tophone et le micro utilis6s en entr6e, le leeteur de bande, la machine h 6erire et le pupitre de

commande du calculateur, le calculateur, le bfiti d'adaptation.

cadence de l 'ordre de 25 ms ~ l 'analyse. Les donn6es

num6riques d6crivant le signal h chacun de ces instants

seront par la suite appel@s dchant i l lon vocoder.

En r6sum6, l ' in format ion num6rique propre fi un

6chantil lon vocoder est de 64 616merits binaires qui

se d6composent en :

56 e.b. (14 canaux x 4 e.b./canal) pour le spectre

C/, (i = 1 h 14) ;

8 e.b. pour la m61odie, T.

Le d6bit correspondant est de 64 • 40 = 2 560 e.b./s

Le tableau 1 donne une repr6sentat ion en code

vocoder d 'un mot du vocabulaire , le chiffre CINQ,

chaque ligne correspondant h u n @hanti l lon et ehaque

colonne h u n canal.

La s t ructure du synthStiseur est parall~le ~ celle

de l ' analyseur : les donn6es num~riques y sont utilis6es

pour r6g6n6rer une exci ta t ion vocale artificielle et

pour moduler ce signal dans des bandes de fr6quences

correspondant aux cauaux d 'analyse.

III .3 . R a c c o r d e m e n t du v o c o d e r au ca l cu la - teur.

Pour piloter l 'ensemble du syst~me de synth~se,

un pe t i t ealculateur num6rique (*) p rogramm6 en

langage machine pour pe rmet t re l ' explo i ta t ion en

(*) De type PB 250.

temps r6el, a 6t6 utilis6.

L ' in ter face entre le vocoder et le calculateur a 6t6

con~u de mani6re h assurer un fonc t ionnement asyn-

chrone des deux organes en l ib6rant au m a x i m u m le

caleulateur des fonctions de commande du vocoder.

Celles-ci sont assur6es par un bloc de liaison qui

fonct ionne ~ par t i r de deux horloges, l 'une f ixant la

cadence d '6chant i l lonnage h l 'analyse et de renouvel-

l ement des donn6es ~ la synth6se, l ' au t re dormant la

synchronisat ion des 616merits binaires de donn6es qui sont t ransmises en s6rie. La figure 2 donne un sch6ma

synopt ique de l 'ensemble. Compte tenu de la rapidit~

du calculateur et n o t a m m e n t de la dur6e des op6ra-

tions de rangement en m6moire des informat ions

in t rodui tes darts le registre externe, la l imite inf6rieure

admissible pour la cadence d '6chant i l lonnage est de

10,5 ms. En fait, l ' analyse des donn6es vocoder a

toujours lieu h la p6riode nominale de 25 ms et la

p6riode de synth~se, qui est var iable comme on le

verra au paragraphe V, ne descend pas en dessous

de 12,5 ms.

Outre les programmes d 'entr6e-sort ie de l ' infor-

mat ion vocoder et les programmes de t r a i t emen t

p roprement dit qui seront d6crits darts lcs paragraphes

suivants , une biblioth~que de programmes de service

a 6t6 consti tu6e p e r m e t t a n t n o t a m m e n t d ' impr imer

6chantil lon par 6chantil lon en code vocoder (14 nom-

- - 407

Page 4: Étude d’un système de synthèse de messages vocaux

4 / 1 4 J . P O N C I N

TaULEAU I

Donndes vocoder pour le mot CINQ

[ANNALES DES TI~LI~COMMUNICATIONS

6nergie dans les c a n a u x

1 2 3 4 5 6 7 8 9 10 11 12

3 4 3 4 3 2 3 5 6 5 6 7 4 3 5 4 3 4 4 5 6 5 6 6 5 6 5 6 5 4 4 5 6 5 5 6 5 5 5 4 5 4 5 5 6 5 7 6 5 5 4 4 4 4 4 5 5 6 6 6 4 5 5 5 4 4 4 6 7 5 6 6 6 6 6 5 5 5 5 6 7 7 7 7

p6riode du f o n d a m e n t a l

13 14

6 5 8 7 7 7 9 8 9 8 8 8 8 6

9 10 11 10 10 9 9 10 9 8 7 6 12 11 12 12 11 10 9 12 10 9 9 9 11 10 12 13 11 10 10 12 11 10 9 10 11 10 12 13 11 10 9 13 11 10 9 9 11 9 11 13 11 10 9 12 11 10 10 9 11 9 11 12 11 9 9 12 11 10 9 9

9 9 11 11 10 9 8 9 12 11 10 9 9 9 10 10 9 8 7 8 9 10 8 7 9 8 7 8 7 6 5 6 6 5 4 3

6 4 147 8 7 155 8 7 156 8 7 158 8 7 161 7 6 160 7 4 158 6 3 157 4 3 156

IN

8 4 3 5 3 2 2 4 4 4 3 2 3 2 3 2 3 4 3 2 1 3 5 4 4 2 3 2 2 2 2 3 1 0 0 1 4 3 2 1 3 1 1 2 1 0 1 0 0 0 1 1 1 1 4 2 1 1 1 0 1 0 0 0 0 1 0 0 3 1 2 2 1 1 1 1 0 2 1 2 1 2 4 2 6 4 5 6 8 8 7 10 10 8 7 6 6 5 6 5 5 6 8 8 9 10 10 9 8 7 7 6 5 5 5 4 4 3 3 6 6 7 7 5 5 4

0 0 0 0 0 K 0 0 0 0

VOCODE R

~onn~es d'analyse

horloge ~mission

synchronisaHon de I'~mlssion

donn6es de synth~se

horloge r~ception

synchPonisaHon q :

de la r~cep~ion

BLOC DE LIAISON

f HORLOGE

[RAP DE ]

donn~es

affichage des donn~es

signaux de contrSle r

donn~es < r:

lecture des donnEes

signaux de contr~le > <

;~EGISTRE

EXTERNE

CALCULATEUR

REGISTRE

EXTERNE

GENERATEUR < D'IMPULSION$ commandr de la

Fr~quence d'~chantillonnage D'ECHANTILLONNAGE a la synth~se

Fio. 2. - - In te r face vocoder calcula teur .

b r e s 0 ~< C~ ~< 15 p o u r l e s c a n a u x + 1 n o m b r e

0 ~< T ~< 255 p o u r l a p 6 r i o d e de l a m 6 1 o d i e ) u n e p a r t i e

d e s d o n n 6 e s e n r e g i s t r 6 e s , d ' i n t r o d u i r e e n m 6 m o i r e h

p a r t i r d e l a m a c h i n e h 6c r i r e u n e s6r ie d ' 6 c h a n t i l l o n s

a r t i f i c i e l s e t d e r 6 a l i s e r d e s t e s t s s u r le f o n c t i o n n e m e n t

d u v o c o d e r e n a n a l y s e e t e n s y n t h ~ s e .

E n f i n h p a r t i r d e c i r c u i t s de s61ec t i on e t d e c o n v e r -

s i o n n u m 6 r i q u e - a n a l o g i q u e d e s d o n n 6 e s i n t r o d u i t e s

d a n s le s y n t h 6 t i s e u r de v o c o d e r e t d ' u n o s c i l l o s c o p e

m 6 m o i r e , u n s y s t 6 m e d e v i s u a l i s a t i o n a 6 t6 c o n s t r u i t

q u i p e r m e t d e s u i v r e e n t e m p s r6e l l ' 6 v o l u t i o n t e m p o -

r e l l e d e c e r t a i n s p a r a m 6 t r e s d e l a s y n t h ~ s e . Ce s y s t ~ m e

a s e r v i n o t a m m e n t h l a m i s e a u p o i n t d e s p r o g r a m m e s

q u i s e r o n t d 6 c r i t s a u x p a r a g r a p h e s V e t V I .

- - 4 0 8 - -

Page 5: Étude d’un système de synthèse de messages vocaux

t. 25, n ~ 11-12, 1!)701 SYSTb]I~IE DE SYNTHF?,SE

I V . V O C A B U L A I R E D E B A S E

I V . 1 . D 4 f i n i t i o n d u v o e a b u l a i r e .

Les m e s s a g e s fi s y n t h 6 t i s e r , d e s t i n 6 s h d o n n e r a u x

a b o n n 6 s des r e n s e i g n e m e n t s n u m 6 r i q u e s c o n c e r n a n t

p a r e x e m p l e la t a x a t i o n , p e u v e n t 6 t r e m i s sous la

f o r m e de p h r a s e s n o r m a l i s 6 e s d a n s l e sque l l es on

d i s t i n g u e des p a r t i e s fixes e t u n e ou p l u s i e u r s p a r t i e s

v a r i a b l e s : a ins i d a n s le m e s s a g e A la su i te de volre

derni~re c o m m u n i c a t i o n , votre compteur ind ique N taxes

de bases, o n a u r a d e u x p a r t i e s fixes. A la suite. . , ootre

compteur ind ique e t taxes de base a lors que la p a r t i e

v a r i a b l e e s t c o n s t i t u 6 e p a r le n o m b r e N qu i e o n t i e n t

l ' i n f o r m a t i o n p r o p r e h u n m e s s a g e p a r t i c u l i e r .

D a n s le s y s t 6 m e 6 tudi6 , les p a r t i e s fixes s o n t

e n r e g i s t r 6 e s e t s y n t h 6 t i s 6 e s en b loc , c ' e s t - h - d i r e qu ' e l l e s

s o n t c h a c u n e eons id6r6es du p o i n t de r u e du pro-

g r a m m e de s y n t h 6 s e e o m m e u n m o t u n i q u e rep6r6

p a r u n e ad re s se de d 6 b u t e t u n e ad r e s s e de fin.

Le p r o b l 6 m e de c o m p o s i t i o n p r o p r e m e n t d i t ne

e o n e e r n e d o n e q ue le n o m b r e N qu i se ra s y n t h 6 t i s 6

h p a r t i r de m o t s q u ' o n a p p e l l e r a dldmenls dtt hombre :

a ins i la s y n t h 6 se du n o m b r e 1 358 fe ra a p p e l success i -

v e m e n t a u x 616ments mil le , trois, cent, c inquan te e t hui t .

33 616ments s o n t n6cessa i re s p o u r s y n t h 6 t i s e r u n

n o m b r e q u e l e o n q u e e o m p r i s e n t r e 0 e t 999 999. On

t r o u v e r a sur le t a b l e a u 2 u n t a b l e a u de ces 616ments

DE MESSAGES VOCAUX 5/14 e t de l eu r s e a r a e t 6 r i s t i q u e s , a ins i que q u e l q u e s com-

m e n t a i r e s d ' u t i l i s a t i o n . ( L a s i g n i f i c a t i o n de la du r6e

n o m i n a l e se ra pr6cis6e a u p a r a g r a p h e V.)

On v o i t en p a r t i e u l i e r q u e d a n s c e r t a i n s cas u n

m 6 m e m o t 6er i t ( q u a t r e , e inq , s ix, h u i t , d ix , v i n g t )

d o i t 6 t re r e p r 6 s e n t 6 p a r p l u s i e u r s 616ments : p a r

e x c m p l e d ix se p r o n o n e e dis l o r s q u ' i l e s t le d e r n i e r

616ment d ' u n n o m b r e , diz l o r s q u ' i l p r6c6de h u i t ou

n e u f e t di l o r s q u ' i l p r6e6de mi l le .

C e p e n d a n t e e t t c a u g m e n t a t i o n d u n o m b r e des

616ments ne se t r a d u i t p a s n 6 c e s s a i r e m e n t p a r u n e

a u g m e n t a t i o n du v o l u m e occup6 en m 6 m o i r e p a r le

v o c a b u l a i r e : a ins i les m o t s CIN, SI , U1, DI, VI~r n ' o n t

p a s d ' e x i s t e n c e p h y s i q u e p r o p r e d a n s la m 6 m o i r e de

v o c a b u l a i r e : l o r s q u ' o n a b e s o i n de ces 616ments , on

v i e n t l i re le d 6 b u t des roo t s CINQ, S I S ,..., c o r r e s p o n -

d a n t s e t l ' o n s ' a r r 6 t e a v a n t la c o n s o n n e f inale qu i

e s t 61id6e d a n s la p r o n o n c i a t i o n o r d i n a i r e .

D ' u n e m a n i 6 r e g6n6ra le , on a c h e r c h 6 d a n s ce

p r o g r a m m e de s y n t h 6 s e h r 6 d u i r e a u t a n t q u e poss ib l e

le v o l u m e de la m 6 m o i r e de v o c a b u l a i r e q u i t t e h

c o m p l i q u e r u n peu le p r o g r a m m e d ' a s s e m b l a g e .

Ains i , m 6 m e les n o m b r e s qu i p r 6 s e n t e n t u n c a r a e t 6 r e

p a r t i c u l i e r ( c o m m e 17 ou 80) o n t 6t6 t r a i t 6 s d a n s le

c a d r e g6n6ra l e t a s s e m b l 6 s h p a r t i r de l eurs 616ments

(e t n o n p a s eons id6r6s c o m m e des 616ments en eux -

m 4 m e s ) .

Le v o l u m e t o t a l oecup6 en m 6 m o i r e p a r ces 616ments

de v o c a b u l a i r e es t d ' e n v i r o n 35 000 616ments b i n a i r e s .

TABLEAU 2

Tableau des dldments ndcessaires pour la synlhdse des hombres

MOT

ZERO [JNE D E U X TBOIS QUATRE CINQ S I S SEPT HUIT N E U F DIS ONZE DOUZE TBE IZE QUATORZE QUINZE SEIZE E T D I Z CENT V I N T T R E N T E QUARANTE CINQUANTE SOIXANTE UN C1N $1 UI DI V I N MILLE QUA TRE

Dur6e nominale (en ms)

525 400 350 400 425 600 425 525 400 375 375 525 525 575 75O 575 575 100 325 375 425 55O 55O 65O 65O 250 225 225 2O0 2OO 35O 450 450

Occupation m6moire (hombre d'e.b.)

1 344 1 024

896 1 024 1 088 1 536 1 088 1 344 1 024

960 960

1 344 1 344 1 472 1 920 1 472 1 472

256 832 960

1 088 1 408 1 408 I 664 1 664

640 576 576 512 512 896

1 152 1 152

Commentaires

dernier 614ment d 'un hombre

comme dans vingl el une comme darts dix-huit

comme dans vingt-einq

comme dans cent un mille comme dans cinq mille (partie de CINQ) comme dans six mille (partie de SIS) comme dans huit mille (partie de HUIT) comme clans dix mille (partie de D1Z) comme dans vingt mille (pattie de V I N T )

comme dans qualre-oingt

- - 4 0 9 - -

Page 6: Étude d’un système de synthèse de messages vocaux

6/14

IV.2. Enregistremen~ du vocabulaire.

Pour obtenir les donn~es concernant les ~l~ments qui v i ennen t d '6tre d~finis, on a d 'abord essay6 une m~thode eonsis tant it faire prononcer par un locuteur des nombres de longueur moyenne, it analyser ces nombres au voeoder, puis it les segmenter.

Cependant , outre les dilTmult~s propres it l 'op6rat ion de segmentat ion, que celte-ci soit r~alis~e acoustique- men t ou au vu des listes d '~chanti l lons imprim6s en

code vocoder, cette m~thode pr6sentai t l ' inconv~nient de met t re en ~vidence, d~s l ' enregis t rement du voea-

bulaire de base, les probl~mes li6s au contexte des 616ments, l 'a l lure des ~l~ments enregistr~s d(~pendant de la na tu re des 61~ments voisins et de leurs positions dans le nombre pronone6.

Aussi nous a-t-il sembl~ pr~f6rable, afin de dissoeier a u t a n t que possible les probl~mes d 'enregis t rement et de corrections du vocabulaire de base et les pro- blames li(~s au contexte (variat ions de ry thme et d ' in tona t ion) qui devaient ~tre ~tudi~s par la suite, d 'enregistrer au d~part les 616ments dans le contexte

minimal . Les roots ont doric ~t~ enregistr~s isol6ment sur une bande magn~t ique (it quelques exceptions pros comme DIZ obtenu par segmentat ion de dix-huil ou ET par segmentat ion de vingt ET un) avan t d 'etre

soumis it l 'analyse du vocoder. Le locuteur choisi, h la suite de tests d 'opinion sur

la qualit~ de diff~rentes voix ayan t subi un t r a i t emen t d 'analyse-synth~se par vocoder, ~tait un locuteur mascul in de voix re ]a t ivement grave, mais sans accent part iculier . Du fait de ses fonctions d 'op~rateur au service de t616phonom~trie du d~par tement Etudes et techniques d 'acoust ique du CNET, il ~tait de plus par fa i t ement habi tu6 ~ contr61er le n iveau et le d~bit de sa voix au cours des diff~rents enregistrements.

IV.3. Corrections des donn~es d'analyse.

On a d~jh fait allusion au paragraphe I I I it ces corrections sur le vocabulaire de base qui sont fonda- mentales pour am~liorer la qualit~ de la voix synthS- tique. L 'exemple des ~tudes menses (*) dans le domaine des unit~s it r6ponse vocale u t i l i sant un synth~tiseur de type vocoder, mont re en part iculier que l'61abo- ra t ion du vocabulaire const i tue en fait la plus grosse part ie du t ravai l n~cessaire pour obtenir une qualit~ commerciale avec un syst~me de synth~se par roots [6]. La m~thode employee (**) qui consiste it au tomat iser au m a x i m u m les t ra i t ements de correction par des pro- grammes sp6cialis~s se justifie par le fait qu 'une grande

quant i t6 de roots doit ~tre analys~e et corrig6e (de l 'ordre de 1 000 mcts en langue anglaise par exemple).

E n revanche, pour la r~alisation exp~rimentale ~tudi6e au CNET, le vocabulaire cst de pet i te taiIle et les corrections ont 6t6 faites ~ la main, c'est-it-dire par un op~rateur u t i l i san t le programme d 'entr~e sur

machine h ~crirc de donn6es vocoder dont on a parl5 au paragraphe I I I ; le contrSle acoustique par compa- raison entre la synth~se du mot d 'origine et du mot

(*) A la soci6t6 I.B.M. (**) Aux laboratoires de La Gaude.

J. PONCIN [A.~.XAL~S DES 'FELI~COMMlYNICATIO.NS

corrig5 permet ta i t de juger de la validit5 des cor- rections introduites. Certaines de ces corrections, qui n~cessitent de la par t de l 'op6rateur une bonne connais- sance du codage de la parole par vocoder, on t ~t~ d~finies empir iquement par essais successifs. La p lupar t cependant sont plus syst~matiques et assez analogues it celles raises en oeuvre par programme dans d 'au t res laboratoires (*).

Elles concernent essentiel lement la valeur de la

fr6quence fondamenta le et les spectres des siffiantes.

On sait que le d~tecteur de mdlodie qui mesure la fr~quence fondamenta le it l 'analyse et op~re la dis- t inc t ion entre sons vocalists et sons non vocalists est une des parties les plus d61icates des vocoders. Quelles que soient les ameliorat ions apportdes sur ce point aux derniers prototypes de vocoders utilis6s, certains d~fauts demeuren t qu' i l est essentiel de corriger quand on salt l ' influence qu ' a ce param~tre de vocalisation sur la qualit~ de la voix synth6tique.

Les pr inc ipaux d~fauts constat~s et corrig~s sont la presence de vocalisation parasite it des ins tants de non-vocal isat ion, l 'absence de vocalisation pendan t des p6riodes vocalis6es (en part iculier au d~but et it la fin de ces p~riodes, le d~tecteur de m~lodie ayant , par nature , une certaine inertie) et enfin l ' indicat ion des valeurs erron6es de la fr~quence fondamenta le (fr6quence double ou fr~quence moiti6, par exemple).

Les d~fauts perceptibles h la synth~se sur la resti- tu t ion des sons de siffiantes on t une autre origine qui est la l imi ta t ion vers le hau t de la bande de fr6quences d 'analyse : on salt que le m a x i m u m d'~nergie d ' un spectre de S par exemple est situ~ aux environs de 7 000 et 8 000 Hz, c'est-it-dire largement au-delit du dernier canal d 'analyse. Pour corriger ce d6faut, la meilleure m~thode est d ' in t rodui re artificiellement de l '~nergie dans les deux ou trois derniers canaux, ce

qui donne subjec t ivement de bons r6sultats.

IV.4. Programme de traduction : pr6paration de l'assemblage du message brut.

On vient de voir comment on pouvai t obtenir les ~16ments d ' un vocabulaire de base de bonne qualitY. Ces 61~ments, dont la longueur ne peut na ture l l ement ~tre normalis6e, sont d~finis dans la m~moire de donn6es par leurs adresses de d~but et de fin et d~sign6s dans le programme d 'assemblage h l 'aide d ' u n mot choisi dans une table d ' indexa t ion qui comprend la liste de ces adresses groupies deux par deux.

Le rSle du programme de t raduc t ion est d ' intcr-

pr6ter une demande concernant la synth~se d ' un nombre particulier, de mani~re h fournir la liste

chronologiquement ordonn~e des 61~ments n6cessaires. Dans l ' exploi ta t ion future du syst~me, la demande sera formul6e par le calculateur appel~ Centre de

t r a i t emen t des informations dans le projet PLATON, dont l 'uni t~ it r~ponse vocale sera un p6riph~rique spdcial. Dans la phase d '~tude du syst~me, on a s implement simul~ cette demande par la frappe, sur le clavier de la machine it 6crire du calculateur, du nombre N h synth~tiser.

- - 410 - -

Page 7: Étude d’un système de synthèse de messages vocaux

t. 25, n ~ 11-12, 1970] SYSTI~ ,ME D E S Y N T H I ~ S E

Le nombre ddcimal est in t rodui t sous la forme d ' tme suite de 6 chiffres au m a x i m u m suivis d ' u n retour- chariot i nd iquan t la fin du message.

La t raduct ion de la forme ddcimale defile en forme ddcimale parlde s'effectue en deux passages prat ique- men t identiques concernant les centaines de mille, dizaines de mille et milliers d 'une part , les centaines, dizaines et unitds d ' au t re part . Chaque passage

s 'exdcute h son tour en trois ~tapes correspondant aux n iveaux des centaines, dizaines et unitds. Si le n iveau des centaines ne prdsente pas de difficultds, celui des dizaines et des unitds dolt prendre en compte toutes les part iculari tds propres h la prononcia t ion courante des chiffres en fran~ais, dont on ne donnera que quelques exemples. Les derni~res dizaines : soixante dix, qualre vingt, quatre vingt dix v iennen t rompre la r6gularitd qui existe entre vingt et soixante ; la p lupar t des nombres compris entre dix et vingt, onze, douze, etc. doivent ~tre traitds comme des pseudo-unitds. Le mot de liaison ET dolt ~tre in t rodui t pour obtenir vingt-ET-une, trente-ET-une, mats pas pour quatre-vingt-une, etc.

Si le rdsul tat principal fourni par ce programme est la liste des adresses symboliques des dldments, un sous-produit qui sera utilisd par la suite y est 6galement ob tenu sous la forme d 'un mot de code caractdrisant la s t ructure du nombre considdr~ (different, par exemple, su ivant que te nombre est plus pet i t que mille, qu ' i l se pr~sente sous la forme n~ mille n2 cent n a ou sous la forme mille n2 cent, etc.).

V. ]~TUDES SUR LE RYTHME

V. Importance du problSme des modifications de certains paramStres en fonction du contexte.

Disposant des donn~es de base et du programme de t raduc t ion d~fini au paragraphe prdc~dent, on peut r~aliser l 'assemblage d ' un message brut relatif h un hombre quelconque en j ux t aposan t dans une zone d'assemblage les donndes propres aux ~l~ments suc- cessifs extraites de la zone de dictionnaire. Ce message est ensuite transform~ en signaux acoustiques par l ' interm~diaire du synth~tiseur du vocoder. L'~coute d 'une sdrie de messages de ce type mont re que les nombres sont en g~n~ral d 'une qualit~ correcte du point de rue de l ' intelligibilit~, mats qu' i ls m a n q u e n t la p lupar t du temps de naturel . La voix synth~t ique garde, sur tou t sur les mots longs compor tan t plus de cinq 61~ments, un caract~re marqu~ de voix de machine.

L'analyse de ces d~fauts condui t h d~celer deux

causes principales aux differences constat~es sub-

j ec t ivement entre la voix synth~t ique et une voix naturel le : la premiere est relative h l ' i n tona t ion dans

la prononcia t ion : d a n s le message brut l ' i n tona t ion

sur chacun des dldments du nombre est figde, c'est- ~-dire qu'elle est d~termin~e par l '~volut ion de la valeur de la fr6quence fondamenta le sur les ~chan- tillons successifs des ~l~ments tels qu' i ls sont enre-

D E M E S S A G E S V O C A U X 7/14 gistr6s en nl~moire. Darts la prononcia t ion naturel le , au eontraire, l ' i n tona t ion n 'es t p r a t i quemen t pas dgfinie par la na ture de l '~lgment, mats par sa posit ion

l ' int~rieur du nombre, a u t r e me n t dit par son con- texte : il est bien connu, par exemple que l ' i n tona t ion tombe en fin de phrase, quel que soit le mot sur lequel se termine la phrase.

Le deuxi~me dgfaut est un dgfaut de dgbit dans

l '6loeution sur la voix synthgt ique : certains gl6ments semblent prononc6s trop len tement , d 'aut res trop rap idement ; les diffgreuts gl6ments du message ne semblent pas assez lids. I1 s 'agit, lh encore, d ' un probl~me de contexte puisque dans la voix naturel le les durges des phonemes de certains glgments sont variables en fonetion des glgments voisins auxquels ils se t rouven t raceordgs.

Pour am~liorer la qualitg de la prononcia t ion et s 'approcher le plus possible d 'une voix qui paraisse naturel le h l ' audi teur , il ~tait done n~cessaire d '~tudier

en d6tail les deux probl~mes du ry thme et de l ' into- na t ion de mani~re h met t re au point des programmes de modificat ion des param~tres correspondants sur les donn~es de synth~se avan t l 'assemblage dSfinitif du message.

V.2. Choix du principe de modulat ion du d6bit.

L'~tude du param~tre de ry thme, dont l ' impor tance est pr~pond~rante pour la qualit~ subject ive du message, a ~t~ entreprise en premier.

A va n t de d~terminer ~ quels endroits, sur quels dl5ments et dans quel contexte le ry thme devai t ~tre

modifid par rappor t h celui du message brut, il convenai t de d~finir la m6thode qui serait appliqude pour moduler le d~bit. On vient de voir que cette modula t ion dolt permet t re de faire varier la dur~e de certains phon~ines par rappor t ~, leur dur~e d'origine. Si l 'on se rapporte h la representat ion des sons selon le codage vocoder, on volt qu ' un phoneme est caract~ris~ par plusieurs spectres extraits h des intervalles de temps dis tants d 'une p~riode d '~chanti l lonnage. Deux m~- thodes sont done possibles pour faire varier la dur~e

du phoneme h la synth~se : ou bien changer le nombre d '~chant i l lonnage en conservant la m~me pdriode de renouvel lement , ou bien garder le mdme nombre d '6chanti l lons et faire varier la p~riode.

C'est cette derni~re m~thode qui a ~t~ re tenue : elle est en effet beaucoup plus simple puisqu'el le ~vite toute man ipu la t ion sur le spectre et qu'elle permet de consid~rer un ~l~ment comme constitu~ d ' u n nombre fixe d'~chantil lons.

D 'au t re part , sa mise en oeuvre peut ~tre r~alis~e

par t ie l lement ou to ta lement sous forme c~bl~e, ce qui d~charge d ' a u t a n t le programme de synth~se du calculateur.

Les var ia t ions de ry thme ~tant tr~s locales (clles concernent moins de dix ~chantillons successifs la

p lupar t du temps), il est apparu que l 'u t i l isa t ion de

cadences d '~chant i l lonnage ne t t e me n t discontinues ne pr~sentai t pas d ' ineonv~nient et qu 'on pouvai t

- - 411

Page 8: Étude d’un système de synthèse de messages vocaux

8/14 en prat ique se contenter de deux cadences seulement. L 'une , dite rapide, condui t & une p6riode de renou- veUement des 6ehantillons ~ la synth6se de 12,5 ms, l 'autre , normale, & une p6riode de 25 ms, ce qui correspond & la p6riode d '6ehanti l lonnage, ~ l 'analyse et h la dur6e nominale des ditt6rents mots.

Pour commander l 'u t i l i sa t ion de l 'une ou l ' au t re de ces cadences, chaque 6chantil lon du message assembl6 sera marqu6 h l 'aide d ' un 616ment binaire (dit 616ment binaire de rythme) qui, interpr6t6 par le programme de sortie des donn6es vers le synth6- tiseur, d6clenche l 'envoi d ' un signal de commande vers le g6n6rateur d ' impuls ions du bloc de liaison. Chaque 6chanti l lon d6finit ainsi lui-m6me la dur6e pendan t laquelle il doit 6tre ma in t enu en synth6se avan t d '6tre remplac6 par le suivant . Ce principe

simple permet d 'cnvisager un fonc t ionnement auto- nome d ' u n synth6t iseur mun i d 'une peti te m6moire t a m p o n auquel le calculateur fournirai t seulement les donn6es en blocs et sous un format s tandard, l 'ensemble des op6rations de d6eodage de l'616ment binaire de ry thme et de commande de la fr6quenee de renouvel lement 6tant r6alis6 par un dispositif

c~bl6.

V.3. Principe du marquage : les roots de rythme.

On vient de voir comment l 'u t i l isa t ion de donn6es marqu6es pe rmet ta i t d 'ob ten i r un ry thme variable

la synth6se. Ce marquage sera pr6par6 par le sous- programme qui sera d6crit au w V.4 et ex6cut6 au momen t du t ransfer t des donn6es de la zone de dic- t ionnaire dans la zone d'assemblage. Pour faeiliter les explications concernant ce marquage, nous pren- drons l 'exemple de l'616ment ONZ~. du vocabulaire (Fig. 3). L '6tude exp6rimentale sur le ry thme des 616ments dans diff6rents contextes montre que l'616ment ONZE peut avoir trois configurations ryth-

miques diff6rentes. Lorsque l'616ment est isol6 (votre compleur indique

11 taxes de base), aucun marquage n 'es t & pr6voir

J . P O N C I N [ANNALES DES TI~L~COMMUNICATIONS

sur les donn6es de synth6se : t o u s l e s 6chantil lons dureront 25 ms.

Lorsque l'616ment est utilis6 dans 71, le milieu du mot dolt 6tre acc616r6 : les 6chantil lons 8 h 13 por te ront donc le marquage rapide.

Enfin lorsque l'616ment est suivi de mille (comme dans 11 000, 71 000, 91 000), c 'est toute la fin du mot qui doit 6tre acc616r6e : les 6chantil lons h marquer sont dans ce cas les 6chantil lons 8 h 20.

Cet exemple permet de voir que pour r6aliser le marquage sur un 616ment, deux sortes de renseigne- ments doivent 6tre eonnus :

1. quelles sont, dans l'616ment consid6r6, les limites des zones susceptibles d '6tre marqu6es ?

2. quels sont, pour un contexte donn6 de 1'616ment,

les marquages h appliquer dans ces zones ?

Ces renseignements sont de na tu re diff6rente : le premier, en effet, est propre & l'616ment lui-m6me ; il peu t donc 6tre inscrit au m6me t i t re que les donn6es concernant les spectres des 6chantil lons successifs de l'616ment dans la m6moire de dictionnaire. Ainsi pour l'616ment ONZE, on indiquera que des changements de ry thme sont susceptibles d ' in te rveni r au 8 e et au 13 e 6chantillon, l '616ment 6 tant divis4 en trois zones de rythme. Ces indicat ions seront mat4rialis6es dans

les donn6es de dict ionnaire par un marquage d ' un 616ment binaire part iculier sur l '6chant i l lon 8 et sur

l '6chanti l lon 13. Le deuxi6me renseignement qui fait in terveni r le

contexte sera, lui, ob tenu par un programme (voir w V.4) fonc t ionnan t sur le m6me principe que le programme de t raduc t ion : on se souvient que ce dernier permet ta i t de pr6parer l 'assemblage du nombre en dressant la liste des adresses symboliques des 416- ments h utiliser. Le programme de ry thme pr6parera de m4me les marquages & effectuer dans la phase d 'assemblage en d6 te rminan t dans une liste parall61e

la premi6re, les mots de ry thme & utiliser pour

chaque 616ment. Chaque mot de rgthme eont iendra a u t a n t d'616ment s

binaires qu ' i l y a de zones suseeptibles d '6tre marqu6e s

10 10 11 11 10 7 7 7 7 6 4 6 5 4 150 10 10 1212 10 8 8 .7 7 6 6 8 6 5 151 10 12 13 13 10 9 8 8 8 7 7 8 7 6 152 10 13 13 13 12 9 9 9 9 8 8 8 7 6 153 11 13 13 13 12 9 9 8 8 7 8 8 7 6 154

ON 11 13 13 13 10 9 8 6 8 6 8 8 6 6 131 11 13 13 12 9 8 7 6 6 5 6 4 5 5 156 11 12 11 11 8 8 6 5 0 5 6 7 5 4 153 10 11 11 10 8 7 7 6 6 5 5 6 5 3 152 10 8 0 8 8 4 4 4 4 6 4 5 7 8 151 8 6 7 5 4 4 4 5 5 5 5 7 9 11 150 6 5 6 4 4 5 6 5 6 6 5 7 10 11 149

Z 7 6 6 4 5 5 5 6 6 5 6 710 11 148 9 8 6 7 6 7 6 6 6 6 5 7 9 9 147 11 10 10 10 9 10 9 7 6'7 6 6 5 5 145 10 9 11 10 9 9 9 7 6 7 5 6 6 6 143

E 9 6 7 7 7 7 6 0 5 6 3 4 4 5 0 12 9 7 8 7 810 7 5 8 6 8 7 5 145 10 10 9 9 7 7 9 7 5 4 4 5 6 5 143 7 9 8 6' 5 5 7 5 4 4 4 5 6 5 142

1 2 3 4 5 6 7

?

12 N 14 15 16 17 18 19 -~0

"11 71 11 000

!

N I N

R?

Fro. 3. - - Diff6rentes configurations rythmiques de l'616ment ONZE (N = cadence normale; R = cadence rapide).

- - 4 1 2 - -

Page 9: Étude d’un système de synthèse de messages vocaux

t. 2 5 , u ~ 11-12 , 1970]

dans l ' 6Rment consid6r6, chaque 616ment binaire

f ixant le marquage part iculier ~ appliquer ~ chaque

zone. Si l 'on reprend l 'exemple de l ' 6Rment ONZ~ qui

comprend trois zones, les diff6rents roots de ry thme utilis6s auron t les configurations suivantes : 000... pour 11, 010... pour 71, 011... pour 11 000, 71 000 91 000 ; l '6Rment binaire 0 caract6risant le marquage

S Y S T ~ M E D E S Y N T H / ~ S E D E 3 I ] ~ S S A G E S V O C A U X 9/14

une configurat ion sans aucune var ia t ion de r y t h m e qui correspond h la prononcia t ion de l '616ment isol6

ou plac6 h la fin du n o m b r e ; on se souvient que c 'est pr6cis6ment dans ces condit ions que les diff6rents 616ments on t ~t6 enregistr6s lors de la prepara t ion du

vocabulaire. On peut d ' au t re par t r6part ir la p lupa r t des 6Rments

en classes qui suivent les m6mes r6gles de ry thme

[ 0 I ll.l[ 0 I Mot de rythme pour 71 -,...

,ElSment 1 i t I

i

t3 I t I

20

Fro. 4.

tk'lc]r'qu_.aage des lim}tes de zones~

~ho . t i ,o . I o| | ! ,

J 8 4 I . i :o ONZE 13 '5~] : ~

echantiIlon 20 o 1 Donnees de dlctionnairr

blnaire de rythm~e

"o 1

't t ONZE dons 71 - - - t (donnees marquees

0 } pour" Io synth~se)

ol - - Principe du nmrquage de rythme.

normal et l'616ment binaire 1 le marquage rapide. La figure 4 donne un schema des op6rations de marquage

qui v i ennen t d'6tre d6crites. I1 est clair que cette m6thode de modificat ion du

r y t h m e pr6sente une grande souplesse puisqu'el le ne suppose aucune normal isa t ion des 6Rments, ni en ce qui concerne le nombre et les dimensions des zones de ry thme, ni en ce qui concerne le nombre de roots de ry thmes diff6rent qui peuven t leur 6tre appliqu6s.

La d6terminat ion des zones de ry thme h l ' int6rieur de chaque 616ment ainsi que la na ture des marquages n6cessaires dans les diff6rents contextes de l'616ment on t fair l 'ob je t d 'une 6tude exp6rimentale : celle-ci a 6t~ men6e h par t i r des programmes de t raduc t ion et d 'assemblage du message b ru t d6jh d6finis et d ' un programme de marquage manuel des 6chantillons, l 'op6rateur f ixant lui-m6me les limites des zones et le marquage h l ' in t6r ieur de ces zones avan t d '6couter le r6sultat obtenu.

Les conclusions de cette 6tude peuven t 6tre brRve- m e n t r6sum6es : tou t d 'abord aux 33 6Rments de vocabulaire correspondent 70 configurations ry th-

miques, 10 616ments (z6ro, une, cinq, sis, et, un, cin, si, ui, di) n ' o n t qu 'une configurat ion possible corres-

p o n d a n t au ry thme normal sur toute la dur6e de l'616ment, ce qui peu t s 'expliquer par le fait qu'i ls

sont g6n6ralement employ6s dans un contexte f ix6;

12 616ments on t 2 configurations ry thmiques possibles ; 10 616ments en on t 3 et seul l'616ment sept en n6cessite 6. Dans ees groupes de configurations figm'e toujours

dans un contexte donn& Ainsi les 616ments deux a neu[ doivent 6tre acc6Rr6s

sur leur phoneme f n a l lorsqu'ils sont suivis de l'616- men t cent ou de l'616ment mille (acc616ration r6alis6e par te d6eoupage dont on a d6jh parl6 dans le cas de cinq, six et huit).

De la m6me manibre, les 616ments onze h seize doivent 6tre acc616r6s lorsqu'ils sont suivis de l '616ment mille. L'acc616ration porte toujours sur la fin de l'616ment (c'est-h-dire sur le ze), mais elle est plus prolong6e que pour la classe pr6c6dente, conduisant h des r6duc- t ions de dur6e de l 'ordre de 25 %.

Enfin, les 6Rments trente ~t soixante doivent 6tre acc616r~s sur la fin, c 'est-h-dire sur les sons ante quand ils sont suivis d 'un chiffre (eomme dans 32 ou 64) et acc616r6s au d6but de l'61~ment lorsqu'i ls sont pr6c6d~s du mot cent, ces deux types d'aec616ration pouva n t 6tre superpos6s pour obtenir une pronon- clarion correcte de hombres comme 132 ou 264.

L'existence de ces classes et le pet i t nombre de cas particuliers qui ne peuven t y 6tre inclus (par exemple le eas de mille ou du vingt de 80) pe rme t t en t d 'envisa- ger l '6cri ture d ' un programme de traduction rylhmique dont on parlera au paragraphe suivant .

Deux points m~ri tent cependant d'6tre not6s au

pr6alable : t ou t d 'abord l '6tude exp~rimentale du

ry thme a montr6 que les seules var ia t ions de ry thme

introduire 6talent des accelerations plus on moins prononc~es de eertaines parties des Ol6ments, mais qu' i l n ' y avai t pas lieu d ' in t roduire un ra lent i ssement

413

Page 10: Étude d’un système de synthèse de messages vocaux

10/14

qu 'on aurai t pu realiser d 'une mani~re symetr ique en ut i l i sant une cadence de renouvel lement h la synth~se plus lente que la cadence nominale (50 ms par exemple). Ceci t r adu i t le fair que c'est dans le contexte min imal

off ils on t 6t6 enregistres que les 616ments de vocabu- laire ont la plus grande duree. La deuxi~me remarque, qui resulte de cette constatation, est que le principe adopt6 pour la modula t ion du ry thme condui t h une augmenta t ion du debit moyen de l ' in format ion nume- rique envoyee au synthet iseur du vocoder.

Compte tenu de la duree des marquages rapide sur les elements par rappor t h la duree totale et en sup- posant une probabil i t6 uniforme d ' appar i t ion des differents nombres, on peut chiffrer cette augmen- ta t ion h environ 10 % du debit qui passe ainsi de 2 500 e.b. h 2 750 e.b./s en moyenne. Ce debit res tan t modeste, il ne semble pas que ce soit lh un inconve-

n ien t redhibitoire du proced6 propose.

V.4. Sous-programme de choix des roots de ry$hme.

Ce sous-programme const i tue la t raduc t ion des observations experimentales qu 'on v ient de decrire et s'ins~re dans le programme general de synth~se d ' un message entre la phase de t raduc t ion definie au paragraphe IV-4 et la phase d 'assemblage des donnees de synth~se. P a r t a n t des resul tats du programme de

t raduct ion, liste chronologique des elements et codage de la s t ructure du nombre, il elabore au moyen de sous- programmes propres /~ chaque classe ry thmique une liste de roots de rythme parall~le ~ la liste des 616ments.

Les adresses symboliques des elements sont lues successivement et or ien tent le deroulement du pro- gramme vers le sous-programme appropri6 off le mot de ry thme est determine en fonction du contexte.

Ce contexte in te rv ien t sous deux formes. S'il s 'agit du contexte post6rieur, on recherchera l '~lement sui- r a n t et l 'on p rendra une decision en fonction de sa

nature . S'il s 'agi t du contexte ant~rieur, on uti l isera des marquages prepares precedemment : on saura par de tels marquages si l '61~ment cent ou mille a dej~ 6t6 rencontre, si un element de dizaine (dix, vingt... quatre vingt clix) precede l'616ment d 'uni t6 qu 'on

6tudie, etc. Les mots de rythme sont ehoisis dans une liste de

10 mots p e r m e t t a n t de deerire les 70 configurat ions partieuli~res des elements.

L'616ment mille presente une part iculari t6 du fait que dans eertaines configurations, il doit etre prolong6

par quelques 6chantil lons de silence ce qu 'on realise par une modificat ion de l 'adresse de fin de l'616ment.

VI. ]~TUDES S U B L'INTONATION

VI.1 . R61e du parambtre d'intonation.

Comme on l 'a d6jh signal6, l '6 tude exp6rimentale des effets subjectifs produi ts par des modificat ions

J . P O N C I N [Ax~ALES DES T~L~;COMt~IUNICATIONS

sur differents param~tres de l'61ocution a montr6 l ' impor tance preponderante du param~tre de ry thme pour l ' intell igibili t6 du message synthet ique. I1 semble que le param~tre d ' i n tona t ion in terv ienne beaucoup moins sur ce plan : en particulier, il est bien connu que la voix chuchotee, oh toute in tona t ion est sup- primee, est p ra t iquement aussi intelligible que la parole normale [7]. En ce qui concerne la voix synth6- t ique, il est par t icul i~rement facile, dds que l 'on dispose d ' un calculateur et d ' u n synth~tiseur vocoder, de modifier par programme la valeur de la m61odie sur un message conserve en memoire : on a pu faire ainsi l 'exp6rience de la synthbse d 'une phrase off la fre- quence fondamenta le de la voix 6tait successivement :

- - m u l t i p l i e e par 2 par rappor t h la frequence d6tect6e h l 'analyse (voix 2 lois plus aigue) ;

- - divis6e par 2 ;

- - to ta lement supprimee ( tous les sons 6 tant repro- duits comme des sons non vocalis6s, ce qui se rapproche des condit ions de la voix chuchotee) ;

- - fixee ~ une valeur cons tante sur toute la duree de la phrase.

On a verifi6 que darts tous les cas l ' intell igibil i t6 6tait conservee, meme pour des audi teurs non habitu6s. En revanche, le na ture l de la voix est p rofondement affect6 par ces diverses modifications. La voix la plus desagreable h l'oreille, celle qui donne le plus l ' impres- sion d 'e t re une voix de machine est la voix synthe t ique

frequence fondameutale constante , ce qui confirme l ' in te re t d ' in t roduire h la synthese une modula t ion de l ' i n tona t ion pour ameliorer la qualit6 subjective

du message. Ces operations sur l ' i n tona t ion sont facilit6es par

le principe du codage vocoder off la m61odie est repr6sent6e par un param~tre num6r ique independant , la periode de l 'exci ta t ion vocale. Ceci permet, h l 'analyse, d '6tudier les emplacements des sons voca- lises (emplacements qui devront 6tre darts t o u s l e s cas respect6s h la syuthbse quelle que soit la valeur que l 'on decide de donner en ces points fi la p6riode fondamentale) et d 'observer faci lement les var ia t ions de la m61odie au cours du temps sur la parole naturene . A la synthese, c 'est la valeur de ce param~tre qui sera programm6e eu fonction des r~gles qu 'on aura pu ainsi definir.

VI.2. Etude exp6rimentale de l ' intonation sur les nombres.

Les var ia t ions d ' i n tona t ion au cours de la pronon-

ciation des nombres ont fait l 'ob je t d 'une 6tude expe- r imentale analogue ~ celle menee sur les probl~mes de rythme. Cette etude a consist6 h analyser differents

types de nombres prononc~s dans le contexte choisi

pour ten ter de d6terminer des lois generales de varia- t ion du param~tre d ' in tona t ion . L ' u n des moyens d 'ana- lyse utilis6, en compl6ment des indicat ions chiffrees fournies par le calculateur et t r adu i san t les donnees vocoder, a 6t6 le syst~me de visual isat ion don t on a parle au w III .3 dont l ' int6r~t est de fournir en temps

414 - -

Page 11: Étude d’un système de synthèse de messages vocaux

t. 25, n os 11-12, 1970] S Y S T E M E D E S Y N T H E S E

r6el des renseignements sur l 'a l lure des variations. Les trois principales conclusions de cette 6tude sont

les suivantes.

- - Tou t d ' abord les var ia t ions de la fr6quence de m61odie F di rectement li6e h l ' i n tona t ion comme on v ien t de le voir, on t une ampl i tude limit6e h 20 ~ environ de la valeur moyenne de la m61odie ; cette valeur moyenne d6pend 6videmment de la voix du locuteur choisi, qui dans le cas consid6r6 6tait assez grave avec une fondamenta le de 110 Hz environ. I1 con- v ient de respecter ces limites (120 Hz /> F ~> 100 Hz) sous peine d 'obteni r une voix trop chan tan te et peu naturelle.

- - il existe des var ia t ions globales de la m61odie au cours de la prononcia t ion : un nombre peut 6tre sch6mat iquement repr6sent6 comme une suite de segments off la fr6quence de m61odie est successive- m e n t croissante et d6croissante.

Le sens de ces var ia t ions sur chaque 616merit semble avoir plus d ' impor tance subjective que la valeur absolue de la fr6quence t a n t qu 'on reste darts les l imites dont on v ient de parler : ainsi la fr6quence de m6lodie est toujours croissante sur le dernier 616ment d ' u n nombre.

Ces sens de var ia t ions sont fonction du contexte qui ne joue cependant pas de la m6me mani~re que dans le cas du rythme. Plus que le contexte imm6diat (na ture des 616ments voisins), c 'est le contexte global qui est ici i m p o r t a n t ; ainsi pour d6terminer le sens de var ia t ion sur un 616merit particulier, il faut le plus souvent consid6rer la longueur du nombre auquel il appar t i en t et sa position par rappor t aux 616ments cl6s que sont l'616ment mille, les deux 616merits cent (centaines de mille et centaines) et le dernier 616merit du Hombre.

- - A c e s variat ions globales, se superposent des var ia t ions locales de na tu re plus complexe. Ces varia- t ions sont n~gligeables pour les 61~ments courts (comme six, vingt, cent, etc.), mais elles p rennen t une certaine importance pour les 616merits longs (comme mille, quatorze, soixante, etc.) et il convient d 'en tenir compte pour 6viter la monotonic qui nai t d 'une var ia t ion trop r6guli~re de la fr6quence fondamentale synth6t ique et provoque une impression subjective assez analogue h celle d 'une voix synth6t ique h fr6- quence fondamenta le constante. On a consid6r6, en premiere approximat ion, que ces var ia t ions locales 6taient propres aux 616merits donc ind6pendantes de tou t contexte. Ceci permet d 'en conserver les caract6- ristiques en m6moire de dict ionnaire au meme t i t re que les autres donn6es (spectres successifs et limites des zones de rythme).

D E M E S S A G E S V O C A U X 11/14

para t ion permet de dresser, au moyen d ' u n algorithme t radu i san t l ' influence du contexte, une nouvelle liste de roots d'intonation parall61e aux deux listes d6jfi

construites qui con t iennent les noms des 616ments et les mots de ry thme. Le param~tre d ' in tona t ion pour le vocoder 6tant la p6riode de m61odie, les roots d'intonation cont iendront l ' indicat ion de la pente globale sur chaque 616ment qui correspondra h l 'une des variat ions suivantes : augmenta t ion de la p6riode de mglodie de 64 ~s fi chaque p6riode d '6chant i l tonnage vocoder ; d iminut ion de 64 t~s; augmenta t ion ou d iminut ion de 128 ~zs.

Dans la deuxi~me phase, qui s 'ex6cute au m o m e n t du t ransfer t des donn6es de la zone de vocabulaire dans la zone d 'assemblage, la p6riode de m61odie synth6t ique est calcul6e pour chaque 6chantil lon su ivant les formules :

(l) T~ ~ O, si T i ~ 0 k k

(2) T~ = T O + kpj § T~,

off :

T~.

si T i , # 0 ,

est la p6riode de m61odie synth6t ique sur l '6chan- ti l lon k,

T~ est la m61odie locale de l '6chanti l lon k dams la m6moire de dictionnaire,

k est le num6ro de l '6chanti l lon h partir du d6but de l'616ment ],

p~ est la pente globale (mot de rythme) de l'616ment ],

T o est une valeur initiale ident ique pour t o u s l e s 616merits (et 6gale fi la p6riode de m61odie moyenne) saul pour les 616merits deux h neu/ lorsqu'ils suivent imm6dia tement l'616ment mille pour lesquels on choisit une valeur initiale plus grande.

La formule (1) correspond fi un 6chantil lon non vocalis6 : eette indicat ion caract6ris6e par T~ = 0 sur les donn6es de dict ionnaire est s implement repro- duite sur les donn6es du message assembl6.

La formule (2) t r adu i t la superposit ion des deux types de variat ions : var ia t ion globale lin6aire intro- duite par le facteur kpj et var ia t ion locale propre h

l'616ment apport6 par Tie. La valeur constante T o donn6e fi la p6riode de

m61odie synth6t ique au d6but de chaque 616merit permet de ma in ten i r cette p6riode ~ l ' in t6r ieur des limites de variat ions autoris6es sur toute la dur6e de l'616ment.

La figure 5 donne un exemple de ces op6rations et permet de comparer les allures de l ' i n tona t ion synth6t ique produi te par le programme et de l ' in to- na t ion naturel le d ' un locuteur pronon$ant le m6me H o m b r e .

VI.3. S o u s - p r o g r a m m e de synthbse de l ' into- nat ion.

VII. B ~ S U L T A T S

Pour t raduire ces r6sultats exp6rimentaux, un sous-

p rogramme de synth6se de l ' i n tona t ion sur les ncmbres

a 6t6 6crit sur un principe analogue h celui utilis6

pour le ry thme, en part iculier du fait de l 'ex6cution en deux phases. La premiere phase ou phase de pr6-

VII.1. Art iculat ion des sous -programmes .

On a d6taill6 dams les paragraphes qui pr6e~dent

les diff6rentes op6rations n6eessaires pour synth6tiser un message vocal con tenan t des informations ehiffr6es.

415

Page 12: Étude d’un système de synthèse de messages vocaux

12114

T } P~,"iode / m e l o d i e

"150

145-

M i'w-,\ ".2",,' 135 -

de la en multiple de 64 ~ls

i x \ ~,, x\

\ x �9 \ , _ . L , ;

/ /

:,-.,.. - /,,....- ..,

/ . /

/ .....

J . P O N C I N

\ \

.% \ \ \

i i " \ ! i

"\'1 I

I

\ I ".....

\ / , , , . . ..................

[ANNALES DES TELI~COMMUNICATIONS

,

\/,,,/ /

. , ! "'L i!

i \

V

t

/'-,.., /

:/

/ /

MILLE U HUIT CENT VINGT

...... "%..., \ : ....

\ /

HUIT Tem;s

FIG. 5. - - I n t o n a t i o n n a t u r e l l e e t i n t o n a t i o n s y n t h f t i q u e s u r le n o m b r e 4 8 8 8 .

.................. v a r i a t i o n s l o c a l e s d e l ' i n t o n a t i o n ,

. . . . . . . v a r i a t i o n s g l o b a l e s ,

p 6 r i o d e d e m61odie s y n t h 6 t i q u e ,

. . . . . . . p 6 r i o d e d e m61od ie n a t u r e l l e .

Le p rog ramme g6ndral est const i tu6 pa r l ' enchai-

nemen t des sous-programmes r6al isant ces op6rat ions. La figure 6 me t en 6vidence le d6roulement en t rois phases de ce p r o g r a m m e :

- - la premiere phase regroupe les sous-programmes de t radue t ion , de d6 te rmina t ion des roots de rythme

et des roots d'intonation. Dans cet te premiere phase, la question, repr6sent6e ici p a r la f rappe du nombre

sur la machine fi 6crire, est in terpr6t6e et l ' a ssemblage du message est pr6par6 pa r l '61aborat ion des trois

t ab leaux , d 'adresses symbol iques , de mots de r y t h m e et de roots d ' i n tona t ion ;

- - la deuxi6me phase r6alise cet assemblage clans

une zone de m6moire sp6ciale : les adrcsses symbol iques

p e r m e t t e n t de r e t rouve r les adresses r6elles des don- n6es vocoder co r re spondan t fi chaque 616ment dans la m6moire de dic t ionnaire . Ces donn6es sont t rans- f6r6es clans la zone d ' a s semblage et, p e n d a n t ce

t ransfer t , on r6alise les correct ions de r y t h m e et

d ' i n tona t ion su ivan t les pr incipes d6finis aux pa ra -

graphes u et u On ob t i en t ainsi les donn6es d6fini- t ives de synth~se re la t ives au nombre ~ inclure clans

le message ;

- - la t roisi~me phase ut i l ise le p rog ramme de sort ie

d e l ' i n fo rmat ion vers le vocoder : on commence pa r

synth6t i ser la p remiere p a t t i e de la phrase de con tex te don t les donn6es sont lues dans la m6moire de dic-

t ionnai re , puis le nombre fi pa r t i r de la zone d 'assem- b lage et enfin la deuxi6me pa r t i e de la phrase de contexte .

V I I . 2 . T e s t s d ' i n t e l l i g i b i l i t &

En fin d '6 tude du syst6me, une s6rie de tes ts a 6t6 effectu6e pour 6valuer l ' in te l l ig ibi l i t6 globale d e s

messages synth6tis6s.

On a util is6 dans ces tes ts des l istes de hombres al6atoires fabriqu6es pa r ea leu la teur qui apr~s t r aduc t ion , assemblage dans une phrase de con tex te et synth~se on t 6t6 enregistr6s sur magn6tophone et 6cout6s pa r qua t re op6ra teurs du service de t616phono- m6tr ie h t r ave r s un pos te t616phonique et darts les condi t ions classiques des essais t616phonom6triques.

Sur 1 600 mots , qua t r e fautes seu lement on t 6t6 relev6es, ce qui correspond /~ un t a u x d ' in te l l ig ibi l i t6 de 99,7 %. Ce chiffre peu t 6tre consid6r6 comme tr~s sa t i s fa i san t pour le p r o g r a m m e de synth~se, compte tenu des caract6r is t iques d ' in te l l ig ib i l i t6 propres aux syst~mes vocoder : ~ t i t re de r6f6rence, le vocoder util is6 en direct , c'est-/~-dire en bouc lan t la pa r t i e d ' ana lyse sur la pa r t i e synth~se ne donne que 60 % d ' in te l l ig ibi l i t6 aux loga tomes et 97 % aux roots dissyl labiques.

V I I I . G O N G L U S I O N

L'6 tude qui v ien t d ' e t r e d6crite 6 ta i t consid6r6e au d6par t comme une 6tude exp lora to i re sur la syn- th~se de messages parl6s. I1 s ' ag issa i t de savoir s ' i l 6 ta i t possible de r6aliser avec un 6quipement s imple une unit6/~ r6ponse vocale et d ' en d6finir les pr incipes.

- - 4 1 6

Page 13: Étude d’un système de synthèse de messages vocaux

t. 25, n o' t1-12, 1970] S Y S T I ~ M E D E S Y N T H I ~ S E D E M E S S A G E S V O C A U X 13/14

PHASE I

PHASE TF

Frappe .du nombre sur J a machine a ecrire I

!Sous_programme ] de troduction

5ous_ programme de rythme [

I Sous _ programme d'intonation

I Sous- programme I d'assembiage I du message ]

PHASE TiT

Sous_programme de sortie

0 0 X 2 1 X 3 3 X4

X5 X 6

5 8

Tableau des chii:fres Frappes

, [:>

, I >

, 1>

, I;>

022 i (,,-ois'~ 01o <3 I chirrres Fropp~'s I (cent) 356

(cinquante) 342 Dictionnaire J (huit) 275 <3 d'adresses

I . . . . s ym bol iqu es Tableau des adresses symboliques des el,~ments.

(rail!e) 0 0 1 ... Tableau des (t rots) 0 1 0 "-" <3 a dresses (,cent) 0 1 0 1 ... I symboltques

(cinquante) 0 1 0 1 0 I (huit) 0 I 0

Tableau des mats de rythme des elSments

(mille) [ * 1

(trois) l - 1 [Tableau des (cent) - 1 <3 adresses

(cinquante) - I symboliques (huh) + 1

Tableau des mats d'intonetion des elements

marquage_ d_e rvthme pSriode de melodie synthetlque

1 I Tob,eou des mille Lath. 2 <3 adresses

symbol iques

[~h. 19 .<1 Tableau des mats trois ! de rythme

l [~ ~'1 ITableou des mats ch. 35 ~ Jd'intonation

cent ' ~ J Dictlonnalre de -- - " 7 donnr vocoder

, I > ~]_~ Votre compteur indique mille J trois cent cinquante huit taxes de bose.

FI6. 6. - - Articulation des sous-programmes dans le programme g~n6ral de synth~se. Exemple du nombre 1358.

Le b u t 6tai t l imit6 pu i squ 'on s ' in t6ressa i t au cas pa r t i cu l i e r de messages courts en langue fran~aise r des informat ions chiffr6es, cas par t i cu l ie r au d e m e u r a n t for t i m p o r t a n t du po in t de r u e des app l ica t ions pra t iques .

On peu t affirmer en conclusion que ce b u t a 6t6 a t t e i n t et qua la val idi t6 des pr incipes de d6par t a 6t6 p a r f a i t e m e n t v6rifi6e. II s ' ag issa i t n o t a m m e n t de l 'u t i l i sa t ion d ' un synth6t i seur vocoder h canaux et d ' u n p e t i t ca lcu la tenr p e r m e t t a n t de r6aliser une synth~se de parole d 'un t ype in term6dia i re entre les deux proc6d6s classiques de la synthbse pa r j ux t a -

posi t ion des mats pr6-enregistr6s et de la synth~se par rbgles.

Les r6sul ta ts obtenus , en par t icu l ie r du po in t de r u e de l ' in tel l igibi l i t6 des messages synth6tis6s, per- m e t t e n t d ' env isager dans l ' imm6dia t la r6al isat ion d ' un p r o t o t y p e op6rat ionnel d 'uni t6 ~ r6ponse vocale pour l ' a u t o m a t i s a t i o n du service des rense ignements t616phoniques de t axa t ion . D ' au t r e s app l ica t ions cour t t e rme p e u v c n t 6tre envisag6es sal t dans le cadre des P.T.T. (service de l 'heure , service du r6veil, etc.) , sa l t darts un cadre plus vas te ( renseignements m6t6o- rologiques, renseignements concernan t la nav iga t ion

- - 4 1 7 - -

Page 14: Étude d’un système de synthèse de messages vocaux

14/14 a~rienne, renseignements bancaires , etc.).

Sur le p lan th~orique, ces t r a v a u x au ron t permis , d ' au t r e pa r t , d 'acqu~r i r d ' in t~ressantes connaissances,

sur les probl~mes de r y t h m e et d ' i n tona t ion en par-

t iculier. Les connaissances do ivent pe rme t t r e aux

~quipes du CNET de poursu ivre sur des bases solides

un p rog ramme de recherches v i san t ff r~aliser, au tour

d 'un calculateur , un syst~me de messages vocaux de forme et de contenu quelconques. Duns le cadre de l ' i n t roduc t ion de plus en plus pouss~e des techniques

informat iques duns la gest ion du r~seau fran~ais des

t~l~communicat ions, et des centres de renseignements t~l~phoniques en par t icul ier , la mise au po in t d ' un

tel syst~me a p p a r a i t d 'ores et d~j/~ comme une pers- pect ive d ' aven i r d ' un int~r~t t ou t par t icul ier .

L'auteur tienl ~ remercier l'ensemble de la direction et du personnel du d~partement Etudes et techniques d'acouslique du CNET-LANNION pour l'aide constante qu'ils lui ont apporl~e. II exprime tout particuli~rement sa gratitude ~ l'~gard de Monsieur Cartier, Monsieur K. Matsuura, stagiaire ]aponais et de Mademoiselle Bouard, qui ont participd directement & l'~laboration du pro]et et ~ la programmation.

Manuscril re~u le 4 mai 1970.

Jo PONCIN [ANNALES DES TEL]~COMMUNICATIONS

BIBLIOGRAPHIE

Il l QuiNio (J.), TEIL (D.). La synth~se de parole par ordi" nateur h part ir de digrammes phon~tiques. Re~. Acoust., Fr. (1970), 3, n ~ 9, pp. 28-32.

[2] NEMETH (A.), BURON (R.). Expdrience de synth~se automatique de la voix a 200 bits par seconde de parole. Colloque internation, sur la tdl~informatique, Paris (1969), t. II , Chiron, pp. 817-826.

[3] RABINER (L. R.), LEVITT (H.). New results in speech synthesis by rule (Nouveaux r~sultats en synth~se de la parole par r~gles. 6 e Congr~s International d'Acous- tique, Tokyo, 1968. - - KOHASI (Y.), American Elseeier Publ. Co. Inc., New York (1969), vol. II , pp. B 5-1~.

[~] BURON (R.). Audio response unit connected to a digital computer (Unitd de rdponse acoustique reli~e ~ un calculateur num~rique). 2 e Congr~s international des techniques des t~l~communications, Madrid, i965, Association nationale des ingdnieurs des tdldcommuni- cations cspagnols, div. I - I / l , pp. 1-13.

[5] FERRIEU (G.), PERSON (J. M.), CARTIER (M.). A.S.P.I.C. : Analyseur et synth~tiseur de parole ~ informations cod~es (syst~me C.N.E.T.). Onde dlectr., Fr. (mars 1969), 49, n ~ 50r pp. 376-377.

[6] BURON (R.). Generation of I 000 words vocabulary for a pulse excited vocoders operating as an audio response unit (G~n~ration d'un vocabulaire de I 000 mots pour un vocoder excit~ par des impulsions et fonctionnant comme un dispositif de r~ponse voeale). I.E.E.E. Trans., AU, U. S. A. (mars 1968), 46, n ~ l , pp. 21-25.

[7] LEIpP (E.). Structure physique et contenu s~mantique de la parole. Re~. acoust., Fr. (1968), 1, n ~ 3-~, pp. 259- 266.

- - 4 1 8