12

Click here to load reader

Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

Embed Size (px)

Citation preview

Page 1: Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

R E C O N N A I S S A N C E D E LA P A R O L E ,

BILAN D E VINGT ANNI~ES D E R E C H E R C H E S E T T E N D A N C E S A C T U E L L E S

par

J ean -Pau l H A T O N

MMtre-assistant *

R~suM~. - - L'auteur passe en revue les dil/&ents sgstimes, soil ~lectroniques, soit simulds sur ordinateur qui ont dtd proposds darts le monde. It d&rit dgalement les diverses mdthodes d'analgse du signal vocal utilisdes. Les tendances actuelles dans ce clomaine sont d~gag&s el un schema d'un sgst~me de reconnaissance de phrases

est proposal.

PLAN. - - �9 I : Introductio~z. �9 II : Le pour el le contre. � 9 : Le signal de parole. �9 IV : Le probl&ne du traitement de la parole. �9 V : Les premieres r~alisations. �9 VI : Apparition de l'ordinateur. �9 V I I : Etat

actuel des recherches. �9 V I I I : Conclusion. Bibliographic (128 r6f.).

I. I N T R O D U C T I O N

La parole est Fun des processus humains qui ont

6t~, de tous temps, les plus 6tudi6s, aussi bien du

point de rue de l '6mission que de la perception.

Cependant , les recherches dans ee domaine se sont

limit~es pendan t longtemps ~ la synth~se et ~ la

t ransmission de la parole [1]. C'est seulement depuis

1950 environ que les chercheurs se sont int~ressSs

h la reconnaissance au toma t ique de la parole. On

peut d~finir grossiSrement une machine /~ reconnai t re

la parole comme un syst~me capable de comprendre

un mot ou un message parl~s et de les t ransformer

par exemple en une action (s'il s 'agi t d 'un ordre)

ou c n u n e suite de lettres ~crites (principe de la

machine d dcrire phondtique).

Les premi6res r6alisations dlectroniques se boruaient

modes tement /~ la reconnaissance de quelques voyelles

ou chiffres prononcds par un seul locuteur, tou t comme

la reconnaissance d ' images a ddbutd par eelle de

caract~res isolds. L 'appar i t ion , vers 1958, dans ce

domaine, des ordinateurs p e r m e t t a n t de t ra i te r des quanti t~s bien plus impor tan tes d ' informat ions , a

permis de faire un nouveau pas en avant .

Cependant , plusieurs spdcialistes tels que Fateh-

chand en 1960 [2], Marill en 1961 [3], Lindgren en

1965 [4] et 1968 ]5], cons ta ta ien t successivement

qu 'une machine capable de reconnai t re une conver-

sation 5tait encore loin d 'e t re au point. Nons ne

pouvons au jourd 'hu i que renouveler cet te constata-

tion. Si l 'on consid/~re les progr~s spectaculaires rSalis~s

en reconnaissance de formes, on peut s '~tonner h

juste t i t re de cet ~chec relatif. La p lupar t des cher-

cheurs s ' accordent nmin tenan t ~ penser que le signal

de parole est un signal d part, sur lequel les m~thodes

classiques de t r a i t emen t ne donnent que des r~sultats

moyens. La s t ructure du message parle, les relat ions

entre les sons successifs en sont au t an t de facteurs

impor tan ts sp~cifiques qui rendent difficile l 'appli-

cation des techniques g~n~rales de reconnaissance

de formes pour une s~quence de parole.

II. LE P O U R E T LE C O N T B E

De nombreux spScialistes se sont pos6, et se posent

encore parfois, la quest ion de savoir si un syst~me

de reconnaissance au tomat ique de la parole prOsente

uu int6rOt prat ique, d6passant le cadre de la recherche

pure [6]. La quest ion reste posse, mais on peut d~s

ma in t enan t ten te r d 'y r~pondre.

I I . l . Les a v a n t a g e s .

His tor iquement , le premier but de la reconnaissance

de la parole a 6t~ la recherche d 'un mode de commu-

nicat ion efficace et ~conomique [7]. En effet, la

reconnaissance au tomat ique d 'un message parl(~ et

la t ransmission cod~e de ses sons const i tut i fs r~duirai t

l ' in format ion ~ t r ansmet t re dans un rappor t d 'au

moins 1 000 /~ 1. I1 est ce i ta in que dans l '~ ta t present

d ' a v a n c e m e n t des techniques de tSl~communicat ions,

ce gain ne pr~sente que peu d'intSr~t. Mais darts le

cas de communica t ions ext ra- ter res t res ~ tr~s longue

distance, cet te m~thode est une des meilleures, sinon

la seule, que l 'on puisse envisager [8].

Mais actuel lement , la principale appl icat ion d 'un

syst5me ~ reconnal t re la parole serait la communi-

cat ion orale entre l ' homme et l 'o rd inateur , ou plus

g~n~ralement entre l ' homme e t l a machine. Cette

idde, d~j~ ancienne [9], correspond ~ un r~el besoin.

* Laboratoire d'Electricit~ et d'Automatique, Universit~ de Nancy I.

m 77 J

Page 2: Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

2/12 J . - ~ . H A T O N [ANNALES DES TIELECOMMUNICATIONS

En effet, si l 'u t i l i sa t ion des ordinateurs tend h se gdndraliser, le langage eonst i tue encore un des obstacles majeurs clans la communica t ion avec ces derniers [10]. Dans la mesure off un ord ina teur pourra i t comprendre ne serait-ee q u ' u n langage simple et bien structural, on pourra i t alors parler de dialogue puisque, dds prdsent, le probldme de la rdponse orale des ordinateurs est en bonne voie de rdsolution, des unitds h rdponse orale dtant ddjh commereialisdes [11]. De plus, la

parole prdsente de n o m b r e u x avantages par rappor t aux systdmes classiques de communica t ion avec les ordinateurs (lecteurs de cartes, tdldtypes, ...) : c 'est un mode de communica t ion universel, rapide et qui ne ndeessite pas la prdsence de l 'opdrateur h proxinfitd de l 'appareil .

Avec l 'aceroissement cons tan t des r de mdmoire des ordinateurs , on peut faeilement imaginer des services de renseignements par tdldphone, dans des domaines aussi varids que les banques , les assu- rances, les rdservations de places ou la gestion de stocks.

Ccpendant , malgrd tous ses avantages [12], la parole n ' es t sflrement pas destinde h remplaeer les autres modes de communica t ion avec les ordinateurs , mais seulement h les eompldter. Ce serait, entre autres, une mdthode iddale pour une ut i l isat ion oecasionnelle d ' u n ord ina teur par des non-spdcialistes.

La communica t ion orale avec un ordinateur implique d6jh un systdme de reconnaissance trds dvolud, que les plus optimistes n 'espdrent pas avan t 1980. Mais un systdme plus limitd, r an t au pe in t de r ue du vocabulaire que du nombre de locuteurs rendra i t ddjh de grands services dans de nombreux domaines :

- - t r a n s m i s s i o n d'ordres simples h des machines [13], pour laquelle l 'expdrience mont re d'ail leurs qu'elle en t ra lne moins d 'erreurs qu 'une t ransmission presse-boulons. Le robot Hand-Eye-Ear de Vicens [14] est un des premiers exemples. Cette applicat ion serait trds intdressante lorsque l 'opdrateur a les mains ddjfi occupdes, eomme par exemple un pilote de vaisseau spatial [15] ;

- - tri postal : les Postes des U.S.A. ont pass6 un cont ra t h ee sujet avec les laboratoires R.C.A. ;

- - etc.

En plus de ces applicat ions, il faut a jouter que les recherches effeetudes en reconnaissance de la parole condui ront sans doute h une meilleure eonnaissance des mdcanismes humains de la pe rcep t ion ; elles pe rmet t ron t ainsi de progresser dans des domaines tels que l ' intell igence artificielle ou la rddducation des handicapds. Mais cela est aldatoire et ne peut de

toute fa~on pas justifier seul les rechelches entreprises dans ce domaine.

I I . 2 . L e s i n c o n v d n i e n t s .

La p lupar t des inconvdnients que prdsente actuel- lement u n systdme de reconnaissance au tomat ique

de la parole sont en rdalitd lids au fair q u ' u n tel sys- tdme, v ra imen t effieace, n 'existe pas encore. Mais son prineipe lui-m6me n 'es t pas mis en doute, et les applicat ions s 'avdreront de plus en plus nombreuses,

par t i r du m o m e n t off ces systdmes ver ront le jour. Aetuel lement , le seul reproehe sdrieux que l 'on

puisse avancer est le cofit, encore trop 61ev6, de ces systdmes. Mais avec les progrds effectuds en dqui- pemen t matdriel, on peut espdrer que le pr ix de rev ien t d 'une uni t6 de reconnaissance vocale pourra dtre amend h une limite raisonnable.

III . LE S I G N A L D E P A B O L E

III .1 . Caractdr i s t iques gdndra le s .

Le signal de parole est d ' abord caractdris6 par sa continuitd. En effet, les roots ne sont pas sdpards comme dans l '6criture et les seuls arrdts correspondent aux pauses de respirat ion et aux occlusions prdcddant les consonnes plosives. La segmentat ion est effectude par le cerveau, selon le contenu sdmantique du mes- sage et les contraintes syntaxiques. On touche ici

l 'une des difficultds majeures de la reconnaissance de la parole : des ouvrages entiers ont 6td eonsacrds au probldme de la segmenta t ion [16].

La parole t ranspor te deux informations distinctes : l ' in format ion sdmantique eon tenan t le sens du mes- sage et une information esthdtique [17] spdcifique de la communica t ion orale et caractdrisant plus spdcialement le locuteur. Nous avons ddjh fair remar-

quer l 'dnorme redondance du signal vocal : moins de 100 bauds suffisent h t ranspor ter l ' in format ion sdmantique, alors qu ' i l faut 200 000 bauds pour t ransmet t re une parole d 'excellente quali td esthdtique.

I I I .2 . L 'appare i l p h o n a t o i r e h u m a i n .

I1 est consti tu6 du canal vocal qui comprend un certain nombre de cavitds ddformables : le pharynx , la bouche et le nez, cette dernidre p o u v a n t ou non dtre raise en communica t ion grace au voile palatal (Fig. 1), ainsi que des organes d 'a r t icu la t ion : langue, m~choires, lbvres.

v0i,0 (

FIG. 1. - - Schdma du canal vocal.

Toutes ces cavitds se compor ten t comme des rdsonateurs plus ou moins amortis. La source d'dner-

- - 7 8 - -

Page 3: Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

t . 27 , n ~ 3-4 , 1 9 7 2 ] R E C O N N A I S S A N C E D E L A P A R O L E 3/12

gie utilis6e pour produire la vo ix est Fair contenu 800

dans les poumons. Le flux d 'a i r sous pression arrive,

t ravers la trach6e, au n iveau de la glotte. Le son

produi t est alors dit sonore (vocalis6) ou sourd, selon

qu' i l me t ou non en jeu la v ib ra t ion des cordes vocales.

- - Les so,as s o n o r e s sont les voyelles et certaines

consonnes (liquides, semi-voyelles, nasales). Ces sons 600

correspondent fi une eonfigurat ion r e l a t ivemen t stable

du canal vocal : ils sont dits eontinus. Consid6rons

par exemple l '~mission d 'une voyelle : le flux d 'air

qui arrive des poumons t raverse les cordes voeales

en v ibra t ion (dont la fr6quenee fondamenta le est la

m61odie, qui varie de 60 h 300 Hz environ selon les 4oo

individus). L 'onde de pression ainsi modul6e (Fig. 2 a)

excite alors les eavit6s bueeale et nasale. Les harmo-

niques dont les fr6quenees sont voisines des fr6quenees

de r6sonance des eavit6s buceale et nasale (6ventuel-

lement) sont amplifi6s par r6sonanee. La dis t r ibut ion

speetrale de l '~nergie du son 6mis qu'el le earaet6rise 200 (Fig. 2 b) poss6de un certain nombre de pies appel6s

Amplitude

F1 (Hz)

S

I

i000 2000 3000 FZ (Hz)

FIG. 3. - - Representation des voyelles fran~aises dans le plan (1 er formant, 2 e formant).

~ Fondamental

!11111 Amplitude

Harmoniaues

l'[lliitlrrr I 2

Fr~quence (kHz)

lerf

\

II]l ormant

2 e formant

" , \ \

2 Fr~quence (kHz)

FIG. 2. - - Emission d'une voyelle, a) spectre de l'onde de pression; b) spectre de l'6nergie du son 6mis.

formants , dont cependant la posit ion d6pend de la

forme du canal vocal, donc en par t icul ier du locuteur.

La r6part i t ion des deux premiers formants pour les

voyelles fran~aises prononc6es par un grand nombre

de locuteurs, est donn6e sur la figure 3. On a constat6

depuis longtemps que ces deux premiers formants

joua ien t un r61e p r@ond6ran t dans la reconnaissance

des voyelles [18].

- - L e s s o n s s o u r d s sont exe lus ivement des con-

sonnes. Ils peuven t ~tre continus (fricatives) ou non

continus (occlusives). Comme l ' exe i ta t ion n ' es t pas

p6riodique (les cordes voeales n ' i n t e r v e n a n t pas),

l '6nergie est distribu6e sur une large bande de fr6-

quenees (spectres de bruit) et non pas eoneentr6e

dans des zones formant iques . L ' exe i t a t ion peu t 6tre

provoqu6e par un r6tr6cissement local du eanal vocal

(fricatives), ou par une occlusion en un endroi t du

eanal vocal (oeelusives).

I I I . 3 . L e s s o n a g r a m m e s .

Une representa t ion commode du signal vocal est

la forme ~ trois dimensions ampl i tude- temps-f r6quence .

Sur ees speet rogrammes voeaux, ou sonagrammes,

l ' ampl i tude est repr6sent6e par un noircissement plus ou moins impor t an t (Fig. 4). Les formants apparais-

FI6. 4. - - Sonogramme de la phrase : ,r J'aime... que dis-je aimer ! J'ido]~tre Junie ~. (Racine).

7 9 - -

Page 4: Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

4/12 J . -1 ~. H A T O N [ANNALES DES TELECOMMUNICAT|ONS

sent alors, dans les par t ies vocalis6es, comme des zones s tables h no i re i ssement impor t an t . I1 ne fau t cependan t pas oubl ier que l ' appa re i l phona to i re est sans cesse en mouvemen t , de sorte qu ' aucun son ne peu t 6tre d6fini de fa~on pe rmanen te et que les t rans i t ions j o u e n t un r61e pr6pond6ran t , comme on le remarque sur le sonagramme.

fai t appel h des m6thodes classiques de reconnaissance de formes sur lcsquelles nous n ' ins is terons pas ici (voir, pa r exemple [24, 25, 26]).

Un syst~me de reconnaissance de la parole com- prend doric en gros les t rois par t ies : cap teur , pr6- t r a i t emen t , d6cision, communes h tous les syst~mes de reconnaissance de formes (Fig. 5).

I I I . 4 . L e s s o n s 6 1 6 m e n t a i r e s .

Une s6quence de paro le peu t 6tre d6compos6e en sons 616mentaires appel6s phonbmes, plus pe t i tes unit6s phonologiques que l 'on puisse isoler darts la parole. La langue fran~aise compor te 36 phonemes, mais 30 suffisent h la d6crire sans aucune ambigu'~'t6. Le phonbme est connu depuis longtemps des phon6- t iciens ; une d6flnit ion plus compl6te est donn6e p a r Lafon [19].

Du fa i t de l ' iner t ie des organes de la phona t ion et des ph6nom~nes de coar t icu la t ion , l ' a spec t d ' un phon6me d6pend beaucoup de son env i ronnemen t vocal ique : un m6me phoneme peu t ainsi poss6der diff6rentes formes a l lophones selon sa pos i t ion dans les roots. Aussi la val id i t6 du phonbme en t a n t qu 'un i t6 de reconnaissance a- t -el le 6t6 raise en doute . Certains chercheurs lui pr6f~rent la syl labe [15], ou un son

616mentaire, d6fini comme un segment exc lus ivement sou tenu ou t rans i to i re [20], ou encore l ' a ssoc ia t ion de deux phonemes ou diphonbme, su r tou t util is6 jusqu 'h pr6sent dans la synthbse de la parole [21]. Cependant , si 1'on consid~re le gain de m6moire que l 'on r6alise [22], il a p p a r a i t ut i le d 'u t i l i se r le phoneme comme unit6, au moins dans une premiere 6tape du t r a i t e m e n t de la parole.

IV. LE PI:tOBLi~.ME DU TI:tAITEMENT D E L A P A R O L E

IV.1. N6cessit&

I1 serai t i l lusoire d ' essayer de t r a i t e r tou te la masse d ' in fo rmat ion t ranspor t6e p a r la parole. Cela ne pr6sentera i t d 'a i l leurs aucune ut i l i t6 puisque l 'exp6- rience mon t re que la parole , m6me t ronqu6e de fa~on impor t an t e , res te encore intel l igible [23].

I1 est donc n6cessaire d 'op6rer , pa r un moycn appropri6, une r6duct ion des donn6es fournies pa r la parole (op6rat ion d ' ana lyse , ou de mesure au sens

g6n6ral, ~ l ' a ide de capteurs) , afin de pouvoi r ensuite les t r a i t e r commod6men t et d ' en ext ra i re les pa ra - m~tres int6ressants pour la reconnaissance (op6rat ion de pr6 t ra i tement ) . Les deux opera t ions pr~c6dentes peuven t 6ventue l lement se r~duire ~ une seule. Le p r6 t r a i t emen t est fondamen ta l en reconnaissance de la parole. En effet, h pa r t i r du m o m e n t oh des para - m~tres bien repr6senta t i fs ont 6t6 ext ra i t s , la ddcision

~_~ Extraction ~ 1 R6p~nse Forme Capteut fie D~cision parambtres

FIG. 5. - - Sch6ma g6n6ral d'un syst6me de reconnaissance de formes.

IV.2. M6thodes d'analyse du signal vocal.

Nous citons r a p i d e m e n t les m~thodes d ' ana iyse c ou ra mme n t utilis6es dans les syst~mes de reconnais- sance actuels , t a n t fr6quentiel les (f i l trage, ...) que temporel les (passage pa r z6ro du signal [zero- crossings], ...).

IV.2.1. Analyse fr~quentielle.

Malgr6 les moyens de calcul don t on dispose main- t e n a n t (ord ina teurs de plus en plus rapides , m6thodes de t ransform6e rap ide de Four i e r d6riv6es de l 'a lgo- r i thme de Cooley et Tuckey [27]), la p l u p a r t des syst~mes de reconnaissance de la paro le u t i l i sen t encore un disposi t i f d ' ana lyse mat6riel le , const i tu6 d 'un bane de flltres passe-bande . Des t r a v a u x ont 6t6 effectu6s, coneernan t les fr6quences des filtres h ut i l iser [28] ou leurs largeurs de bande opt imales [29]. Bien que la na tu re des informat ions t ransmises an cerveau pa r l 'oreil le in terne soit encore real connue [30], il semble bien que l 'orei l le effectue 6galement une sorte d ' ana lyse spectra le de la parole [31].

Un t y p e d ' ana lyseu r spec t ra l tr6s uti l is6 est l ' ana- lyseur des vocoders. Le vocoder , mis au po in t en 1939 par Dud ley [32] comme moyen de communica- t ion 6conomique, ne sera sans doute j amais utilis6 comme tel sur une grande 6chelle, mais il a permis de faire avancer no t ab l emen t les 6tudes sur la parole. De nombreuses va r ian tes et am61iorations on t 6t6 propos6es depuis son invent ion [33].

D ' au t r e s types d ' ana lyseur s fr6quentiels ont 6t6 propos6s. En par t i cu l ie r cer ta ins d ' en t re eux u t i l i sent le fair que la compr6hension pa r l ' homme d 'un message parl6 est peu sensible h l ' a m p l i t u d e du signal de parole grace h la dynamique i m p o r t a n t e de l 'orei l le (de l 'o rdre de 120 dB h 1 000 H z [34]). Ils recherchent les penles (done les var ia t ions re la t ives) de la courbe ampl i tudc- f r6quence [35] qui s ' avbren t ~tre des param6t res int6ressants pour la reconnaissance.

IV.2.2. Analyse temporelle.

Elle revient h compte r le nombre de passages h z6ro du signal de parole. Ce pa ram~t re est ex t r6memen t facile h ob ten i r (un disposi t i f d6taill6 est, pa r exemple , d6cri t pa r Vicens [14]).

- - 8 0 - -

Page 5: Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

t 27, n ~ 3-4 , 1 9 7 2 ] R E C O N N A I S S A N C E D E L A P A R O L E 5/12

Par ailleurs, il est possible d ' en d6duire les fr6- quences des deux premiers fo rmant s [36], don t nous avons ment ionn6 le r61e i m p o r t a n t en reconnaissance des voyelles.

D ' au t r e s m6thodes ont 6t6 propos6es, ddriv6es en par t icu l ie r des techniques de d6cryp tage des s ignaux r a d a r ou sonar (~galement trbs redondants ) . Les premiers r6sul tants obtenus pa r cet te m6thode para i ssen t encourageants [37]. Une repr6senta t ion des sons h l ' a ide de fonctions or thogonales a aussi 6t6 utilis6e pour la reconnaissance de quelques roots [38 ].

I V . 3 . L e p r ~ t r a i t e m e n t .

Les informat ions fournies pa r le cap teur sont ensui te ~chantil lonn6es et num6ris6es. La vitessc d '~chant i l lonnage varie su ivant les dispositifs. Une fr~quence de 100 Hz pa ra i t ra isonnable , si l 'on consi- d~re que peu de changements se p rodu i sen t dans le signal en moins de 10 -2 s. Un @hant i l lonnage h r y t h m e var iable pour ra i t 5tre ut i le mais sa r6al isat ion est d~licate [39]. I1 en r~sulte un d6bi t d ' i n fo rma t ion encore i m p o r t a n t (par exemple de 2 000 bauds pour un ana lyseur de t ype vocoder). De plus, les var ia t ions de for in t des phonemes, dues h des diff6rences de hau teur , de dur6e, d ' in tensi t6 , etc., p rovoqucn t une tr~s grande dispersion darts l ' espace repr~senta t i f des phonemes. I1 est donc n6cessaire d 'effectuer un pr~- t r a i t e m e n t de l ' in format ion fournie pa r l ' ana lyse . Ce p r~ t ra i t emen t pe rme t d ' a b o r d d 'op~rer un lissage de cet te informat ion en s u p p r i m a n t les f luctuat ions les plus grossi~res, et su r tou t d ' ex t r a i r e des para - m~tres, ou caract~r is t iques (Natures) invar ian t s en vue de la reconnaissance.

Cette op6rat ion est souvent la plus originale d 'un syst~me de reconnaissance de la parole car il n ' ex is te pas encore une th~orie g~n6rale de l ' ex t r ac t ion de param~tres [40]. Chacun d~termine empi r iquemen t ses param~tres et v6rifie leur val idi t6 selon leur efficacit~. Rares sont les t en t a t ives de sys t~mat i sa t ion du choix des meil leurs param~tres [41]. Plusieurs m~thodes ma th6mat iques ont 6t~ utilis~es avec un succ~s limit6, darts le cas de la parole : ci tons l ' ana lyse factoriel le [42] ou le ddve loppement de Kahrunen- Lceve [43]. I1 est ~galement possible de d~terminer des pa ram~t res pu remen t physiques , en u t i l i san t les r~sul ta ts des recherches fondamenta les sur la parole. Ce dernier proc6d~ est le plus souvent rencontre , car le plus simple h met t re en ceuvre. I1 serai t cependan t in t~ressant d 'u t i l i ser concur remment les deux m~tho- des, de fa~on h augmente r l 'efficacit~ de la recherche.

V . L E S P B E M I ~ B E S B ~ A L I S A T I O N S

Les premiers syst~mes de reconnaissance de la parole, sous forme d 'appare i l l ages 61ectroniques,

fu ren t propos6s aux environs de 1950. Ces appare i l s , bien que de eapaei t6s limit6es, ont cependan t tous eontr ibu6 h faire avancer nos eonnaissanees dans le domaine de la communica t ion parl6e.

La premi6re r6al isat ion fur, sans doute , celle de J. Dreyfus-Graf en 1950 [44]. Dans eet appare i l , nomm6 phon6tographe par son inventeur , le signal vocal 6 ta i t analys6 par six filtres rdpar t i s de 200 Hz h 3 600 Hz (eor respondan t h la bande t61@honique). Les sort ies des filtres contr61aient le m o u v e m e n t d 'un s ty ler enregis t reur feurn issan t une repr6sen ta t ion graphique des sons 6tudi6s. Ces d iag rammes se r6v61aient similaires h de tr6s aneiens signes 6gypt iens ou ehinois. Pou r su ivan t le pr ineipe des eompresseurs s61eetifs d ' amp l i t ude , Dreyfus-Graf a p rodu i t diff6- rentes versions am61ior6es de son a p p a r e i l ; une version r6cente [45] pe rme t la reconnaissance de 18 roots tr~s courts pronone6s pa r un loeuteur .

L ' appa re i l de C. P. Smi th (1951) [46], assez rudi- menta i re , u t i l i sa i t pour la premiere fois une technique de eorr61ation, pour comparer les formes aeoust iques fournies pa r l ' ana lyse (bane de 32 filtres) h diff~rents masques.

En 1952, Davis , B iddu lph et Balashek, des labora- toires Bell, p r6sen ta ien t un appare i l capable de reconnai t re les 10 chiffres [47]. Cet appare i l eompta i t les passages ~ z6ro du signal vocal dans deux bandes de fr6quence (en d e ~ et au-del~ de 900 Hz) et compa- r a i t ensui te h des formes normalis6es. Le t a u x de reconnaissance a t t e igna i t 99 % pour u n s e u l loeuteur . Une version plus 6volu6e a 6t6 propos6e pa r Dudley et Ba lashek en 1958 [48]. La reconnaissance a t t e igna i t alors 90 % pour diff6rents locuteurs , h condi t ion qu' i ls nmdif ien t leurs voix. Notons que la reconnais- sance ~tai t cffeetu6e aux n iveaux sueeessifs du pho- neme puis du mot .

I1 faut a t t end re ensui te 1956 pour rioter une r6ali- sat ion int6ressante, la machine gt dcrire phondtique de Olson et Belar (*) [49] capable de reeonna i t re 10 roots tr~s courts pronone6s par une seule personne. L 'un i t6 de reconnaissance utilis6e est la syl labc. Un bane de hui t filtres (de 250 h 20 000 Hz) fourni t une repr6senta t ion binaire de la syl labe qui est ensui te appliqu6e 5 un d@odeur p r6a lab lement a just6 au locuteur.

Des versions plus 6volu6es de cet te mach ine pe u ven t t r a i t e r un vocabula i re d 'envi ron 50 roots anglais et fran~ais, avec des performances du m6me ordre [50].

Un systbme de reconnaissance d 'un pr inc ipe t ou t h fai t diff6rent fut propos6, 6galement en 1956, pa r Wiren et S tubbs [51]. Ces derniers, r ep renan t la not ion de caractkres dislincti# 6raise pa r Jakobson ,

F a n t et Hal le en 1952 [52], recherchaient les phon6mes const i tu t i fs du signal vocal pa r une suite de tes ts binaires r6alis6s pa r des circuits 61eetroniques (sons sonores-sourds, tu rbu len t s -non tu rbu len ts , etc.). Bien que pa r t i e l l emen t r6alis~, le syst~me donna i t des r6sul ta ts encourageants dans la reconnaissance des voyelles (94 % pour 21 locuteurs).

(*) Laboratoires R.C.A.

- - 81 - -

Page 6: Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

6/12 J . - P . H A T O N [ANNALES DES TI~L]~COMMUNICATIONS

En 1958, une nouvel le 6tape 6tai t franchie avec l 'exp6rience de F r y et Denes [53]. Me t t an t en p ra t ique l ' id6e de F r y selon laquelle l ' homme fa i t appel h des cont ra in tes syn tax iques et s6mant iques pour com- prendre ce qu ' i l en tend, ces au teurs const ru is i rent un syst6me de reconnaissance h deux drapes dans lequel une reconnaissance pr61iminaire p u r e m e n t acoust ique 6tai t affin6e pa r l 'u t i l i sa t ion de donn6es l inguist iques. Ces donn6es, tr~s simples, 6 ta ient les probabi l i t6s d ' a p p a r i t i o n des diphon~mes. Pour un vocabula i re l imit6 ~ 14 phon6mes, le pourcen tage de reconnaissance a t t e igna i t 72 %, soit une am61ioration d ' env i ron 20 % grace h l 'u t i l i sa t ion des donn6es lin- guist iques. L 'exp6r ience , don t le b u t 6 ta i t de p rouver la va l id i t6 de la m6thode, rut en ce sens concluante .

Une au t re machine & ~crire phondtique, imposan te et ambi t ieuse , fu t propos6e au Japon , en 1961, pa r Sakai et Doshi ta (*) [54]. Elle deva i t effectuer la segmenta t ion de la paro le cont inue et sa t r ansc r ip t ion en phon6mes, en se fondan t p r inc ipa lemen t sur les deux premiers fo rmant s des voyelles. Ce p ro je t semble ac tue l l ement en pa r t i e abandonn6.

VI. A P P A B I T I O N D E L ' O B D I N A T E U R

Les syst~mes de reconnaissance en t i~rement 61ectro- niques que nous venons de passer en revue, sont su r tou t l imit6s p a r leur faible capaci t6 de m6moire. Les o rd ina teurs , appa rus vers 1958, donnen t une nouvel le d imension aux recherches, leur u t i l i sa t ion en reconnaissance de la paro le devenan t quasi g6ndrale

pa r t i r de cet te date . Les premieres exp6riences fu ren t r6alis6es aux

E ta t s -Unis , pa r F. D. e t C. W. Forgie en 1959, Smi th et K lem en 1960, Denes et Mathews en 1960,Shultz en 1961, Sholtz et Bakis en 1961.

Tous ces chercheurs effectuaient une analyse spec- t ra le de la paro le h l ' a ide d ' u n syst6me matdr ie l sauf Shul tz don t le p rog ramme compor t a i t une ana lyse simul6e du signal vocal .

Des t r a v a u x de F . D . et C . W . Forgie (**), on peu t re teni r d ' abo rd , en 1959, une reconnaissance de 10 voycl les anglaises p a r u t i l i sa t ion des deux premiers fo rmants avec un pourcen tage de 93 % pour une v ing ta ine de locuteurs [55], ensuite, en 1962, une t e n t a t i v e de reconnaissance de deux consonnes frica- t ives anglaises [56]. Les r6sul ta ts , quoique moins bons, sont in t6ressants si l 'on consid~re la s imi l i tude entre les spectres de ces consonnes.

Smi th (**) et K lem (**) r6alis~rent une au t re t en t a t i ve de reconnaissance de voyelles [57], en app l i quan t les r6sul ta ts de la d6cision s ta t i s t ique . Avec une fonct ion de d6cision quadra t ique , ils obte- na ien t un t a u x de reconnaissance de 94 % pour des roots monosyl lab iques prononc6s pa r 21 locuteurs .

(*) NEe et Universit6 de Kyoto. (**) Au M.I.T.

La t e n t a t i v e de Denes et Mathews [58] est diff6- rente des pr6c6dentes dans son principe. Elle pour su i t celle, d6jh cit6e, de F r y et Denes [53] en ce sens que l 'on fa i t encore appel h des con t ra in tes l inguis t iques en res t re ignan t cons id6rab lement le vocabula i re . Le b u t 6 ta i t la reconnaissance des 10 chiffres pa r compa- ra ison h des formes normalis3es stock6cs en m6moire. Les au teurs concluaient ~ l 'u t i l i t6 ind i scu tab le de l ' o r d i n a t e u r en reconnaissance de la parole.

Le p rog ramme de Shul tz (*) [59] p e r m e t t a i t aussi la reconnaissance des 10 chiffrcs. Elle 6 ta i t de 97 ~o pour 50 locuteurs, hommes et femmes.

Sholtz et Bakis (*), reconnaissa ien t les 10 chiffres [60]. Une s6rie de tes ts p o r t a n t sur les 6nergies du signal vocal dans 40 bandes de fr6quence (de 100 8 000 Hz), segmenta i t les roots prononcds en leurs phonemes const i tut i fs . Les s~quences de phonemes obtenues 6 ta ient ensui te compar6es h des sdquences t y p e stock6es en m6moire. Le pourccn tage de recon- naissance a t t e igna i t 96 % pour 10 locuteurs des deux s e x e s .

Des exp6riences similaires fu ren t men6es 6galement au Japon . Pa r exemple , en 1962, Suzuki e t N a k a t a p roposa ien t un sys t6me de reconnaissance de 300 roots monosyl lab iques j apona is prononc6s par deux locu- teurs [61]. Une analyse spectra le (banc de 26 filtres) p e r m e t t a i t la d6 te rmina t ion des frdquences des deux premiers fo rmant s pa r une m6thode originale [62]. Comme il 6tai t pr6visible, les r6sul ta ts 6 ta ient su r t ou t bons pour les voyelles.

D ' au t r e s t en t a t ives r eposan t parfois sur des pr in- cipes t ou t h fa i t diff6rents sont 6galement h noter . Ainsi, h l 'Univers i t6 de S tanford , l '6quipe de Ta lbe r t u t i l i sa i t des 616ments a da p t a t i f s du t y p e neurones, les adal ines [63] pour s imuler la reconnaissance de quelques chiffres et roots tr~s courts [64]. Les r6sul- t a t s obtenus res ta ien t modes tes ; c ependan t cc t te voie de recherche peu t ~tre int6ressante.

Dans une t ou t au t re d i rect ion, H e m d a l et Hughes , r ep renan t la not ion de caract6res dis t inct i fs d6jfi utilis6e [51], reconnaissa ien t 20 voyel les et d iph tongues dans diff6rents env i ronnements vocal iques [65]. Quat re tes ts , p o r t a n t sur les fr6quences des deux premiers formants , 6 ta ient pa r exemple suffisants pour diff6- rencier entre elles d ix voyelles, pa r fo rma t ion d 'un arbre de reconnaissance.

D ' au t r e s types d ' ana lyse que l ' ana lyse fr6quentiel le ont 6t6 utilis6s. Ainsi Bezdel e t Chandler reconnais-

saient des voyel les avec une analyse par passage par z@o [66]. Leur m6thode consiste h calculer une d is tance euclidienne entre les formes 6tudi6es et celles plac6es darts un dic t ionnaire .

Tout en r e s t an t encore tr~s limit6s, ces p rog rammes de reconnaissance repr6sen ta ien t d6jh un gros progr6s puisqu ' i l s 6 ta ient valables , sans aucun a jus tement , pour un nombre plus i m p o r t a n t de locuteurs .

Au fur et h mesure de l ' a v a n c e m e n t des connais- sances ct du d6ve loppement des ord ina teurs , des

(*) I.B.M.

82

Page 7: Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

t. 27, n ~ 3-4, 1972] R E C O N N A I S S A N C E D E LA P A R O L E 7/12

exp6riences plus impor tantes furent tent~es. Citons cenes de King et Tunis (*) en 1965 [67] et de Gold(**) en 1966 [68]. Toutes deux compor tent une analyse frSquentielle de la parole. King et Tunis expSrimen- t6rent plusieurs vocabulaires, pour un total de 30 roots tir6s de langages de programmat ion , et plusieurs m6thodes de dScision. La reconnaissance a t te ignai t 98 % pour plusieurs locuteurs masculins. Le pro- gramme de Gold permet ta i t de reconnai t re un voca- bulaire de 54 mots anglais.

Para l lb lement h c e s recherches, le probl~me, en quclque sorte compl6mentaire, de l ' ident i f icat ion d ' un locuteur a 6t6 6galement abord6 [69, 70]. Les para- m6tres int6ressants dans ce cas ne sont pas forc~ment ceux utilisSs en reconnaissance de la parole [71] mais les conclusions obtenues dans un domaine peuven t 6ventuel lement Stre utiles dans l 'autre. Certains chercheurs accordent h la m6thode de reconnaissance de locuteurs une fiabilit6 interm6diaire entre celles de la graphologie et de la dactylogra- phie [72].

VII . ~ T A T A C T U E L D E S B E C H E B C H E S

V I I . 1 . Le p o i n t d a n s le m o n d e .

Ainsi que nous l 'avons dit, la reconnaissance de la parole n ' en est qu 'h ses d6buts. La reconnaissance en temps r6el (c'est-h-dire h la vitesse normale d'Slo- cution) d ' un vocabulaire tr~s restreint (les dix chiffres

par exemple) est chose acquise, de peu d ' impor tance commerciale d'ailleurs. Mais le probl~me de la recon-

naissance de vocabulaires impor tan t s et, a forliori,

de phrases prononc6es par un grand hombre de locuteurs est loin d'Stre r6solu, sur tou t cn temps r6el, seul contexte int6ressant du point de rue prat ique.

Les E ta t s -Unis et le Japon v i enncn t en tSte, dans ce domaine. Mais il ne faut pas nSgliger les chercheurs d 'U.R.S.S. , beaucoup plus discrets. En Europe, lcs recherches soRt moius avanc6es, avan t tou t parce que leur pr ix de revient est tr6s impor tan t , mais il y a cependant des rSsultats notables [73].

VII.I.I. Etats- Unis.

La reconnaissance de la parole poss6de deux p61es

gSographiquement oppos6s : Stanford (UniversitS) et Cambridge (M.I.T. et UniversitS Harvard) .

A Stanford, Reddy s'intSresse h la segmentat ion et ~ la reconnaissance de la parole cont inue (il rut l ' un des premiers h aborder ce probl~me) [74]. Le

t ravai l de Vicens [14] repr6sente le syst6me de reconnaissance le plus Svolu6 h l 'heure actuelle. II est donc intSressant de citer quelques r6sultats et conclusions : par exemple 92 % de reconnaissance

aprds 16 secondes environ pour une liste de 561 roots

et eourles phrases prononc~s par un locuteur ; l 'ut i l i -

(*) I.B.M. (**) M.I.T.

sation de mSthodes propres h l ' intell igence artificielle semble ouvrir des perspectives int6ressantes darts lc domaine de la reconnaissance de la parole. Denx applicat ions prat iques de son syst~me sont propos6es par Vicens : une machine h calculer de bureau, Descal et un robot manipu la teur , Hand-Eye-Ear , tous deux command6s ~ l 'aide d ' u n langage h syntaxe tr~s simple.

Reddy poursui t m a i n t e n a n t ses rechcrches sur la reconnaissance, en temps r6el, d 'un langage h syntaxe simplifiSe, ~ P i t t sburgh [75].

Les recherches menses h Cambridge concernent ~ la fois l ' analyse et la reconnaissance. En 1968, Bobrow et K l a t t ont pr6sent6 un syst~me capable de recon- na~tre 100 roots ou courtes phrases [76]. A par t i r de l 'analyse effectuSe par un banc de filtres, ces auteurs se sont attach6s h t rouver des param~tres intSressants pour la reconnaissance.

D 'aut res t r avaux , de moindre importance semble- t-il, ont StS rSalis~s. Ils ut i l isent des m6thodes clas- siques d 'analyse frSquentielle [77, 78, 79, 80] ou temporelle [81, 82] pour la reconnaissance de chiffres

ou de monosyllabes. Miller, Ross et Wine ont propos6 de leur c6tS un programme pe rme t t an t la reconnais-

sance en temps rSel de quelques mots, avec un ordi- na teur utilisS en temps partag6 [83].

On peut noter ~galement un systSme mat6riel de reconnaissance des 10 chiffres par 10 locuteurs de

Teacher et al. [84], rempla~ant les trois premiers formants par un /ormant ~quivalent unique, de frS- quence variable [85]. La derni6re version de ce syst6me permet la reconnaissance d ' un vocabulaire de 30 roots [86].

VII.I.2. Japon.

Si la machine h 6crire phon6tique n 'exis te pas encore, il n 'exis te pas moins un syst6me de reconnais- sance des 10 chiffres en temps r6el [87]. De plus, des Studes partielles ont 6t6 menses, concernant diverses m6thodes de reconnaissance de la parole [88, 89, 90], et l 'u t i l i sa t ion de contraintes l inguist iques [91].

VII.I.3. U.R.S.S.

II existe peu de publicat ions sovi6tiques sur le sujet. N6anmoins, les Russes s ' int6ressent de pros h la commande orale d 'o rd ina teur et les r6sul tats obtenus sont int6ressants : reconnaissance de 168 roots (tir~s du langage Algol) et chiffres par Velichko [92], reconnaissance de 50 instruct ions par l '6quipe de Vysotkiy [93]. Ces derniers ut i l isent une analyse spectrale de la parole et no ten t l ' int6r6t des infor- mat ions l inguist iqucs en reconnaissance de la parole.

Par ailleurs, des 6tudes ont 6t6 men6es sur la recherche de param6tres [94, 95], mSme dans le domaine des infrasons [96].

VII.1.4. Europe.

Des recherches sur la parole sont effectu6es en

S@de. Elles por ten t sur l 'analyse et la synth6se, mais pas pour l ' i n s t an t sur la reconnaissance.

- - 83 - -

Page 8: Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

8/12 J . - P . H A T O N [.*.:';:~'AI.ES DES T/ :LEC . . . . . . C~.TtONS

Aux Pays-Bas , Pols a mene, entre autres, une 6tude de reconnaissance de voyelles [97].

En Allemagne, diverses experiences de reconnais- sance de quelques roots ont ere menees. Citons celle de Zwicker et al. [98]. Ces derniers reconnaissent les 10 chiffres ~ 95 % pa r compara ison ~ des formes normalis6es. Des syst~mes electroniques ex is ten t aussi, comme ceux de Anke et Hceschele [99] ou de Ti l lmann et al. [100] qui reconnaissent r e spec t ivement les 10 chiffres eL 20 nombres ou mots courts. Un sys teme adap t a t i f a 6re propose par Gonschorek et Hinr ichs . I1 reconnal t les 10 chiffres prononces pa r 100 locu- teurs [101].

En I tal ic , on peu t noter diverses experiences de reconnaissance de voyel les sur o rd ina t eu r [102, 103]. Un sys teme en t i e rement e lect ronique ~ circuits logiques a ega lement ete propos6 [104], lui aussi l imi te ~ la reconnaissance des voyelles. Les dernieres e tudes concernent les m6thodes d ' ana lyse et l ' u t i l i sa t ion de nouvelles cont ra in tes en reconnaissance [105].

Les t r a v a u x effectues en Grande-Bre tagne con- cernent des sys temes de reconnaissance sur o rd ina teu r : Shearme et Leach, pa r exemple , reconnaissent 32 mots prononces pa r 10 locuteurs mascul ins ~ l ' a ide d 'une analyse spectrale simulee (90 % de reconnaissance) [106]. Un appare i l en t i e remen t electronique permet - t a n t de reconna l t re quelques roots simples et les 10 chiffres a ega lement ete mis au po in t par Gi lmour [107].

En France , une dizaine d 'equipes t r ava i l l en t sur la reconnaissance de la parole. Les premieres e tudes concerna ien t la reconnaissance de chiffres ou de roots s imples [108, 109, 110, 111,112], h l ' a ide d 'une ana lyse spectrale du signal vocal . Ac tue l l ement le C.N.E.T. possede une machine h calculcr de bureau du type de celle decrite pa r Vicens [113]. La th~se de Tubach presente le sys teme le plus evolue de reconnaissance de phrases . A l ' a ide de cont ra in tes syn tax ico-seman- t iques, Tubach reconna i t un p rog ramme Algol, pro- nonce pa r un locuteur , quas imen t ~ 100 %. Au niveau acoust ique, les pa r ame t r e s f o n d a m e n t a u x sont les deux premiers formants , de te rmines pa r p rog ramme [1141.

Le sys teme e tudie pa r L a m o t t e et ses co l labora teurs Nancy compor te un mate r i e l de reconnaissance

phonemique u t i l i san t une mat r i ce d ' appren t i s sage . Les sequences de phonemes obtenues sont interpretdes

l ' a ide de cont ra in tes l inguis t iques (donndes s ta t is- t iques concernan t la langue [22]) puis syn tax iques (voir schema Fig. 6). Le b u t final est l ' en t ree orale d ' un p rogramme en ord ina teur .

. . . . ..~Moniteur

! i Parole ~ Ph,a~

[ Donn,es linguis,iques 1

FIG. 6. - - Schema bloc d'un systeme de reconnaissance de la parole.

V I I . 2 . T e n d a n c e s a c t u e l l e s .

Apres l ' i n t e re t por te h la reconnaissance de formes en general au cours des dernieres annees, on assiste m a i n t e n a n t h une d iminu t ion des recherches sur la reconnaissance de la parole. Cela peu t s ' expl iquer pa r l ' a m p l e u r du probleme pose et pa r la faible connais- sauce que l 'on a des mecanismes de percept ion et de p roduc t ion de la parole . C'est pourquoi les cher- cheurs se t ou rnen t de plus en plus vers les t r a v a u x f o n d a m e n t a u x sur la parole. I1 ~ ag~t m a i n t e n a n t de rechercher - - h t o u s l e s n iveaux : acoust ique, syn- t ax ique , ... - - des invar ian t s du langage. Cette e tude condui t h la not ion de r~gles (cues) de p roduc t ion de la parole. En ce sens, le modble de reconnaissance d'analyse par synthdse propose pa r Hal le et Stevens [115] pa r a i t 6tre un des plus p romet t cu r s , quoiqu ' i l n ' a i t j amais 6t6 en t i e rement realise.

Une aut re vole, in teressante , consiste fi s imuler le c ompor t e me n t du cerveau par des reseaux de neurones electroniques [116, 117] don t de nombreux modeles out ete proposes [118]. Malheureusement , cet te me thode condui t ~ des sys temes de reconnaissance e x t r e m e m e n t complexes. Sparkes [119] decr i t un schema de reconnaissance de la parole 6galement caique sur le processus physiologique. C'est le module de Hil l [120] qui se r approche le plus de ce schema, mais il n ' es t pas cer ta in qu 'un sys teme de reconnais- sance a u t o m a t i q u e doive copier le processus humain cor respondant , lu i -meme d 'a i l leurs encore real connu.

Darts le domaine de l ' ana lyse de la parole, il f au t rioter l ' a p p a r i t i e n des m6thodes opt iques de t r a i t e m e u t du signal, p r inc ipa lement en lumiere coherente : f i l trage, holographic [121]. Jusqu 'h p :eseut , les real isa t ions sont l imitees h la reconnaissance de quel- ques mots , comme celle de Lever ing ton [122], Wilson [123] qui uti l ise en fa i t une methode de ccrre la t ion.

Si l 'un des problemes cruc iaux de la reconnaissance reste la gen6ral isat ion ~ un grand hombre de locnteurs , on peu t penser que cela p rov ien t d 'une mauva i se u t i l i sa t ion des informat ions ex t ra i t es du signal vocal. I1 se pose alors peu t -e t re le p rob leme de ] 'op t imal i - sa t ion de l 'espace de recherche des p a r a m e t r e s uti les (voir, pa r exemple, l ' approche m a t h e m a t i q u e de M me Pavel [124]). Les resu l ta t s acquis darts des domaines aussi varies que la neurologie, la physio- logic, etc., peuven t alors 6tre utiles. On assiste ainsi

une in t e rpene t r a t ion de nombreuses disciplines, a p p a r e m m e n t t res eloignees, e t ce t te t endance carac- terise l ' evolu t ion du probleme de la reconnaissance de la parole [125]. On a vu que la p l u p a r t des sys temes de reconnaissance de la parole realises jusqu 'h main- t e n a n t e ta ien t l imites au n iveau acoust ique. I1 est m a i n t e n a n t cer ta in que cela est insuffisant et que le t r a i t e m e n t de la paro le dol t 6tre effectue successi- v e m e n t h plusieurs n iveaux : acoust ique d ' abord , mais aussi syn tax ique , semant ique. . . Ce schema est d 'a i l leurs en accord avec le processus humain [126]. Les t r a v a u x de Tubach [114], Al te r [127] sur le langage F o r t r a n et R e d d y [128] sur la dec ryp tage

m 8 4 - -

Page 9: Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

t. 27, n ~ 3-4, 1972] RECONNAISSANCE DE LA PAI~OLE 9/12

d 'une s6quenee de phonb.mes, cons t i tuen t l e spremiers pas dans cet te direct ion.

V I I I . G O N C L U S I O N

La reconnaissance de la parole a environ v ing t ans d'fige. Les premigres r6al isat ions ont 6t6 propos~es vers 1950, sons la forme d 'appare i l l ages 61ectroniques

caract6r is t iques limit6es. L 'u t i l i sa t ion des ordina- teurs donne, d~s 1958, une lmuvelle dimension aux recherches. Cependant , malgr6 l '~volut ion des ordi- na teurs et des m6thodes d ' ana lyse , cet te science en est encore ~ ses d6buts. En effet, si la reconnaissance en t emps r6el de vocabula i res trSs l imit6s est chose acquise, on est encore loin d ' un syst6me capable de comprendre une conversat ion continue. L 'u t i l i t6 d ' un tel syst~me est d6s h pr6sent indiscutable ; en par t icu l ie r cela changera i t cons id6rab lement les rap- por t s entre l ' homme et la machine.

I1 est permis d 'esp6rer que ces systbmes ver ron t le j ou r dans la d6cennie qui commence. C'est main te- nan t un probl6me plus th6orique que technique, li6

l ' a v a n c e m e n t de la connaissance des processes humains d '6mission et de percept ion de la parole, ct

l ' u t i l i sa t ion de cont ra in tes 6volu6es concernan t le langage.

Mal~uscril recu le 7 oclobre 1971.

BIBLIOGRAPHIE

[ 1 ] LIENARD (J.-S.). La synth6se de la parole : histo- rique et r6alisations actuelles. Bey. Acoust., Fr. (1970), 3, no 11, pp. 204-213.

[2] FATEHCItAND (R.). Machine recognition of spoken words (Reconnaissance par machine de roots parlds). Advances in Computers Academic Press, New York (1960), pp. 193-229.

[3] MARILL IT.). Automatic recognition of speech (Reconnaissance automatique de la parole). 1.R.E. Trans. HFE, U. S. A. (mars 1961), 2,, n ~ 3, Part I, pp. 34-38.

[6] LINDGREN IN.). Machine recognition of human language (Reconnaissance par machine du langage humain), I re pattie. I .E.E.E. Spectrum, U. S. A. (mars 1965), 4, n ~ 3, pp. 114-136.

[5] LINDGREN IN.). Directions for speech research (Voles de recherches sur la parole). I .E.E.E. Spec- trum, U. S. A. (mars 1968), 5, n ~ 3, pp. 83-88.

[6] PIERCE (J.-R.). Whither speech recognition ? (A quoi bon la reconnaissance de la parole ?). J. acoust. soc. amer. (oct. 1969), 46, n ~ 6, pp. 1069-105t.

[7] OLSON (H. F.). Speech processing systems (Les syst6mes de traitement de la parole). I .E.E.E. Spectrum, U. S. A. (fdvr. 1966), 3, n ~ 2, pp. 90-102.

[8] HYDE IS. R.). Recognition of speech by machine (Reconnaissance de la parole par machine). Post. oJJ. Electr. Engrs J., G. B. (1969), 62, n ~ 2, pp. 100-106.

[9] DAVID (E. E.), SELFRIDGE (O. G.). Eyes and ears for computers (Des yeux et des oreilles pour les ordinateurs). Proc. I .R.E., U. S. A. (mai 1962), 50, n ~ 5, pp. 1093-1101.

[10] PFEIFSER (J.). The computer age (L'6re de l 'ordi- nateur). Harper and Row, New York (1965).

[11] WEITZ-~AN (C.). Voice recognition and response systems (Reconnaissance de la parole et unitds h

r@onse vocale). Datamation, U. S.A. (ddc. 1969), 15, n ~ 12, pp. 165-170.

[12] LEA (W. A.). Evaluating' speech recognition work (Les recherches en reconnaissance de la parole). J. acoust, soc. amer. (juin 1970), 47, n ~ 6, pp. 1612- 1614.

[13] DEWEZE (A.). Techniques de reconnaissance auto- matique. Automatisme, Fr. (mars 1966), 9, n ~ 3, pp. 95-102.

[16] VICENS (P.). Aspects of speech recognition by computer (Quelques aspects de la reconnaissance de la parole par ordinateur). These de Ph. D., Stanford University, U.S.A., Memo AI-85 (avril 1969).

[15] LEA (W. A.). Establishing the value of speech communication with computers (Validitd de la communication parlde avec un ordinateur). I .E.E.E. Trans., A U, U. S. A. (t968), 16, n ~ 2, pp. 18~-197.

[16] SITTON (G. A.). Acoustic segmentation of speech (Segmentation acoustique de la parole). Int. J. Man-Machine Studies, U . S . A . (janv. 1970), 2, n ~ 1, pp. 61-102.

[17] MOLES (A.). Th6orie de l ' information et perception esthdtique. Flammarion, Paris, Fr. (1958), 221 p.

[18] PETERSON (G. E.), BARNEY (H. L.). Control methods used in a study of the vowels (Les m6thodes de contrble utilisdes darts une 6rude de voyelles). J. acoust, soc. amer. (mars 1952), 24, n ~ 2, pp. 175-184.

[19] LAFON (J. C.). Message et phondtique. Introduction l 'dtude acoustique et physiologique du phon6me.

Presses univ. de France, Paris, Fr. (1961), 167 p. [20] REEDY (D. R.), VIeENS (P. J.). A procedure for

the segmentation of connected speech (Une procd- dure de segmentation de la parole continue). J. Audio Eng. Soc., U.S.A. (1968), 16,no 4, pp. 606-611.

[21] LIENARD (J. S.), TEIL (D.). Les dldments phond- tiques et la traduction automatique du message dcrit en message parld. Automatisme, Fr. (oct. 1970), 15, n ~ 10, pp. 505-513.

[22] HATON (J.-P.), LAMOTTE (M.). Etude statistique des phonemes et des diphon6mes dans le fransais parld. Rev. Acoust., Fr. (1971), 4, n ~ 16, pp. 258-262.

[23] GILMOUR (W. D.). A general purpose phonemic transcriptor (Un syst6me gdndral de transcription phondtique). I .E.E. Conj. on pattern recognition, Teddington, G. B. (juil. 1968), publ. n ~ 62, pp. 154- 167.

[26] SEBESTYEN (G.). Decision-making processes in pattern recognition (Mdthodes de ddcision en recon- naissance de formes). McMillan, New York (1962), 162 p.

[25] NILSSON IN.). Learning machines. Foundations of trainable pattern classifying systems (Les machines h apprendre. Les fondements des syst6mes qui pen- vent ~tre exercds ~ classer des donndes). MacGraw- Hill, New York (1965), 137 p.

[26] Ho (Y. C.), ACRAWALA (A. K.). On pattern reco- gnition algorithms. Introduction and survey (Les algorithmes de reconnaissance de formes. Introduc- tion et revue). I .E.E.E. Trans., AC, U. S. A. (1968), 13, n o 6, pp. 676-690.

[27] " '* Special issue on fast Fourier transform (Numdro spdcial sur les transformdes rapides de Fourier). I .E.E.E. Trans., AU, U. S. A. (juin 1969), 17, n ~ 2, pp. 65-186. --COOLEY (J .W.) , TUCKEY (J. W.). An algorithm for the machine calculation of complex Fourier series (Un algorithme de calcul automatique de sdries de Fourier complexes). Math. o/ Compu- tation, U. S. A. (avril 1965), 10, n ~ 90, pp. 297-301.

[28] FAVELLA (L.), REINERI (M.), RIGHINI (G.). On a mathematical procedure for detecting significant parameters in the classification of a statistical ensemble of phenomena and its applications (Sur une procddure mathdmatique de ddtection de parR-

- - 8 5 - -

Page 10: Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

10/12 a.-P. nil-TON [ANNALE$ DES TELECOMMUNICATIONS

m~tres reprdsentatifs darts la classification d'un ensemble statistique d'~vdnements. Applications). Kybernetik, Dtsch. (1969), 5, n ~ 5, pp. t87-193.

[29] LECOUnS (M.), SPANKS (J. J.). Adaptative spectral analysis for speech sound recognition. (Analyse adaptative pour la reconnaissance de sons). I . E . E . E . Trans., A U , U. S. A. (1968), 16, n ~ 4, pp. 523-525.

[30] RISSET (J. C.). Sur certains aspects fonctionnels de l'audition. A n n . T~ldcomm., Fr. (mars-avril 1968), 23, no 3-4, pp. 91-120.

[31] LICKLIDER (J. C. R.). On the process of speech perception (Sur le processEs de perception de la parole). J. acoust, soc. amer. (sept. 1952), 24, n ~ 5, pp. 590-594.

[32] DUDLEY (H.). Remaking speech (Synth~se de la parole). J. acoust, soe. amer., U. S.A. (1939), 11, pp. 169-177.

[33] SCUnOEDER (M. R.). Vocoders : analysis and syn- thesis of speech (Vocoders : analyse et synthbse de la parole). Proe. I .E .E .E . , U. S. A. (1966), 54, n ~ 5, pp. 720-734.

[34] FLETCHER (H.). Speech and hearing in communica- tion (La parole et l'ouie en communication). Van Nostrand Co., Princeton, U. S.A. (1965), 331 p.

[35] DUGRAVOT (M. J.), HATON (J.-P.), LAMOTTE (M.), BnEMONT (J.). Recherches actuelles sur l'extraction de caractdristiques et la reconnaissance de la voix parl~e. Automat isme, Fr. (ddc. 1970), 15, n o t2, pp. 646-649.

[36] CHANG (S.), PIHL (G. E.), ESSIGMANN (M. W.). Representation of speech sounds and some of their statistical properties (Reprdsentation des sons et leurs propri~tds statistiques). Proc. I .B .E . , U. S. A. (f~vr. 1951), 39, n ~ 2, pp. 147-153.

[37] FIEVET (F.), MAISSIS (A.), WALn~.VE (P.). La reconnaissance en temps rdel de la parole. Automa-

t i sme, Fr. (fdvr. 1970), 15, n ~ 2, pp. 70-77. [38] CLARK (M. T.). Word recognition by means of

orthogonal functions (Reconnaissance de mot par fonctions orthogonales). I .E .E .E . Trans., A U, U. S. A. (1970), 18, no 3, pp. 304-312.

[39] MAJUMDAR (D. D.), DUTTA (A. K.). Some studies on automatic speech coding and recognition proce- dure (Etudes sur le codage et la reconnaissance automatique de la parole). I n d i a n J. Phys. , Ind. (1968), 42, n ~ 7, pp. 425-443.

[40] ToE (J. T.). Feature extraction in pattern reco- gnition (Extraction de parambtres en reconnaissance de formes). Pattern Recognition, U.S .A. (1968), 1, n ~ 1, pp. 3-11.

[41] SEAR (R. W.). Adaptative representation for pattern recognition (Representation adaptative en reconnais- sance de formes). I . E . E . E . Trans., SSC, U. S. A. (nov. 1965), 1, n ~ 1, pp. 59-66.

[42] BENZECnI (J.-P.). Analyse des donn6es multi- dimensionnelles et classification automatique. Acres du Colloque International sur la reconnaissance de formes. Ed. Lab. Electron. Technol. In/ormatique, Grenoble (11-13 sept. 1968), pp. 77-121.

[43] HATON (J.-P.), L~_MOTTE (M.). Extraction de para- m~tres et compression de l ' information; appli- cation h la reconnaissance de la parole. C.R. acad. sci. A , Fr. (sept. 197t), 273, n ~ 10, pp. 415-418.

[44] DnEYFUS-GRA~ (J.). Sonograph and sound mechanics (Sonographe et machines ~ sons). J. aeoust, soc. amer. (nov. 1950), 22, n ~ 6, pp. 731-739.

[45] DaEYFus-GnAF (J.). Actuateur phondtique (Pho- nacteur) et calculateur. Reeue Acoust., Fr. (1970), 3 , n ~ 9, pp. 10-16.

[46] SMITH (C. P.). Phoneme detector (Ddtecteur de phonemes). J. acoust, soc. amer. (juil. 1951), 23, n ~ 4, pp. 446-451.

[47] D~vIs (K. H.) et al. Automatic recognition of

spoken digits (Reconnaissance automatique de chiffres parlds). J. acoust, soc. amer. (nov. 1952), 24, pp. 637-642.

[48] DUDLEY (H.), BALASHEK (S.). Automatic recognition of phonetic patterns in speech (Reconnaissance automatique de formes sonores dane la parole). J. acoust, soc. arner. (aofit 1958), 30, n ~ 8, pp. 72t-732.

[49] OLSON (H. F.), BELAa (H.). Phonetic typewriter (La machine fi dcrire phondtique). J. aeoust, soc. amer. (nov. 1956), 28, n ~ 6, pp. 1072-1081.

[50] OLSON (H. F.), BELAR (H.). Phonetic typewriter I I I (La machine ~ dcrire phondtique n ~ III). J. acoust. soc. amer. (nov. 1961), 33, no 11, pp. 1610-1615.

[51] WIREN (J.), STUBBS (H. L.). Electronic binary system for phonemic classification (Un syst~me ~lectronique binaire pour la reconnaissance de phonemes). J. acoust, soc. amer. (nov. 1956), 28, n ~ 8, pp. 1082-1091.

[52] JAKOBSON (R.) et al. Preliminaries to speech analysis (Prdliminaires ~t l'analyse de la parole). Tech. Rept. Acoustic Labs, M I T , Cambridge, U. S.A. (1952), n ~ 13.

[53] DENES (P.). The design and operation of the mechanical speech recognizer at University College, London (La conception et le fonctionnement de la machine h reconnaltre la parole de l'University College, Londres). J. Brit. I R E , G.B. (1959), 19, n ~ 4, pp. 219-229.

[54] SAKAI (T.), DOSRITA (S.). The phonetic typewriter (La machine h dcrire phondtique). Inform. Processing, Proc. I F I P Congress (1963), pp. 445-449.

[55] FOnGIE (J. W. et C. D.). Results obtained from a vowel recognition computer program (Rdsultats obtenus avec un programme de reconnaissance de voyelles). J. acoust, soc. amer. (nov. 1959), 31, n ~ t, pp. 1480-1489.

[56] FonGiE (J. W. et C. D.). A computer program for recognizing the English fricative consonants []] and [0] (Un programme de reconnaissance des consonnes fricatives anglaises [[] et [0]. Actes du 4 e Congr~s International d'Acoustique, Liege (aofit 1962).

[57] SMITH (J. E. K.), KLEM (L.). Vowel recognition using a multiple discriminant function (Reconnais- sance de voyelles par un discriminant multiple). J. acoust, soc. amer. (mars 1961), 33, n ~ 3, p. 358.

[58] DENES (P.), MATttEWS (M. V.). Spoken digit reco- gnition using time-frequency pattern matching (Reconnaissance de chiffres parl~s par comparaison de formes temps-fr~quence). J. acoust, soc. amer. (nov. 1960), 32, n ~ i t , pp. 1450-1455.

[59] SHULTZ (G. L.). Investigation procedures for speech recognition (Procddures de reconnaissance de la parole). Proc. Seminar on speech compression and processing, Cambridge, Mass., U. S. A. (sept. 1959).

[60] SHOLTZ (P. N.), BAKIS (R.). Spoken digit recognition using vowel-consonant segmentation (Reconnais- sance de chiffres parl~s par segmentation voyelle- consonne). J. aeoust, soc. amer. (janv. 1962), 34, no 1, pp. 1-5.

[61] SuzuKI (J.), NAKATA (K.). Phonemic classification and recognition of Japanese monosyllabes et recon- naissance phondmiques de monosyllabes japonaises). J. Radio Bes. Lab., Jap. (1963), 10, no 49, pp. 269-283

[62] SuzuKI (J.) et al. Formant frequency extraction by the method of moment calculations (Extraction de formants par la m6thode des moments). J. Radio BeE. Lab., Jap. (1962), 9, n ~ 46, pp. 469-485.

[63] TALBERT (L. R.) et al. A real-time adaptive speech recognition system (Un syst+me de reconnaissance de la parole adaptatif en temps r~el). Tech. Rep. Stan/ord Electrical Laboratories, Stanford, U. S. A. (mat 1963), no 6760-1.

- - 8 6

Page 11: Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

�9 27, n ot 3-4, 1972] RECONNAISSANCE DE LA PAROLE 11/12

[6~t] WIDROW (B.) et al. Practical applications for adap- tive date processing system (Applications pratiques des syst6mes adaptatifs de traitement de donndes). Bee. A, Belg. (1968), 10, no 1, pp. 27-39.

[65] HEMDAL (J. F.), HUGHES (G. W.). A feature based computer recognition program for the modeling of vowel perception (Un programme de reconnaissance de voyelles par param6tres distinctifs). Proc. Symp. on Models for the perception of speech and visual forms. AFCRL (nov. 1964), pp. 108-11~,.

[66] BEZDEL (W.), CHANDLER (H. J.). Results of an analysis of recognition of vowels by computer using zero-crossings data (Rdsultats d'une analyse des voyelles et de leur reconnaissance par une calcula- trice utilisant des donndes de passage ~ zdro). Proe. Inst. electr. Engrs, G.B. (1965), 112, n ~ pp. 2060-2066.

[67] KING (J. H.), TUNIS (C. J.). Some experiments in spoken word recognition (Quelques expdriences en reconnaissance de roots parlds). I B M J., U. S. A. (1966), 10, n ~ I, pp. 65-79.

[68] GOLD (B.). Word recognition computer program (Un programme de reconnaissance de roots). Tech. Rep. Lincoln Lab., MIT, Cambridge, U .S .A. (1966), n ~ 452.

[69] PRUZANSKV (S.). Pattern matching procedure for automatic taker recognition (Procddure de compa- raison de formes pour la reconnaissance automatique d'un locuteur). J. acoust, soc. amer. (mars 1963), 35, n ~ 3, pp. 354-358.

[70] ATAL (B. S.). Automatic speaker recognition based on pitch contours (Reconnaissance automatique de locuteurs par la mdthode du pitch). J. acoust, soe. arrter. (mars 1969), 45, n ~ 3, p. 309.

[71] WOLF (J. J.). Acoustic measurements for speaker recognition (Mesures acoustiques pour la reconnais- sance de locuteurs). RLE Quart. Prog. Rep., MIT, Cambridge, U. S. A. (15 juil. 1969), n ~ 94, pp. 216- 222.

[72] D r W. S. Identification des personnes par la spectro- graphie vocale. Automatisme, Ft. (juil.-aofit 1963), 8, no 7-8, pp. 280-281.

[73] STEVENS (M. E.). Selected pattern recognition pro- jects in Europe (Une sdlection de projets de recon- naissance de formes en Europe). Pattern Recognition, U. S. A. (1968), 1, n ~ 2, pp. 103-118.

[7~] REDDY (D. R.). Segmentation of speech sounds (Segmentation de la parole). J. acoust, soc. amer. (fdvr. 1966), 40, n ~ 2, pp. 307-312.

[75] REDDY (D. R.), ERMAN (L. D.), NEELY (R. B.). The CMU speech recognition project (Le projet de reconnaissance de la parole de Carnegie-Mellon Un'versity). Computer Science Dept, CMU, Pitts- burgh, Pa., U .S .A. (1971).

[76] BoBRow (D. G.), KLATT (D. H.). A limited speech recognition system (Un syst6me limitd de reconnais- sance de la parole). Proc. AF1PS Full/oint Compu- ter Conf., Thompson, Washington, U .S .A. (1968), pp. 305-318.

[77] MEDRESS (M.). Computer recognition of single- syllabe English words (Reconnaissance sur ordina- teur de mots anglais monosyllabiques). 77 e Meeting A .S ,4 (1969).

[78] OHLENDORr (R. C.), COATES (C. L.). Recognition of spoken digits utilizing sequential patterns (Recon- naissance de chiffres parlds avec des formes s6quen- tielles). Rep. CFSTI, Texas Univ., U. S. A. (1968), n ~ 69-30170.

[79] MAKHOUL (J. I.). Speaker-machine interaction in a limited speech recognition system (Interaction homme-machine dans un syst6me limit6 de recon- naissance de la parole). RLE Quart. Prog. Rep., MIT, Cambridge, U. S. A. (I970), no 96, pp. 195-202.

[80] KELLER (T. G. yon). An on-line recognition system for spoken digits (Un syst6me de reconnaissance en temps r6el de chiffres parl~s). J. acoust, soc. amer. (cyril 1971), 49, n ~ 4, pp. 1288-1296.

[8t] EwlNc (G. D.), TAYLOR (J. F.). Computer reco- gnition of speech using zero-crossing information (Reconnaissance de la parole sur ordinateur h l'aide d'information de passage par zdro). I.E.E.E. Trans., AU, U. S. A. (1969), 17, n ~ 1, pp. 37-40.

[82] ITO (M. R.), DONALDSON (R. W.). Zero-crossings measurements for analysis and recognition of speech sounds (Mesure de passage par zdro pour l'analyse et la reconnaissance de la parole). I.E.E.E. Trans., AU, U. S. A. (1971), 19, no 3, pp. 235-242.

[83] MILLER (J. C.) et al. An adaptive speech recognition system operating in a remote time-shared computer environment (Un syst6me adaptatif de reconnais- sance de la parole sur ordinateur en temps partagd). I.E.E.E. Trans. AU, U.S .A. (1970), 18, n ~ 1, pp. 26-32.

[84] TEACI-IER (C. F.), KELLETT (H. G.}, FOCHT (L. R.). Experimental, limited vocabulary speech recognizer (Un systdme expgrimental de reconnaissance de la parole a vocabulaire limitg). I.E.E.E. Trans. AU, U.S .A. (1967), 15, n ~ 3, pp. 127-130.

[85] Foc~T (L. R.). The single equivalent formant (Le formant dquivalent unique). I.E.E.E. Int. Commun. Con]. Digest, U. S.A. (juin 1966), 2, n ~ 19 C 30, p. 108.

[86] VONUSA (R. S.), FOCHT (L. R.). A spoken word recognizer incorporating semiautomatic speaker adaptation (Un syst6me de reconnaissance de mots avec adaptation semiautomatique au locuteur). Proc. I.E.E.E. Con]. on feature extraction and selection in pattern recognition, Argonne, Ill., U. S. A. (oct. 1970), p. 256.

[87] KATO (Y.) et al. Speech processing equipment; advanced studies (Les syst6mes de traitement de la parole; 6tudes avancdes). NEC Res. develop., Jap. (janv. 1971), no 20, pp. I-7.

[88] CHIBA (S.). Spoken word recognition by multiple linear separation (Reconnaissance de mots parlds par sdparation lin6aire multiple). Actes 6 e CongrOs Int. d'Aeoustique, Tokyo, Jap. (ao~t 1968), Papier B4-4.

[89] KUREMnTSU (A.), INOUE (S.). Speech recognition with time-normalized frequency pattern (Reconnais- sance de la parole avec des formes frdquentielles normalisdes en durde). Acres 6 e Congrds Int. d'Acous- tique, Tokyo, Jap. (aofit 1968), Papier B 4-5.

[90] KrDO (K.), KASUYA (H.), SUZUKI (H.). Discrimi- nation of Japanese vowels in connected speech (Discrimination de voyelles japonaises dans la parole continue). Acres 6 e Congrds Int. d'Accoustique, Tokyo, Jap. (aofit 1968), papier B 4-6.

[91] ITAFIASHI (S.), SUZUKI (H.), KIDO (K.). Several statistics of Japanese words with applications to word recognition (Plusieurs statistiques concernant les roots japonais avec application ~ la reconnaissance de roots). Aetes 6 e Congrds Int. d'Acoustique, Tokyo, Jap. (ao6t 1968), papier B 4-2.

[92] VELICHKO, ZAGOnHVK, en russe. Reconnaissance automatique d'un ensemble de commandes orales. Vychislit. sist., U. R. S. S. (1969), 36, pp. 101-tl0.

[93] VYsocKiY (G. Y.) et al. An experiment in oral control of a computer (Essai de commande orale d'un calculateur). Eng. Cybernetics, U. S. A. (1970), 8, n ~ 2, pp. 320-327.

[96] SEMENOVA (E. T.). Analysis of speech recognition criteria (Analyse des crit6res de reconnaissance de la parole). Foreign Techn. Di% Wright-Patterson AFB, Ohio, U. S.A. avril 1968), no AD 680-571.

[95] TRUNIN-DoNsKH (V. N.). Recognition of spoken

- - 8 7 - -

Page 12: Reconnaissance de la parole, bilan de vingt années de recherches et tendances actuelles

12/12 J . -p . HATON [ANNALES DES T~L~:EOMMUNiCATIONS

[101]

[102]

[103]

word ensembles with the aid of a digital computer [110] (Reconnaissance d 'un ensemble de mots parl6s, l 'aide d'un ordinateur). Works on Technical Cyber- netics, Moscou, U. R. S. S. (1969).

[95] MYASNIKOV (L. L.) et al. Infrasonic cues for the [111] automatic recognition of speech sounds (R6gles infrasoniques pour la reconnaissance de la parole). Soviet. Phys. Acoust. (avril-juin t969), 14, n ~ 4, [112] pp. 522-524.

[97] POLS (L. C. W.). Real time recognition of spoken words (Reconnaissance en temps rdel de mote [ l l3 ] parlds). I .E.E.E. Trans. C, U . S . A . (1970), 20, n ~ 9, pp. 972-978.

[98] ZWICKER (E.), HESS (W.), TERHARDT (E.). Erken- [114] Rung gesprochene Zahlworte mit Funktionsmodell und elektronischer Rechenanlage (Reconnaissance [115] de chiffres parlds avec des mod61es de fonctions et un ordinateur). Kybernetik, Dtsch. (1967), 3, n ~ 6, pp. 267-272.

[99] ANKE (D.), HOESCHELE (P.). Einfache Erkennung- sgerate fur die gesprochenen Zahlen NULL bis [116] NEUN (Un dquipement de reconnaissance simple pour les chiffres parlds (( zdro )> ~ (( neuf ))). Kybernetik, Dtsch. (1968), 4, n ~ 6, pp. 228-234.

[100] TILLMANN (H. G.) et al. DAWIDI , ein Beitrag zur automatischen Spracherkennung (DAWIDI, un appareil de reconnaissance automatique de la [117] parole). Actes 5 e Congrds Int.. d'Acoustique, Li6ge (7-14 sept. 1965), papier A t2. HINRICHS (O.), GONSCHOREK (J.). Ein Spracher- kennungsger~t mit selbsttahger Anpassung an [118] Sprachgeschwindigkeit und Laust~rke (Un syst6me de reconnaissance de la parole comportant une auto- adaptat ion au ddbit et h l 'intensitd de la parole). [119] Nachr.-tech. Z., Dtsch. (avril 1971), 24, n ~ 4, pp. 177- 182. FAVELLA (L.), REINERI (M.), RIGIIINI (G.). The probabilistic classification of time sequences and its [120] application to the recognition of human voice (La classification statistique de sdquences temporelles et son application h la reconnaissance de la voix humaine). Nuovo Cimento, Ital. (1 er avril 1965), 36, n ~ 3, pp. 1023-1034. [121] GILLI (L.), MEO (A. R.). Sequential system for recognizing spoken digits in real time (Syst6me sdquentiel de reconnaissance des chiffres parlds en temps rdel). Acustiea, Dtsch. (1967-1968), 19, n ~ 1, [122] pp. 38-48.

[104] MEO (A. R.), RIGUINI (G.). Riconoscitore istantaneo di sugni vocalici (Un syst6me de reconnaissance en temps rdel des sons vocaux). Aha Freq., Ital. (avril [123] 1965), 34, n ~ 4, pp. 256-263.

[105] DE MORI (R.), GILLI (L.), MEO (A. R.). A flexible real-time recognizer of spoken words for man- machine communication (Un dispositif en temps rdel [124] souple pour l ' identification de roots dans la commu- nication homme-machine). Internation. Y. Man- [125] Mach. Studies, U. S. A. (oct. 1970), 2, no 4, pp. 317-326.

[106] SHEARME (J. N.), LEACh (P. F.). Some experiments with a simple word recognition system (Quelques exp6riences avec un syst6me simple de reconnais- [126] sance des roots). I .E.E.E. Trans. A U, U . S . A . (juin 1968), 16, n ~ 2, pp. 256-261.

[107] G~LMOUR (W. F.). Electronic speech recognition (Reconnaissance de la parole par syst6mes 6lectro- [127] niques). Wireless World, G.B. (fdvr. 1969), 75, n ~ 1400, pp. 76-80.

[108] FERRIEU (G.) et al. Synth6se et reconnaissance de la parole sur calculateur. Echo des recherches, Fr. [128] (juin t968), n ~ 53, pp. 30-42.

[109] TUBACII (J.-P.). Reconnaissance des chiffres parlds. Colloque Int. sur la tdldinformatique, tome I, Paris (mars 1969), pp. 269-274.

LAMOTTE (M.), BREMONT (J.), HATON (J.-P.). Simulation de la reconnaissance des formes vocales par apprentissage. Acad. sci. A, Fr. (11 aofit 1969), 260, n ~ 6, pp. 286-288. MERCIER (G.). Approximation stochastique et recon- naissance aeoustique d 'un vocabulaire limitd. Ann. TgIdcomm., Fr. (mai-juin 1970), 25, n ~ 5-6, pp. 207-216. CASTAN (S.), PERENNOU (G.). Sdparation lindaire des formes par apprentissage. C.R. Acad. Sci., Fr. (1966), 262, pp. 52-54. GRESSER (J. Y.), MERCIER (G.). Exemple de recon- naissance automatique de la parole. Commut. et Electron., Fr. (janv. 1971), 32, pp. 48-63. TusxcH (J.-P.). Reconnaissance automatique de la parole. Thdse d'Etat, Univ. Grenoble, Fr. (juillet 1970). HALLE (M.), STEVENS (K.). Speech recognition : a model and a program for research (Reconnaissance de la parole : un mod61e et un programme de re- cherche). 1.R.E. Trans. IT , U . S . A . (fdvr. 1962), 8, n ~ 2, pp. 155-159. ZADELL (H. J.) et al. Acoustic recognition by analog-feature abstraction techniques (Reconnais- sance acoustique par techniques d'abstraction de param6tres). Proc. Syrup. on models ]or the percep- tion of speech and visual forms, Boston, U. S. A. (nov. 1964). LEVY (J. C.). Reconnaissance des configurations dynamiques. Syst6me nfixte, structural et auto- adaptatif. Automatisme, Fr. (nov. 1970), 15, n ~ 11, pp. 574-58O. HERAULT ( J . ) . Reprdsentation dlectronique du neu- rone et mod61es de rdseaux nerveux. Thdse, Univ. Grenoble, Ft. (1970). SPARKES (J. J.). Pat tern recognition and a model of the brain (Reconnaissance de formes, un modble du cerveau). Internation. J. Man-Mach. Studies, U . S . A . (juil. 1969), 1, n ~ 3, pp. 263-278. HILL (D. R.). An Esoteric approach to some pro- blems in automatic speech recognition (Une approche (( Esoteric ), de quelques probl6mes en reconnaissance automatique de la parole). Internation. J. Man- Mach. Studies, U. S. A. (1969), 1, n ~ 1, pp. 101-121. DANSAC (J.), CAPUANO (M.). Quelques techniques simples de traitement de l ' information par proc6dds optiques. Ondc dlectr., Fr. (mars 1968), 48, n ~ 492, pp. 205-208. LEVERINGTON ( D . ) . Speech recognition using optical filtering (Reconnaissance de la parole par filtrage optique). I .E.R.E. Conf. Proc., U . S . A . (1969), n ~ 14, pp. 298-299. WILSON (Q. C.). Optical processing in speech reco- gnizer development (Traitement de donndes optiques pour le ddveloppement de la reconnaissance de la parole). I .E.E.E. Trans. AU, U. S. A. (jute 1968), 16, n ~ 2, pp. 280-287. PAVEL (M.). Reconnaissance des structures, Her- mann, Paris (1969), 236 p. MILLER (G. A.). The psycholinguists. On the new scientists of language (Les psycholinguistes, nou- veaux scientifiques du langage). Encounter, U. S. A. (1964), 23, n ~ 1, pp. 29-37. MILLER (G. A.). Decision units in the perception of speech (Les unitds de ddcision dans la perception de la parole). I .R.E. Trans. IT , U. S. A. (fdvr. 1962), 8, n ~ 2, pp. 8t-83. ALTER (R.). Utilization of contextual constraints in automatic speech recognition (Utilisation du contexte en reconnaissance de la parole). I .E.E.E. Trans. Audio, U . S . A . (1968), 16, n ~ 1, pp. 6-11. REDDY (D. R.), ROBINSON (A. E.). Phoneme-to- Grapheme translation of English (Traduction de phon6mes en graph6mes de la langue anglaise). I .E.E.E. Trans., AU, U. S. A. (janv. 1968), 16, n ~ 2, pp. 240-246.

- - 8 8 - -