17

Click here to load reader

Analyse de la parole par les méthodes de modélisation paramétrique

Embed Size (px)

Citation preview

Page 1: Analyse de la parole par les méthodes de modélisation paramétrique

pp. 253-269 253

Analyse de la parole par les m6thodes de mod61isation param6trique

Claude G U E G U E N *

Analyse

Cet article propose une synth~se des m~thodes rdcentes d'analyse du si#nal appliqudes dt la parole. Aprbs avoir rappeld comment la qualitd de l'analyse conditionne encore le ddveloppement des principales applications du traitement de parole, l'auteur effectue un survol critique des m~thodes d'analyse classiques (non paramdtriques) disponibles. L'attention se porte, dans un deuxibme temps, sur les mdthodes paramdtriques de moddlisation. On donne une introduction gtla prd- diction lindaire dans le cas d'un horizon court, oit la matrice de corrdlation estimde n' est plus de Toeplitz. On montre comment, 9rgtce ?l la notion de ran9 de ddplacement qui caractdrise la distance ?l Toeplitz d'une matrice quelconque, l'existence d'algorithmes rapides, du type Levinson, rdcursifs en ordre ou en temps peut ~tre maintenue. Enfin, exploitant les rdsultats precedents, on examine quatre domaines rdcents prenant en compte le caractkre non stationnaire du signal de parole : �9 l'analyse par des mdthodes globales sur des fen~tres courtes, en prdsence de bruit, avec r~solution frdquentielle variable ; �9 l'analyse par des mdthodes multi-impulsionnelles moddlisant les ~v~nements d' entr~e par un train d'impulsions ; �9 l'analyse par des mdthodes gvolutives oit le modkle, ?t paramktres variables, intbore les transitions entre zones stationnaires ; �9 I'analyse par des mdthodes r~cursives adaptatives par des algo- rithmes rapides avec ddtection synchrone dYv~nements. L'article se termine par une perspective sur l'dvolution du domaine.

Mots el~s : Analyse parole, Mod61isation, M6thode para- m6trique, Analyse signal, Article synth~se, Mod61e autor6gressif, Moyenne mobile, Matrice eovariance, Matrice Toeplitz, Signal non stationnaire, Fen~tre temporelle, M~thode globale, R6cursi- vit6.

SPEECH ANALYSIS BY PARAMETRIC M O D E L L I N G

M E T H O D S : A SURVEY

Abstract

This paper provides a survey of recent speech analysis techniques. After stressin9 the value of a precise and

accurate analysis technique in most of speech processing applications, the basic parameter extraction methods are critically summarized. Attention is then focused on parametric modelling methods as applied to speech analysis. After a restatement of the linear prediction principles and associated fast algorithms, the three followin9 topics are examined in some depth : �9 91obal analysis methods on short time windows, with variable frequency resolution, and with additive noise ; �9 91obal analysis by multipulse techniques ; �9 time evolving methods where a time varyin 9 parametric model is adjusted to model the transitions between quasi- stationnary periods ; �9 time adaptive sequential methods usin9 fast (Kalman, Cholesky...) algorithms along with a synchronous detection of temporal events.

Key words : Speech analysis, Modelization, Parametric method, Signal analysis, Review, Autoregressive model, Moving average, Covariance matrix, Toeplitz matrix, Non stationary signal, Time window, Global method, Recursivity.

Sommaire

1. Motivations.

2. Critique des mdthodes d'analyse traditionnelles.

3. Mdthodes paramdtriques de moddlisation de la parole.

4. G~n~ralitds sur les modOles ARMA.

5. Structure des matrices de covariance et algorithmes rapides.

6. Mgthodes globales ?~ horizon court en parole.

7. Mdthodes multi-impulsionnelles.

8. M~thodes 9lobales gt temps variable.

9. Mdthodes sdquentielles avec d~tection d'dvdnement.

10. Conclusion et perspectives.

Bibliographie (66 rdf ).

* ENST, D6pt. ~ Syst~mes et Communications >>, CNRS UA 820, 46, rue Barrault, 75634 Paris Cedex 13.

1/17 Ass . T~L~CO~UN., 40, n ~ 5-6, 1985

Page 2: Analyse de la parole par les méthodes de modélisation paramétrique

254 C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODt~LISATION PARAMI~TRIQUE

1. MOTIVATIONS

Apr~s de nombreuses anndes de recherche en traitement automatique de la parole, on peut s'Stonner de l'intSr~t persistant pour le probldme tie l'analyse du signal vocal qui se pose prdalablement /t tout traitement. II apparait, en effet, que, malgrS les succ~s obtenus ces derni~res anuses dans l'industria- lisation d'Squipements de synth~se et de reconnais- sance, le dSveloppement de produits plus SlaborSs clans le futur, reste ddpendant en partie, de la qualit6 de l'analyse :

�9 en synth~se de la parole, l'amSlioration de la qualit6 et du naturel de la voix synthStique demande, au-delh d'un bon module du canal vocal, une meilleure comprdhension du moddle des sources (cordes vocales, constrictions dans le canal...). I1 s'agit d'un probl~me de dSconvolution particulidrement d~licat car seulle signal vocal de sortie est accessible ;

�9 en transmission, dans la ligne des progr~s rScents rSalisds en codage (normalisation du 32 kbit/s), on cortstate que les applications actuelles ne peuvent plus faire abstraction des mauvaises conditions de prise de son. Dans la t61Scommunication avec les mobiles, les signaux de parole sont entachSs de bruit (par exemple, moteur, vibrations, Scoulements fluides en automobile). Dans une audioconfSrence, plusieurs locuteurs peuvent se superposer, la t61Sphonie ~t mains-libres nScessite donc de prendre en compte des Schos complexes. Toutes ces applications deman- dent des prStraitements SlaborSs (soustraction de bruit, antennes acoustiques...) ;

�9 en reconnaissance automatique de la parole, apr~s les succ6s de la reconnaissance de mots isolSs ou enchMn6s, la situation est plus confuse en ce qui coneerne la parole continue. Tous les syst~mes de reconnaissance analytique comportent un 6tage prSa- lable de reconnaissance acoustique d'61Sments phonS- tiques (sons 61Smentaires, centisecondes...) dont la qualitS plafonne vers 70 70. Dans l'6tat actuel de l'art et malgrS tousles espoirs fond6s sur les niveaux supSrieurs, les treillis phon&iques reconnus sont encore tellement incertains qu'ils ne peuvent ~tre corrigSs par les algorithmes traditionnels de dScodage. Ceci entra~ne un surcroR de travail aux niveaux syn- taxiques et s6mantiques, charge qu'ils ne sont pas souvent en 6tat d'assurer, sauf en pr6sence de contraintes draconiennes sur l'application. I1 semble done nScessaire, encore h l'heure actuelle, de tirer parti au maximum de l'analyse acoustique en aban- donnant l'espoir encore trop ineertain d'une correc- tion descendante des hypoth6ses, Smises sans suffi- samment de vraisemblance, par le niveau acoustique. II va sans dire que cette d6marche vers une analyse plus fine implique une sensibilit6 plus grande au

locuteur et il apparaR de plus en plus important de ne pas dissocier reconnaissance de la parole et reconnaissance du (ou adaptation au) locuteur.

I1 nous semble done difficile d'6chapper, pour l'instant encore, au probldme de fond que repr6sente la complexit6 intrinsdque du signal de parole. Celui- ci, comme la plupart des signaux biologiques, est un signal non stationnaire, dot6 de ruptures brusques, de transitions, d'artefacts temporels... Une analyse rudimentaire se rdvdle insuffisante pour en capter les traits pertinents.

Les techniques de traitement du signal ont cepen- dant fait des progrds notables ces dernidres ann6es, tant sur le plan des m6thodes que sur celui de la mise en oeuvre. D'ailleurs, dans beaucoup de cas, ces progrds ont pu ~tre accomplis avec pour objectif le traitement de la parole comme, par exemple, pour ce qui concerne la pr6diction lindaire (LPC) ; mais, sans doute h cause de l'ampleur de la t~che ~ rSaliser, peu de ces mSthodes rScentes ont abouti h des appli- cations opSrationnelles.

C'est l'examen des rSsultats de ces mSthodes d'analyse appliqu6es au domaine de la parole qui fera l'objet de cet article. Depuis la prSdiction linSaire classique qui a fait l'objet d'un article de synthdse prScSdent [1], des mSthodes de modSlisation plus SlaborSes sont maintenant disponibles pour rSpondre aux probl~mes complexes rencontrSs :

(i) mSthodes globales, c'est-h-dire, &ablissant un moddle moyen sur un intervalle temporel, applicables

des fen~tres courtes, infSrieures h la pSriode fonda- mentale ; mSthodes/t rSsolution variable introduisant une distorsion de l'axe des frSquences et un effet de loupe dans une rdgion privilSgiSe ; mSthodes &analyse en prSsence du bruit;

(ii) mSthodes multi-impulsionnelles, consistant ~t faire porter une partie importante de I'effort de modS- lisation sur l'entr6e. Celle-ci est assimilde h un train d'impulsions convenablement positionnSes et estimdes en amplitude. La technique revient ~t faire absorber ~t cette entrSe ddterministe les non-stationnaritSs et la modSlisation de la phase ;

(iii) m&hodes rScursives sSquentielles, c'est-~t-dire, actualisant ~t chaque nouvel Schantillon, un moddle instantanS qui s'adapte au cours du temps aux varia- tions du systdme gSnSrateur du signal. Ces m&hodes effectuent une estimation des moindres carrSs exacts dans diverses conditions (avec oubli, avec mdmoire fixe...) et sont dot6es d'algorithmes rapides. Etles per- mettent en (quasi) synchronisme, la d6tection d'6vdne- ments et de ruptures dans le signal par surveillance du processus d'innovation ;

(iv) m&hodes 6volutives, c'est-~-dire, admettant comme moddle un syst~me h paramdtres variables sur la fen~tre d'analyse ; ainsi, non seulement les zones stables, mais aussi les transitions, sont prises en compte dans un module global. Ces mdthodes

ANN. TI~L~COMMUN., 40, n ~ 5-6, 1985 2/17

Page 3: Analyse de la parole par les méthodes de modélisation paramétrique

C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODI~LISATION PARAMI~TRIQUE 255

dont les algorithmes poss6dent aussi des versions rapides se comparent favorablement aux calculs de spectres instantan6s et autres m6thodes adaptatives et ~t plusieurs niveaux.

Depuis l'introduction des m6thodes d'estimation 61abor6es dans le domaine de la parole [2, 3], tentatives qui pouvaient, b, l'~poque, ~tre consid~r~es comme sp6culatives ou r6serv&s ~ une analyse hors-ligne, des progr6s significatifs ont 6t6 r6alis6s. Des versions rapides du filtre de Kalman, ont vu lejour r6duisant le co~t de calcul ~t un ordre de grandeur proche de celui du gradient. Les processeurs programm6s en traitement du signal sont apparus sur le march6 et offrent de larges perspectives d'augmentation de puissance de calcul. Bien plus, les algorithmes rapides en question se preterit naturellement ~ des architectures parall61es, concourantes, systoliques particuli~rement adapt6es h une mise en oeuvre sous forme de circuits sp6cialis6s ~t tr6s haute int6gration (wsl). I1 ne semble done pas opportun de renoncer, ~t l'heure actuelle, des techniques puissantes d'analyse du signal dans le domaine de la parole, m~me si elles correspondent encore /t des investissements en recherche et en materiel importants.

2. CRITIQUE DES MI~THODES D'ANALYSE TRADITIONNELLES

Les m6thodes traditionnelles &analyse de la parole sont fond6es tr~s largement sur l'analyse spectrale sous diverses formes. C'est aussi le cas pour la pr6- diction lin~aire, au moins dans sa mise en oeuvre classique (m6thode d'autocorr61ation). L'hypoth6se implicite dans ces m6thodes est la quasi-stationnarit6 du signal sous la fen~tre d'analyse. Mais, si elles ont en commun cette hypoth~se, chacune est dot6e d'art6facts particuliers.

Pour des raisons 6videntes de simplicit6 de mise en oeuvre, on a cherch~ tr~s t6t [4, 5], ~ estimer le spectre ou la valeur des premiers formants de la parole par un comptage des passages ~ z6ro du signal et de sa d&iv6e... Cette approche simple est rapidement limit6e car on ne sait lier les propri6t6s spectrales d'un signal ~t la statistique de s:s extremums que dans le cas de signaux gaussiens ~t bande relative- ment 6troite [6]. Cepcndant, on a pu utiliser avec profit ~. des fins de transmission, le codage de ces extremums et de leurs temps &occurrence [7].

Le vocodeur h canaux a toujours ~t6 l'instrumr d'analyse de la parole le plus utilis6. Il permet, en effet, de circonscrire l'op6ration d'analyse dans un dispositif int6gr6 produisant une estimation raison- nable du spectre [8, 9]. Pour une analyse fine (grand nombre de points de fr6quence, r6ponse rapide), les r6sultats obtenus risquent d'etre insuffisants. L'analyse des signaux issus de canaux num6riques

relativement 6troits fait apparaltre des ph6nom6nes perturbateurs de d6phasages, d'ondulation des fronts de mont6e. Un ajustement des constantes de temps des canaux assurant divers compromis (raises en phase, lissage, spectre instantan&..) n'est pas ais6 ~t 6tayer (m~me en en appelant ~t l'insensibilit6 de l'oreille). C'est d'ailleurs darts cet esprit critique qu'ont 6t6 propos6s divers dispositifs de codage diff6rentiel [10]. Une fagon int6ressante de contourner le probl~me des d6phasages engendr6s par les filtres

front raide du vocodeur ~ canaux classiques, est d'utiliser la technique des filtres miroirs en quadrature prenant en compte les recouvrements de bandes adjacentes et assurant une phase lin6aire. Des progr6s r6cents ont 6t6 r6alis6s [11] mais la complexit6 demeure importante.

Les m6thodes d'analyse spectraIe /~ base de trans- formation de Fourier rapide (FFT) b6n6ficient d'une plus grande souplesse dans leurs versions programm6es ou m~me cfibl6es. Mais l'application rigoureuse de ces techniques /t la parole n'est pas sans poser de complexes probl6mes de calcul. La proc6dure com- pl6te est illustr6e par la figure 1 (d'apr6s Carayannis [12]). Le signal de parole (Fig. 1 a) dans une zone quasi stationnaire est pass6 darts une fen~tre de pond6ration de taille convenable (Fig. 1 b), un p6riodogramme plus ou moins liss6 s'en d6duit en figure 1 e (carr6 du module de la trans- form6e de Fourier). Par nature, le spectre correspon- dant est tr6s d6sordonn6 car il r6sulte du produit du spectre (continu) du canal par celui (raies) de la source quasi p6riodique. I1 est difficile d'y discerner les formants d'o0 l'int6r~t d'un lissage par le cepstre. On effectue alors le logarithme du spectre de puissance et une nouvelle FFT donnant le cepstre (Fig. 1 d). Celui-ci s6pare en somme les contributions du canal et de la source qui se trouvaient r6sider dans des zones de fr6quences disjointes. La contribution de la source peut &re alors 61imin6e et la transformation inverse (FFT, exponentiellz) appliqu6e. I1 en r6sulte

parole

.Frrv,,FTv,,.

c)

,.yv,, IV., yv,,, . . . .

~i pectre FFT brut

cepstre

k~..; . . . . ] ..... ~,, 10 15

~i du spectre

Fx~. 1. - - Lissage du spectre de parole par la m6thode du cepstre d'apr6s Carayannis [12].

Spectral smoothing by the cepstral method after Carayannis [12].

3/17 ANN. T~Lt~COMMUN., 40, n ~ 5-6, 1985

Page 4: Analyse de la parole par les méthodes de modélisation paramétrique

256 C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODI~LISATION PARAMI~TRIQUE

une estimation liss6e d.u spectre laissant apparaRre les formants (Fig. 1 e). Mais, h ce stade, aucune param6trisation n'est encore effectu~e, le spectre estim6 est d6fini par la transform6e de Fourier discrete obtenue. C'est au moment de la mise en m6moire des seules fr6quences et amplitudes formantiques que se far la r6duction d'information. A c e titre, une m6thode d'ajustement de fonctions d'ondes forman- tiques est donc une approche int6ressante [13]. I1 reste encore ~t suivre l'6volution des formants, lisser les trajectoires, r6soudre les ambigu'it~s en cas de croisement... I1 apparaR donc qu'une rn6thode d'analyse spectrale non param6trique traditionnelle, convenablement appliqu6e ~t la parole, correspond

un cofit de calcul important.

Les m6thodes classiques de prediction lin6aire n'6chappent pas ~t la critique. Elles fournissent une estimation spectrale qui se d6duit des param6tres d'un mod61e autor6gressif. Quand il s'agit d'une m6thode globale s'appliquant h une fen~tre longue (et supposant donc le signal stationnaire), on montre que l'ajustement d'un module au sens des moindres carr6s revient h minimiser une distance entre le p6riodo- gramme brut du signal et le spectre d6duit du mod61e estim6. On peut d6duire de l'analyse de cette distance certains caract6res sp6cifiques de l'estimation spectrale r6alis6e [16], certains avantages par rapport/t l'analyse spectrale non param~trique [171, mais aussi des propri6t6s asymptotiques comparables pour des fenStres tr~s longues [18]. La m6thode de correlation peut 8tre consid~r6e comme un estimateur spectral avantageux sur le plan op6rationnel, mais demeure soumise aux limitations de l'analyse spectrale tradi- tionnelle dans le cas de signaux faiblement station- naires.

Cette n6cessit6 d'une analyse de qualit6, r6alisable en temps r6el, s'est fait sentir tr6s t6t en codage ~t d6bit moyen (voir une synth6se sur le sujet en [17]). En particulier, ~ l'occasion des normalisations r6centes, les algorithmes adaptatifs de pr6diction ont connu des progr6s consid6rables [18]. C'est pr~cis6ment dans cette optique de la prise en compte du caract~re 6volutif de la parole, mais pour un codage ~t faible d6bit, que seront 6tudi6es les m6thodes pr6sent6es darts la suite.

L'id6e est donc venue de chercher des m6thodes sp6cifiques prenant mieux en compte la nature propre du signal en se basant sur la notion de mod61e selon une d6marche de port6e tr6s g6n6rale r6sum6e en [19]. Pour ce qui est de la parole, deux approches pourraient ~tre tent6es :

(i) l'&ablissement d'un mod61e de connaissance en examinant finement le processus physique des m6canismes de phonation et en mettant en 6quation chacun d'entre eux. Ce type de mod61e a 6t6 r6alis6 [20] et est extrSmement utile au phon6ticien. La m~me d6marche peut ~tre men6e sur les m6canismes de perception et se r6v61e instructive. De tels mod61es ont m~me donn6 lieu h des dispositifs d'analyse originaux [22, 23] s'inspirant de nos connaissances actuelles dans le domaine de l'audition [21]. Ces mod61es visant la compr6hension fine des pMnom6nes sont en g6n6ral complexes (non lin6aires, aux d6riv6es partielles...), n6cessitent l'acquisition de param6tres physiologiques difficiles/t mesurer.., mais sont proches de la r6alit6 physique.

(ii) l'6tablissement d'un mod61e de repr6sentation en cherchant seulement /t simuler le comportement externe du processus g6n6rateur du signal, sans pr&endre/t l'exactitude pour le comportement ~ interne. De tels mod61es ont un but purement op6rationnel ; ils se doivent d'etre simples (lin6aires par exemple) et perdent alors un peu leur caract6re sp6cifique (applicables / t u n e large classe de signaux). Etant ajust6s pour donner une sortie suffisamment proche du comportement recherch6, ils sont tributaires du contexte dans lequel ils ont 6t6 d6termin6s et de la finalit6 qui a pr6sid6 /t leur ajustement.

C'est h cette deuxi6me cat6gorie qu'appartiennent les mod61es envisag6s dans la suite.

La d6marche pour 6tablir un tel mod61e est mainte- nant tr6s classique. C'est un processus d'identification, usuel en automatique, illustr6 par la figure 2. Le syst6me S e t son mod61e M sont soumis /t la m~me entr6e ut. Les sorties correspondantes Yt et Yt sont compar6es et engendrent une erreur et qui est globale- ment 6valu6e par un crit6re statistique. Les param6tres du mod61e sont alors ajust6s par un algorithme d'optimisation.

3. M[~THODES PARAMI~TRIQUES DE MODI~LISATION DE LA PAROLE

3.1. Typologie des modules en analyse de parole.

L'application des m6thodes d'anatyse spectrale au signal de la parole, si elle trouve ses justifications propres dans la notion de formant, correspond h une approche banalis6e du traitement du signal.

systbme + r crit~re

modble

[ [ optimalisation t FIG. 2. -- Processus d'identification par la m6thode du mod61e

avec erreur de sortie.

Output error model identification scheme.

ANN. T~L~COMMUN., 40, n o 5-6, 1985 4/17

Page 5: Analyse de la parole par les méthodes de modélisation paramétrique

C. G U E G U E N . - ANALYSE DE LA PAROLE PAR MODELISATION PARAMI~TRIQUE 257

Un moddle de reprdsentation avantageux et simple est constitu6 par une 6quation rdcurrente auto- rdgressive (AR) :

p

(1) ~ alyt-~ = bout, l = 0

ou auto-rdgressive h moyenne ajustde (ARMA) : p q

(2) Z a ,y,_, = Z b i y , - , , i = 0 i = 0

associ6e ~t une fonction de transfert comportant p p61es et q zdros.

3.2. Les dangers de la mod61isation.

Le processus s'il apparalt conceptuellement simple peut cependant avoir un trSs grand nombre de variantes avec des choix a priori qu'il convient d'ajuster au traitement du signal. De fait, la moddlisation est une entreprise ddlicate :

(i) dans le domaine du signal, en effet, par oppo- sition ~t l 'automatique, on ne dispose que d'une mesure de sortie, l'entrde 6tant par essence inaccessible (probldme de ddconvolution). On en sera donc rdduit h quelques hypothdses relativement neutres sur l'entrde (train d'impulsions, bruit blanc par exemple) ou il sera ndcessaire de l'estimer par un dispositif convenable ;

(ii) les moddles purement AR jouent un rdle pri- vildgi6 en captant l 'information essentielle lide ~t la dynamique du systdme, la position des p61es de la fonction de transfert, lide aux maximums du spectre (formants). C'est l'archdtype d'un modSle de reprd- sentation. La concision de celle-ci repose sur le bon choix des ordres p e t q. I1 est difficile de prdtendre h une reprdsentation rdaliste du canal vocal ;

(iii) l'erreur et aurait pu 8tre 6valude en d'autres points du schdma. I1 est, en particulier, courant pour des raisons de facilit6 de calcul d'dvaluer une erreur dYquation obtenue err ddcomposant le moddle en une partie parallSle et une partie sdrie (zdros et p61es en gdndral). Dans le cas simple d 'un moddle auto-rdgressif souvent utilisd, l'erreur est, en fair, reportde ~t l'entrde en plaqant M -1 en cascade avec S (d'oh le nom de filtrage inverse). On comprend le caractdre prdcaire de ce choix d'aprds (i) ;

(iv) le critdre mesurant l 'addquation du moddle au systdme est, le plus souvent, un critSre statistique simple : moindres carrds (MC), maximum de vrai- semblance, maximum d'entropie... Le signal Yt &ant, de fait, un signal de parole synthdtique, ces crit&es semblent bien pauvres au regard de l'arbitre naturel que serait l 'auditeur humain ;

(v) la partie la moins sujette h question est celle de l'optimisation. C'est pourtant celle qui a donn6 lieu ~t la recherche la plus approfondie. I1 ne fait pas de doute que, darts le domaine de la parole, l'utilit6

de tout le processus est conditionn6e par la possibilit6 d'implantation en temps r6el/t un coot raisonnable. C'est la disponibilit6 d'algorithmes rapides et simples (Levinson) qui a suscit6 le d6veloppement de la pr6- diction lin6aire comme m6thode standard d'analyse.

3.3. Les b~n~fiees de la mod~lisation.

Une moddlisation mende de fa~on non rdfldchie est certes une op&ation ddlicate, mais les bdndfices de la disponibilit6 d 'un moddle compensent de beau- coup les dangers encourus. Analyser un signal n'est pas une op6ration gratuite, ni un but en soi. L' int&& fondamental d 'un moddle est de permettre non seulement une analyse, mais aussi des applications telles que correction, prddiction, classification... Le bdndfice de la moddlisation peut ~tre appr~ci6 sous divers angles :

(i) l'analyse par moddlisation, tout en gardant une grande cohdrence de mdthodes, se pr&e ~t un large 6ventail de variantes permettant d'adapter la technique d'analyse au signal. On travaille en quelque sorte en introduisant, a priori, les connaissances disponibles sur le signal. Ce caract&e sp~cifique de l'analyse se d&ermine en fonction de l'dquilibre retenu entre moddle de connaissance et de reprdsentation ;

(ii) l'analyse par moddlisation est essentiellement rdversible. I1 s'agit d'une analyse par synthdse qui, dans le cas de la parole, peut constituer un but en soi. Mais, de plus, c'est une v&ification a posteriori de la qualit6 des choix au niveau de l'analyse. Par exemple, les moindres carrds retenus pour des raisons de calcul comme crit&e d'optimisation peuvent ~tre ainsi justifids par l'intelligibilit6 de la parole synth&ique ddduite du moddle ;

(iii) la moddlisation exdcute fondamentalement une rdduction de l'information, produisant une reprdsen- ration parcimonieuse (faible nombre de param~tres) du signal. Ces paramdtres appartiennent ~t des espaces mdtriques homog~nes (param~tres de m~me nature). On dispose, par le biais des diverses reprdsentations du m~me moddle, d 'un ensemble de jeux de para- mdtres, 6quivalents entre eux, mais se ddduisant, les uns des autres, par des transformations lindaires ou non (coefficients de corrdlation, de rdflexions, coeffi- cients cepstraux...). Cette propridt6 est particuli&ement avantageuse pour une classification automatique ;

(iv) parmi les reprdsentations qui peuvent se ddduire d 'un moddle, la reprdsentation spectrale revSt une importance particuli&e. La plupart des crit&es d'identification possddent une interprdtation spectrale en terme de distance entre un spectre brut ddduit des mesures et sa version lissde. Bien que les propridtds asymptotiques des estimateurs paramd- triques et non paramdtriques aient 6t6 ddmontrdes similaires, en horizon court, les m6thodes de moddli- sation prdsentent une rdsolution sup6rieure ;

5/17 ANN. T~LI~COMMUN., 40, n ~ 5-6, 1985

Page 6: Analyse de la parole par les méthodes de modélisation paramétrique

258 C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODt~LISATION PARAMETRIQUE

(v) mais t'616ment ddterminant en faveur de la moddlisation, nous semble &re l'&ablissement d 'un dialogue entre temps et frdquence, souvent ddjh recherch6 dans les mdthodes de traitement du signal, mais peu souvent atteint. Dans la procddure d'identifi- cation, le moddle retient dans ses paramdtres un appren- tissage des propridtds ~t long terme du signal ; cepen- dant que la surveillance de l'erreur de prddiction (innovations) permet un diagnostic h court terme de l'dmergence de phdnomdnes transitoires (ruptures, artefacts, transitions...). L'algorithme d'identification pourra ainsi ~tre pilot6 ~t vue et des ddcisions logiques introduites au fil de l'analyse.

4. GI~NI~RALITI~S SUR LES MODI~,LES ARMA

Le moddle ARMA constitue le moddle de reprdsenta- tion par excellence. C'est un moddle externe simple qui ne prdtend pas traduire le fonctionnement interne du conduit vocal, bien que quelques arguments, parfois contestables, aient 6t6 avancds pour justifier cette interprdtation.

4.1. ModUle auto-r~gressif et crit~re des moindres carr6s.

Dans un moddle ARMA gdndral, la partie auto- rdgress ive ( A R ) j o u e un rdle prdponddrant car elle traduit la dynamique propre du systdme (modes, p61es, rdsonances spectrales), la partie ~t moyenne ajustde (MA) (zdros) jouant un r61e de ponddration (rdsidus associds aux modes). On peut donc dans un premier temps se restreindre h l'estimation des para- mdtres a, du moddle (1) avec bo = 1. Faute de mesure sur l'entrde ut , on supposera qu'il s'agit d'une suite de variables aldatoires identiquement distribudes, inddpendantes, de moyenne nulle. Choisissant pour normaliser les a~, la valeur ao = 1, l 'dquation de ddfinition du modSle s'interprdte comme une prddiction lindaire Yt du signal Yt ~t partir de son pass6 rdcent sur p 6chantillons. On a alors :

P

(3) Y, + Z a t y t - i = s t , Y t - - ~vt = s, = ~tt , i = l

considdrant le signal Yt mesur6 sur un intervalle (0, N), il est assez naturel de remplacer les grandeurs non mesurdes Yt, t < 0 et t > N par leur moyenne et ainsi supposer des conditions initiales et finales nulles. L'dquation (3) s'dcrit alors sous forme matri- cielle selon (4) :

(4) Y y ,

Y

Yo

Y l Y o

Yp . . . . . . Yo

Y t . . . . . . Y t - p

YN . . . . . . Y s - p

YN

Soit, encore :

(5)

SO

__ h

I~

Sp

, ao=l . S t

SN

S N + p

Y a = s

L'erreur st rdalisde en moyenne peut 8tre 6valude par un critdre des moindres carrds sur un horizon H ~t choisir :

(6) MC : Z e~ = r162 H

Diverses variantes peuvent ~tre introduites en pon- ddrant diffdremment les erreurs constatdes aux diffd- rents instants (moindres carrds ponddrds) mais on examinera ici surtout le choix de l'horizon H qui est primordial pour les algorithmes. Le critdre MC s'dcrit, en effet, sous forme quadratique :

(7) M C : a v k a avec R = yv y,

on aura ainsi les cas suivants :

(i) H : [0, N + p ] avec N grand. On constate

que/~ est une estimation de la matrice d'autocorrdla- tion R du signal yt (fenStre longue). Cette estimation est d 'autant meilleure que N est grand (mais elle demeure biaisde). La matrice rdsultante a la forme de Toeptitz ;

(ii) H : [0, N + p] avec N petit. Alors R demeure par construction une matrice de Toeplitz, grace aux conditions initiales et finales choisies nulles. Cependant pour N petit (fen~tre courte), il s'agit d'une estimation grossidre de l'auto-corrdlation de

Yt ;

(iii) H : [p, N] avec N petit. Dans le cas oO la fenStre est courte, le choix de conditions initiales et finales nulles est contestable et prend une impor- tance trop grande dans le critdre. On convient donc ici de se restreindre aux seules mesures rdeltement

pratiqudes. La matrice R = y'T y ' n'est alors que la matrice de covariance des vecteurs de mesure de dimension (p § 1) ; c'est cependant le produit de deux matrices de Toeplitz ;

(iv) H : [0, N] (ou H : [p, N + p]). Dans toute estimation cohdrente, l'influence des informations a pr ior i , des conditions initiales (ou finales) a tendance ~t s'estomper. On peut donc considdrer dans le cas d 'un H croissant, que le signal part de conditions initiales (ou finales) nulles, ce qui revient ~ lui faire franchir une fenStre antdrieure (ou postdrieure) rame- nant h zdro les 6chantillons. Dans ce cas intermddiaire,

la matrice /~ sans ~tre de Toeplitz, tend vers R.

ANN. T~L~COMMUN., 40, n ~ 5-6, 1985 6/17

Page 7: Analyse de la parole par les méthodes de modélisation paramétrique

C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODI~LISATION PARAMI~TRIQUE 259

On volt donc, au moins dans le contexte ici retenu, que le probl6me de l'estimation d'un mod61e AR se r6sume ~ la minimisation d'une forme quadratique (7)

off la matrice/~ estim6e peut rev&ir diverses structures selon l'horizon.

4.2. Solution giobale des 6quations normales.

Un horizon H 6tant choisi, la minimisation de la forme quadratique (7) peut ~tre entreprise pour d6terminer les coefficients de pr6diction optimaux. I1 convient de noter t ' importance de la normalisation retenue pour les param6tres a~. Le choix de ao = 1 permettant une interpr6tation de (3) comme une pr6diction, entrainera les conditions d'optimalit6 (8), dites 6quations normales (Le choix d 'une norme unit6 pour a, aurait entraln6 une 6quation aux valeurs propres pour d6terminer a par exemple).

Soit donc le probldme de minimisation avec con- trainte :

M i n a T R a avec ao = 1, a

alors, la solution est donnde classiquement par les 6quations normales, dites de Yule-Walker :

(8)

too ro l �9 . . top:

R a = rol r l l .

I rop rpp_l _ _

_ m

li ~ p

a 1 :

ap

ces 6quations appellent les diverses remarques sui- vantes :

(i) Les 6quations normales se s6parent en deux parties : des conditions d'orthogonalit6 traduisant l'optimalitd de la pr6diction (l'erreur de pr6diction ~t est non corr616e au pass6 du signal), un calcul a posteriori de l'6nergie de l'erreur de pr6diction r6sultante % (valeur de la forme quadratique ~t son minimum). Le vecteur a apparaR, au coefficient 1[% pr6s, comme &ant la premi6re colonne de l'inverse de R.

(ii) L'ordre p de la r6cursion n'6tant pas a priori connu, il est naturel d'explorer des ordres croissants de 0 ~ p. Ce faisant, la suite des pr6dicteurs successifs, produit une d6composition de Choleski de R -1 dans le membre de gauche, tandis que la d6composi- tion correspondante de R se construit dans le membre de droite de (9) :

roo r i o . - . r o p I 1 �9 [ af 1 0

(9) r,o r , , . . . i " 1

_rop . . . . . . rp._ ]_a;" . . . . . . al 1

La prddiction lin6aire n'est donc autre que la recherche des facteurs d~ Choleski de R - 1, soit une racine carr6e de R -1 (quand celle-ci est d6finie positive). Les param6tres a~ et g~ de (9) s'interpr~tent respectivement comme les coefficients d 'un mod61e AR progressif (temps croissants) et d 'un module MA r6trograde (temps inverses) correspondant.

(iii) Les facteurs de Choleski explicitent la forma- tion de la covariance R ~ partir du bruit blanc et ceci sous deux formes correspondant aux facteurs de R-1 et R :

- - les moddles AJ(z) ddduits des a~ forment un ensemble de pr6dicteurs successifs d'ordre crois- sant qui constituent un treillis de filtres inverses d'analyse calculant les innovations du signal (i.e. la partie du signal non prddictible ~ partir du pass6 ~ l 'ordre correspondant) ;

- - les mod61es GJ(z) d6duits des 0~z et g~ forment un ensemble de filtres successifs d'ordre crois- sant qui constituent un treillis de filtres de synth6se, h gain variable reproduisant h partir du bruit blanc, la covariance du signal d'origine.

(iv) Pour une matrice R donn6e il existe deux d6compositions de Choleski selon l 'ordre des facteurs triangulaires sup6rieurs et inf6rieurs adopt6. La d6composition (9') 6change les caract6res progressifs et r6trogrades des mod61es AR et MA "

--roo r l o ' ' ' r o p 1 b; . . . b~,- 1

(9') rio rl i : 0 1 bl

r o p . . . . . . . rpp t _

h ~ 0

~ p - - 1

_ h o . . . . . . . . h f - 1

off ~J(z) est le mod61e AR de pr6diction r6trograde :

J

~vt-j = Z b~ Yt-j~ i = l

et Hi(z) est le mod61e MA (r6ponse impulsionnelle) correspondant.

I1 est int6ressant de noter que la base de l'algorithme classique de Levinson (appliqu6 aux matrices de Toeplitz) consiste ~ conjuguer les calculs des deux d6compositions triangulaires.

4.3. Solution sdquentielle des dquations normales.

Dans la recherche d'une solution globale au pro- bl6me de pr6diction est sous-jacente l'id6e d'une stationnaritd du mod61e. On d6termine ainsi un mod61e moyen sous la fen~tre d'analyse. Cette hypoth6se doit cependant ~tre rejet6e dans de nombreux cas pratiques :

7/17 ANN. T~LI~COMMUN., 40, n ~ 5-6, 1985

Page 8: Analyse de la parole par les méthodes de modélisation paramétrique

260 C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODELISATION PARAMETRIQUE

(i) le signal peut se r6v61er intrins6quement non stationnaire, c'est-~t-dire que les param6tres de son processus g6n6rateur varient au cours du temps. I1 conviendra alors de s'adapter / t ces variations et de produire un mod61e instantan6 de ce processus ;

(ii) le signal, bien que stationnaire, est observ6 de mani6re transitoire, /t travers une fen~tre trop courte mais cependant croissante. I1 conviendra alors de r6actualiser l 'estimation des param&res pour converger au mieux vers les vraies valeurs stationnaires.

Consid6rant un horizon variable H = (s, t) sur lequel est donn6 le signal, on peut songer, /t ordre p fix6, /t r6actualiser au cours du temps les valeurs du vecteur t~ estim6, et passer r6cursivement (sur le temps) de la solution optimale sur un horizon H, /~ celle de l 'horizon H' .

La construction des matrices R pr6c6dentes, montre que l 'on a :

(10) R' = R + Z u , v T, l

off les vl sont des vecteurs de mesure {Yt} ajout6es ou enlev6es de l'intervalle. Par exemple, pour un simple pas en t, h s fix6, on a la r6currence :

( l l ) Rt = Rt_~ + y t Y T avec yT = [Y tY t - I ."Yt-t ,]"

Le probl6me de la r6actualisation de l'estimateur entre done dans le cadre g6n6ral de trouver la pertur- bation sur a r6sultant d 'une perturbation sur R du type (10). Soient, en effet, les 6quations normates :

o[;] o_-[;] avec

(12) R' = R + o r r et R x = v, R ' x ' = v,

on d6montre alors les formules g6n6rales suivantes :

(13) a ' lg ' = a l g + k x , k = (ora)l(1 + vTx) g, X' -- X](1 -]- vTx) , g ' ---- ~. -[- (vTtlt) (vTa ' ) ,

les mSmes formules s'appliquent au pr6dicteur r6tro- grade et appellent les remarques suivantes :

(i) la correction sur a se fait clans la direction du vecteur interm6diaire x solution de (12) donn6 par un syst6me lin6aire se rajoutant aux 6quations nor- males. Cette direction est insensible it la perturbation v, comme le montre (13) o/a x' est colin6aire /t x ;

(ii) dans le cas simple off la perturbation est repr6- sent6e par (11), alors les 6quations (13) s'interpr6tent comme un filtre de Kalman actualisant a' = at /l partir de t 'estimation pr6c6dente a = at_ 1. Le vecteur x est la direction du gain de Kalman dont l 'amplitude est proportionnelle /t l 'erreur de pr6- diction a priori (ova) = y ~ a t_ 1 = et ;

(iii) une autre interpr6tation int6ressante de (13) est celle d 'un gradient optimal du deuxi6me ordre. Ce gradient proc6de dans la direction x, d 'un pas proportionnel/L k pour atteindre le fond du parabo- loide d6fini par la forme quadratique R'.

Sous ces formes g6n6rales, le coot de calcul 6valu6 en nombre de multiplication, repr6sente :

0(p 3) pour la d6composition de Choleski.

0(p 2) par pas pour chaque r6ajustement du type (12).

Of 1 p est l 'ordre du mod61e.

5. STRUCTURE DES MATRICES DE COVARIANCE

ET ALGORITHMES RAPIDES

La formulation g6n6rale pr6c6dente, s'applique ind6pendamment de toute structure particuli6re de la matrice R. Cette structure, li6e au caract6re plus ou moins proche de Toeplitz de la matrice de corr61a- tion estim6e, peut 8tre mise /t profit pour un calcul par des << algorithmes rapides )>.

5.1. Structure et rang de d6placement.

La caract6ristique essentielle des matrices mises en jeu dans R (i.e. : Y ou Y') est de poss6der une pro- pri6t6 d'invariance par d6calage le long de la diagonale caract6ristique d'une matrice de Toeplitz. Pour mettre en 6vidence cette structure, on peut recourir ~t la notion de rang de d6placement [25]. Soit R u n e matrice quelconque, on introduit les partitions sui- vantes off r et s sont des vecteurs-colonnes :

ro rT[ (14) R = =

_ r R I _

i R o S i c t

S T S O

on d6finit la diff6rence M entre R et sa version d6cal6e par Z selon :

a v e c P = R1 - - Ro,

alors, le rang de d6placement (ici inf~rieur) p de R est d6fini par le rang de M.

Une matrice R de Toeplitz sym6trique se caract6rise par P = 0 et poss~de donc un rang de d6placement 6gal ~ 2. La valeur de p peut 8tre ainsi interpr6t6e comme une << distance>> d'une matrice quelconque /t la structure de Toeplitz.

L'utilisation principale du rang de d6placement est un important th6or6me de representation. Consi- d6rant la d6composition g6n6rale de M e n matrices diadiques g6n~ratrices :

p

M = Z g, g'[, g~ = [gog, ... g ,] , , I=1

on en d6duit que toute matrice R est une somme de p produits de matrices de Toeplitz triangulaires [25] :

ANN. T~LI~COMMUN., 40, n ~ 5-6, 1985 8/17

Page 9: Analyse de la parole par les méthodes de modélisation paramétrique

C. G U E G U E N . - ANALYSE DE LA PAROLE PAR MODELISATION PARAMETRIQUE 261

(17) R = ~ G I G T avec G, = 9~ go i = 1

~.. .go l

Choisissant les vecteurs g6n6rateurs de M selon (16), il est int6ressant de faire apparaitre la d6composition :

(18) R = T + ~ V~V~ avec V~ = vl 0 , 1=1 ' "

p . . . V 1 0

e t 8 = p - - 2

o/a T e s t une matrice de Toeplitz (d6finie par les r3 perturb6e par un certain nombre ~ de facteurs trian- gulaires. Diverses interpr6tations de cette d6composi- tion ont pu &re donn6es mais elle sera surtout utilis6e ici pour servir de base aux algorithmes rapides.

5.2. Algorithmes rapides en ordre.

Dans le but de faire apparaitre la d6composition de Choleski de R-1 (pr6dicteurs), on peut raisonner de mani6re r6cursive sur l 'ordre du pr6dicteur. Pour cela, consid6rant les partitions (14) de R, on supposera connus les pr6dicteurs direct (ou progressif) ao, r6trograde b l , et les vecteurs auxiliaires xl ~ l 'ordre ( p - - l) :

Io o] Roao = , R l b x = , Rox l = vi . 1

Alors, la solution b. l 'ordre p se d6duit de combinaisons lin6aires simples :

(i) Le passage au pr6dicteur direct d'ordre sup6rieur a s'effectue en ajustant un coefficient de rdflexion k

tel que :

i ~ ) ao + k bl

0

= + k b = .

Ce pas de calcul est analogue tt celui de l'algorithme classique de Levinson (h part que b~ n'est pas ici le r6ciproque de ao).

Le m~me raisonnement s'applique au calcul du pr6dicteur r&rograde b e n combinant les pr6dicteurs bo et a l .

(ii) Le passage au vecteur auxiliaire vt de dimension sup6rieure se fait en remarquant que, par la d6finition du rang de d~placement, celui-ci ne f a r que s'augmen- ter d 'une composante nouvelle vp+t. D 'oh l'ajuste- merit du coefficient l~ selon :

(20)

= + II

|

[.]) 0)iv1 0 = V v

1)p+ i l

On remarque que l'algorithme calcule, h chaque ordre, p coefficients de r6flexion.

5.3. Algorithmes r6cursifs en temps.

Pour parfaire l'algorithme pr6c6dent, il convient de passer des quantit6s (ao, bo , x3 associ6es ~t Ro, aux quantit6s ( a l , b l , x~) associ6es h R1. Ceci se fait en remarquant que, par l'expression du rang de d6placement, Ro et R1 se d6duisent l 'une de l 'autre par perturbation �9

P = R 1 - - R o et P = ~ v i v T, t

les formules (13) sont donc directement applicables ce cas particulier et fournissent a l , b~, h partir

de ao , bo . Mais de plus, l'actualisation en question, pour les

diff6rents horizons H consid6r6s, s'interpr6te comme une r6cursion en temps. En effet, les composantes de vl se calculent ais6ment en fonction des conditions initiales s e t finales t de y. Par exemple, consid6rant le cas particulier d 'une fen~tre ant&ieure sur les

donn&s, on a (rang de d6placement p = 3) :

(21) R = R, , Ro = RI q_y, y r,

Yrt = [YtYt- 1 ... Yt-p+ 1].

I1 est int6ressant de noter que dans tous les algo- rithmes rapides les pas en temps et en ordre sont li6s de mani&e indissoluble. Les algorithmes de covariance ~ ordre croissant du type Morf et aL [26] sont associ6s 5. des d6calages (s, s + I) et (t, t - - 1). Tandis que les algorithmes s6quentiels, h ordre p constant, du type Ljung et al. [27] font implicitement appel h des pas [p, p + 1]. A l'heure actuelle, tous les algorithmes rapides peuvent effectuer un d6place- ment quelconque en ordre et en temps [28].

Remarque 1 : les algorithmes rapides se transposent sans difficult~ au cas d 'un facteur d'oubli exponentiel ~. ~< 1, introduit pour pond6rer les erreurs pass6es et rendre la mod61isation adaptative, en #n6ralisant 16g6rement la d6finition de rang de d6placement (R - - X Z R Zr). Ces algorithmes int6ressants ont approximativement le m~me coot de calcul, mais se r6v61ent tr6s sensibles pour X relativement faible et pr6sentent m~me de brusques divergences.

Remarque 2 : on n 'a pas ici abord6 le cas des algorithmes li6s aux filtres en treiltis. Ces derniers

9/17 ANN. T~LC.CO~aUN., 40, n ~ 5-6, 1985

Page 10: Analyse de la parole par les méthodes de modélisation paramétrique

262 C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODELISATION PARAMETRIQUE

procddent par une rdactualisation, non pas des prd- dicteurs, mais des coefficients de rdflexion. Ces deux formulations sont trds semblables dans l'approche gdom&rique, mais des relations fines (temporelles) sont encore/t expliciter entre les versions utilisant res- pectivement des filtres transverses et en treillis. Sur le plan numdrique, les bonnes propridtds des filtres en treillis se retrouvent dans le cas rdcursif et en particulier dans les versions normalisdes.

5.4. Mod61es MA et algorithme de Schur.

Les algorithmes rapides dont il a 6t6 question jusqu'ici, se concentrent sur le calcul d'un moddle AR, donc d'un facteur triangulaire de R -1. L'inversion d'une matrice triangulaire 6tant aisde, et produisant, comme il a 6t6 dit, un moddle raA correspondant (ddbut de la rdponse impulsionnelle du moddle AR), il serait intdressant de s'attacher directement au calcul des facteurs triangulaires de R (et non de R-Z).

Dans le cas d'une matrice de Toeplitz, cette idde sous-tend l'algorithme introduit par Le Roux et Gueguen, dit de la rdponse impulsionnelle [29]. Dans cet algorithme, les 616ments bJ, sont interprdtds comme des intercorrdlations entre le signal et l'erreur de prddiction ~t l'ordre j. I1 en rdsulte un calcul des coefficients de rdflexion k, traditionnels faisant inter- venir, au lieu des a~ dont la dynamique est inconnue, les bJ~ dont on ddmontre le caractdre borne. II en rdsulte une factorisation de R et un algorithme robuste implant6 en virgule fixe, souvent utilis6 dans les dispositifs de traitement de parole.

I1 faut noter le caractdre trds approximatif d'un tel moddle MA. Celui-ci se ddduit d'un moddle AR implicite. Le calcul d'un mod61e MA pertinent n6cessite d'6tendre la matrice de corr61ation par des z6ros, ce qui revient ~ consid6rer un mod61e AR ~ fenStre longue sous-jacent.

Dans le cas non-Toeplitz, ~t rang de d6placement faible, on conqoit que le th6or~me de repr6sentation sous forme d'une somme de matrices de Toeplitz triangulaires est un premier pas d6cisif vers la d6com- position de Choleski : il suffira de combiner les divers factenrs triangulaires en abandonnant le caract6re de Toeplitz des facteurs. Le sch6ma est ~ la base de l'algorithme de Schur [30].

Dans le mSme esprit, il conviendrait, dans un deuxi6me temps, de donner une version r6cursive de l'algorithme de Schur, correspondant h une perturbation diadique de R.

Le cofit de calcul des algorithmes dits rapides s'dtablit actuellement comme suit :

- - 0 ( p p2) pour les algorithmes globaux,

- - 0(p p) par pas pour les algorithmes sdquentiels.

Par exemple, le cofit de la m6thode de covariance appliqude ~t un signal prdfiltr6 (conditions initiales nulles) voisine 5 p par 6chantillon temporel dans sa version de Carayannis [31], alors qu'un gradient simple (du premier ordre) cofite 2 p.

6. MI~THODES GLOBALES A HORIZON COURT EN PAROLE

On entend par mdthodes globales les techniques de calcul qui supposent disponibles tousles 6chantil- Ions sur une fenStre temporelle (0, N) pour 6tablir un moddle moyen sur cet intervalle. Le signal 6rant non stationnaire, c'est le cas d'un horizon court qui est d'intdr~t, mais ceci sans perdre de vue la ndcessit6 d'un traitement en temps rdel, donc d'algorithme rapide. Cette application soul~ve des probldmes particuliers en traitement de la parole.

On peut considdrer que la fenStre est courte quand elle est infdrieure /t 10 p. Pour les ordres 10 /t 16 utilisds en parole, le cas se prdsente dSs que l'on veut approcher une taille de fenStre voisine ou infdrieure ~t la pdriode fondamentale. Une telle fen&re s'impose en cas de transitoires rapides (plosives par exemple) et en analyse synchrone. I1 faut alors passer de la mdthode de corrdlation classique (matrice R estimde de Toeplitz), justiciable de l'algorithme de Levinson,

une m&hode de covariance. Du fait des conditions initiales et finales le rang de ddplacement passe /~ 4, et l'algorithme de Morf et al. [27] est applicable. Darts le cas de la correlation (matrice de Toeplitz) l'algorithme en virgule fixe [29] produit de meilleures performances que l'algorithme de Levinson. Dans le cas de la covariance, la gdn~ralisation naturelle est l'algorithme de Schur. L'utilisation de cet algo- rithme n'a pas encore 6t6 rapportde en traitement de parole malgr6 les avantages qui peuvent en ~tre attendus.

Les signaux de parole sont souvent perturbds. Supposant ce bruit additif, blanc mais inconnu, il en rdsulte un aplatissement g~ndral du spectre. Diverses mdthodes ont pu 8tre envisagdes pour corriger cet effet par soustraction de bruit [32, 33]. Elles consistent en gdndral h soustraire de R u n e matrice de corrdlation du bruit estimd. En horizon court, celles qui demeurent les plus robustes sont fond~es sur une ddcomposition en valeur singuli~re (SVD) et correspondent ~t l'extraction du vecteur propre associ6 ~ la valeur propre minimale de la matrice de covariance [34]. En l'absence de bruit, ce choix demeure une excellente mdthode de moddlisa- tion comme en tdmoigne la figure 3 b. En prdsence de bruit, la mdthode se rdvdle robuste et ses rdsultats dus/t Bry [35] sont prdsentds par la figure 4. Le cofit de calcul important ndcessaire au calcul du vecteur propre peut ~tre limits par l'application it6rde (5 ~t 10 pas environ) de la mdthode de covariance.

I1 est reconnu que la rdsolution spectrale demandde par les traitements automatiques de parole doit mieux privildgier le ddtail des basses frdquences. Ceci n'est pas a priori le cas pour les mdthodes de prddiction lindaire classique dont la rdsolution est maximale au quart de la frdquence d'dchantillonnage et se

ANN. T~Lt~COMMUN., 40, n ~ 5-6, 1985 10/17

Page 11: Analyse de la parole par les méthodes de modélisation paramétrique

C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODELISATION PARAMI~TRIQUE 263

a) m6thode de covariance dB p O ~ > ~Oo .~ Spectre

10n ~2c~ -

b) mod61e propre sur la covariance ~ .- 30.

20-

1 0 -

o

- lO -

- 2 0 -

-30

c) mod61e AR propre et conditions initi,

~ J 20

l o

o

- l o

- 3 0

p61es et zdros

dB

2 .4 5 . ~

N ' < les MA

vtkt -

FIG. 3. - - M6thodes globales en hor izon cour t d 'apr~s Leroux et al. [42].

Global methods on a short time-window after Leroux and al. [42].

d6grade de part et d'autre. Des tentatives de s61ection fr6quentielle ant 6t6 faites mais demeurent lourdes [36]. Une faqon 616gante de modifier la r6solution fr6- quentielle de la mod61isation a 6t6 introduite par divers auteurs [37, 38, 39]. I1 s'agit de remplacer le retard z-1 d'un filtre transversal par un d6phaseur pur plus complexe. Ceci produit une distorsion non lin6aire de l'6chelle des fr6quences. Le choix d'une fonction de phase ad6quate permet de placer un vernier dans une zone fr6quentielle choisie. Apr6s d6phasage, la matrice R demeure de Toeplitz et les algorithmes rapides sont applicables. La figure 5 illustre des r6sultats dus /l Chouzenoux [40] pour affiner l'analyse spectrale des basses fr6quences de la parole.

L'extraction d'un mod61e MA est une op6ration complexe et fondamentalement non lin6aire car les entr6es ut et Ins coefficients b, de (2) sont, /t la fois, inconnus. Une telle extraction, peu pratiqu6e, se r6v~le cependant importante pour certains sons d6licats de la parole (nasales, liquides, fricatives vois6es). Des m6thodes sp6cifiques existent mais demeurent coO- teuses. Elles sont souvent fond6es sur une extraction it6rative des parties AR et MA [41]. On se contentera ici de rappeler une m6thode d'extraction de la partie MA (les parties AR 6tant suppos6es connues) due /~ Leroux et Giannella [42]. L'id6e est bas6e sur le filtre de Wiener et s'apparente /~ un calcul de conditions initiales optimales. Selon cette mdthode, il suffit d'6valuer l'intercorr6lation entre le signal et la r6ponse

a) signal analyse sans bruit

b) estimation spectrale LPC classique en pr6sence de bruit 30" 'dS; ectre x\ ,o- A A S/B= oo

c) estimation spectrale avec annulation du bruit ~ot~ ectrs

FiG. 4. -- Mod61isation on presence do bruit d'apr~s B~ [35].

Signal plus noise modelization after Bry [35].

a) signal analyse Spectre FFT

II,,[.u , . .

b) estimation spectrale LPC classique (r6solution uniforrne) p61es

':IA ^^. ,.,_

c) estimation spectrale avec r~solution accentu~e en BF ds p61es 30

~ 2~ spectr,~A/,~z ~o

0

-10

-20 *

- 3 o .

Fro. 5. - - Mod61isation h r6solut ion spectrale variable d ' apr6s Chouzenoux [401.

Frequency warping spectral estimation after Chouzenoux [40].

11/17 ANN. T~L1~COMMUN., 40, n ~ 5-6, 1985

Page 12: Analyse de la parole par les méthodes de modélisation paramétrique

264 C . G U E G U E N . - A N A L Y S E D E L A P A R O L E P A R M O D E L I S A T I O N P A R A M I ~ T R I Q U E

impulsionneUe du mod61e AR pour en d6duire, par un calcul rapide, les coefficients b~. La figure 3 c montre la mod61isation fine du spectre fournie par cette m6thode.

7. MI~THODES MULTMMPULSIONNELLES

Les m6thodes multi-impulsionnelles sont des m6thodes, en g6n6ral globales, oh l'effort de mod61isa- tion est partiellement report6 sur l'entr6e. Celle-ci est repr6sent6e par un train d'impulsions dont les positions et amplitudes sont convenablement ajustdes.

L'importance de l'entr6e (source glottale, sources de bruit) n'est pas une r6v61ation en traitement de la parole. I1 est habituel de rappeler que le r6siduel de pr6diction lin6aire, qui devrait &re un bruit blanc d6nu~ d'information, demeure intelligible m~me pour des ordres importants. La qualit6 de la parole syn- th6tique d6duite avec un mod61e grossier de l'entr6e (impulsions h la fr6quence fondamentale et bruit) demeure s6rieusement limitfe et pr6sente une tonalit6 ais6ment reconnaissable.

Une raison profonde de cette limitation consiste observer que la parole est riche en 6v6nements

non pr6dictibles ~t partir du pass6 r6cent (par exemple, ouvertures et fermetures de la glotte [43]), et, qu'en tout 6tat de cause, la minimisation d'un crit+re de moindres carr6s ne constitue qu'un ajustement global du spectre de puissance off toute information de phase instantan6e a disparu. Ii 6tait donc naturel, et conforme ~t la notion m~me de mod61e, d'affiner la representation de l'entr6e. Ce type d'approche avait d6j~t 6t6 tent6 dans divers vocodeurs ~t excitation vocale [44] ~t [46], mais Atal et Remde [47] apportaient en 1982 une contribution d6terminante au domaine par leur premi6re m6thode multi-impulsionnelle.

Supposant un mod61e AR global A(z) ajust6 au signal, il s'agit d'une analyse par synth6se ajustant une sdrie d'impulsions en position et en amplitude de faqon ~t coincider au mieux avec le signal observ6. Cette id6e est tr6s proche de celle, d6jh 6voqu6e, de Leroux et al. [42] pour la d&ermination d'un mod61e MA. Le mod61e envisa# ic iest un mod61e MA long (>> p) et lacunaire (nombreux coefficients nuls). Dans ces algorithmes, on peut distinguer une fonction de positionnement des impulsions et une fonction de calcul des amplitudes qui peuvent &re pratiques au niveau du signal (premier ordre) ou de la corr61ation (deuxi6me ordre).

Soit h~ la r6ponse impulsionnelle de longueur N du mod61e Ag A(z) et B(z) un mod61e MA long coefficients b~ (amplitude des impulsions), nuls saul en quelques points i ~t d6terminer. Soient, encore, r i les coefficients de corr61ation de la r6ponse impul- sionnelle h~, et s~ les inter corr61ations du signal y~ et de la r6ponse impulsionnelle h~ :

N N

(22) r~=~h,ht_~, s~=]~y,ht_~ oh h, =O, t<O. t = O t = O

Alors, on ales deux syst6mes d'6quations :

Premier ordre :

l: ~ ~176 I Li~ (23) hi ho b, = Yl ,

- - N ho N N

et

(23')

H b y

iio r ....... r ]i o] r.x r.o . . . . . . . r.u-1 :

�9 . . r 1

R b

S o

~

S

La pr6sence de b~ nuls dans ces 6quations d6truit le caract~re Toeplitz des matrices /~ inverser; par ailleurs, le choix de q impulsions parmi N poserait un probl6me de combinatoire important. On a donc le plus souvent recours ~t une d6termination s6quen- tielle, sous-optimale, du type du plus grand pivot. On peut estimer que le meilleur i ~t choisir est celui qui correspond ~t la distance minimale entre la i6me colonne de H (ou R) et le vecteur y (ou s). Une distance angulaire int6ressante est donn6e par le produit scalaire de ces vecteurs. Dans le cas du premier ordre, par exemple, on constate que cette distance (h des effets de bords pr6s) coincide avec l'intercorr61ation st, dont le maximum correspond h la position de l'impul- sion ~t choisir. Cette impulsion est ensuite 6valu6e (au sens des moindres carr6s) et sa contribution enlev~e du signal y (ou de l'intercorr61ation s). La recherche peut ~tre ensuite reprise sur les m~mes bases jusqu'h fournir q impulsions.

Darts tout ce processus, un facteur y, introduit par Atal sous le nom de facteur perceptuel, joue un r61e particulier. I1 s'agit d'un facteur d'amortissement introduit dans A(z) qui r6duit la longueur de la r6ponse impulsionnelle ht (et de l'autocorr~lation r3. Chaque impulsion a ainsi un r61e plus local et il y a des chances d'en voir apparaitre un plus grand nombre en fin de p6riode fondamentale, s'opposant ainsi ~t la synth6se classique.

Divers auteurs ont propos6 plusieurs variantes la m6thode originale, tendant ~t affiner le position- nement, les effets de bord.., ou ~t r6duire le coot de calcul [48] ~t [50]. Pour l'utilisation pratique, divers probl6mes subsistent encore : en transmission une qualit6 tr6s satisfaisante est atteinte au voisinage de 10 kbit/s avec une r6partition 1/3 pour le mod61e et 2/3 pour les impulsions, mais un codage efficace de ces impulsions est encore ~t trouver [51]. En syn- th6se, il convient de comprendre les relations entre les sch6mas d'impulsions et l'onde glottique et de commander l'6volution du fondamental en pr6servant la qualit6 de la parole synth&ique [52].

ANN. T~Lt:CO~aUN., 40, n ~ 5-6, 1985 12/17

Page 13: Analyse de la parole par les méthodes de modélisation paramétrique

C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODI~LISATION PARAMI~TRIQUE 265

8. MI~THODES GLOBALES A TEMPS VARIABLE

Les non-stationnaritds du signal de parole peuvent ~tre essentiellement dues/t deux types de causes ayant chacune leurs caractdristiques propres. Les non- stationnaritds de l'excitation peuvent ~tre relativement rapides et transitoires (explosions par exemple), un traitement temporel (voir paragraphe 9) sera alors bien adaptd. Les dvolutions du canal vocal, limitdes par la dynamique propre des organes phonatoires, peuvent en gdndral ~tre considdrdes comme lentes par rapport 5̀ l'excitation et peuvent ~tre moddlisdes comme des transitions passant d'une cible ~t une autre (sans toujours l'atteindre). C'est ce dernier aspect qui peut ~tre pris en compte par les mdthodes globales 5̀ temps variable.

L'idde de moddliser les transitions dans la parole n'est pas nouvelle. Le suivi temporel de l'dvolution des formants est une approche de ce type, ddj5` pratiqude, mais qui pose encore des probldmes ddlicats (croisement) en l'absence de donndes plus globales sur le type de son 5. l'dtude [53]. Dans le cadre de la moddlisation ARMA, ce type de probl6me a dtd dtudid en cherchant 5̀ repr6senter l'6volution des param6tres du mod61e du signal par un mod61e de niveau supdrieur. Par exemple, supposant que ces param6tres sont l'objet d'une marche aldatoire, on peut identifier un mod61e vectoriel de dimension p par une technique globale ou rdcursive [54], ou les probabilit6s de transition d'une chaine de Markov [55]. I1 faut cependant noter qu'au fur et 5̀ mesure que l'on monte dans les niveaux de moddlisation, les phdnom6nes 5̀ ddcrire perdent leur caract6re statistique pour devenir seulement structurels. Les mod61es addquats sont alors descriptifs ou syntaxiques et s'expriment mieux sous la forme de r6gles produisant l'dvolution observde.

Une approche intdressante a dtd introduite par Liporace [56] puis par M. G. Hall et al. [57] et consi- d6rablement ddveloppde par Grenier [58]. On choisit de reprdsenter l'dvolution d'un mod61e AR par exemple, en projetant les param6tres ai(t) sur une base de fonctions fj(t), j = 0 . . . . , m, donndes. Pour des com- moditds d'dcriture, le moddle est pris sous la forme :

(24) y~+a~( tml )y~_~ + . . . + a ~ ( t - - p ) y ~ _ ~ = u ~ ,

(25) avec a,(t) = ~ a,j f~(t), j=O

o~ il convient de ddterminer les a~j pour minimiser un crit~re d'erreur minimale (moindres carrds).

On peut inclure ce probldme dans un plus large contexte en introduisant le vecteur :

Y~ = [fo(t) y, .... . fro(t) y,],

considdrant que Yt est un processus stochastique, tandis que fj(t) est d&erministe, la matrice de cova- riance de Yt est de la forme :

(26) R, = E( Yt y v_,) = r, F,(t),

avec r, = E(yt y,_,) et F,(t) = fit) fT(t m i).

Darts ces conditions, avec une normalisation bien choisie du premier coefficient, l'dquation (24) peut ~tre considdrde comme la premidre ligne d'un syst~me vectoriel (27) (At matrices carrdes) :

(27) Ao Yt + A1 Yt-1 + ... § Ap Yt-p = Ut,

soit : T Y t - p ~" ut aro y, q -a~ Y , -1 + ... q -ap

ofJ : a~ = [a,o .... ,a~,], ao T = [ l i f o , 0 .... ,0],

Le probldme peut ~tre alors rdsolu en appliquant une technique de moddlisation vectorielle 5̀ la cova- riance Rl. La question essentielle est bien dvidemment encore l'estimation des R~ sans enfreindre le caract~re non-ergodique de Yr. Diverses procddures ont pu ~tre proposdes par Grenier [59] gdndralisant les mdthodes de corrdlation, de covariance, l'algorithme de Burg, etc. En particulier, quand la structure de la covariance R estimde est addquate, les algorithmes rapides prdcddents, gdndralisds au cas vectoriel, peuvent ~tre utilisds.

L'application 5̀ la parole est directe et homog~ne avec les traitements plus traditionnels. La figure 6 donne divers spectrogrammes rdsultant de l'identifi- cation de modules d'ordre (16) pour une fen~tre de 1 200 points h 10 kHz sur diverses transitions. Les figures 6 a et 6 b illustrent la grande similitude des rdsultats obtenus avec fonctions de base classiques (Legendre et sphdroidales aplaties). La figure 6 c montre une transition plus rapide.

9. MI~THODES SI~QUENTIELLES AVEC DI~TECTION D'I~V]~NEMENT

Une autre mdthode de la moddlisation d'un systdme non stationnaire consiste 5̀ poursuivre l'dvolution de ses paramdtres par un atgorithme d'estimation adaptative. La valeur instantande des paramdtres du moddle est alors rdactualisde sdquentiellement 5̀ chaque arrivde d'information 5̀ partir de l'erreur de prddiction constatde. L'intdr& essentiel de cette approche est de combiner les bdndfices d'une analyse en frdquence (fonction de transfert du moddle) et en temps (innovations, erreur de prddiction).

9.1. Implantation des algorithmes rapides.

Le passage d'un algorithme rdcursif sur le temps, dvaluant un mod61e moyen depuis l'instant d'initiali-

13]17 ANN. Tt~L~COMMUN., 40, n ~ 5-6, 1985

Page 14: Analyse de la parole par les méthodes de modélisation paramétrique

266 C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODI~LISATION PARAMt~TRIQUE

FIG. 6. ~ Sonogrammes dgduits des m6thodes globales h para- m~tres variables selon Grenier [48].

Time-frequency sonograms as deduced from variable parameter models after Grenier [48].

sation h l'instant courant, h u n mod61e adaptatif, suivant les 6volutions ~ court terme du processus g6n6rateur du signal, se fait en agissant sur la m6moire de l'algorithme. La forme g6n6rale d 'un algorithme adaptatif optimal minimisant une erreur quadratique est celle d 'un gradient du second ordre (28) :

(28) at = a ,_ l + R~ 1 Yt z~, ~t = a~-I Y,,

on reconnalt dans (28), le gradient du crit6re e2, et une valeur moyenn6e R~S 1 de la matrice (hessien) des ddriv6es secondes du critdre en question. Cette 6quation peut atre aussi interprdtde comme un filtre de Kalman dtendu. L'effet de mdmoire courte de l'algorithme peut ~tre fondamentalement obtenu de trois fagons :

�9 en introduisant un facteur d'oubli exponentiel revenant it ponddrer plus fortement dans le critdre, les erreurs les plus rdcentes. On montre que cette ponddration ne modifie pas ie rang de ddplacement de Rst ;

�9 en tronquant par une fen~tre finie, glissante, l'intervalle d'6valuation de R~t. On 61imine ainsi un 6chantillon du pass6 h chaque entr6e d'une nouvelle

donnde. Un rang de ddplacement est utilis6 pour chaque ajustcment de conditions initiale et finale;

�9 en interdisant la convergence de l'algorithme par l 'addition it chaque pas dans R~ 1 d'une matrice de bruit. Cette addition a pour effet de prdvenir la ddcroissance naturelle du pas du gradient dans (28).

Un compromis est 6videmment it rdaliser pour la taille de la fen~tre : une mdmoire longue donne une estimation de variance faible, mais interdit la poursuite de transitions rapides ; une mdmoire courte autorise des adaptations rapides, mais produit une estimation erratique (approximation stochastique). Le choix de la taille de fen~tre peut d'ailleurs ~tre rdalis6 par l'algorithme lui-m~me.

La matrice Rst coincide avec la matrice de covariance du signal sur la fendtre (ponddrde ou non) et les algorithmes rapides peuvent &re mis en ceuvre pour un calcul efficace du moddle. Divers aspects spdcifiques doivent ~tre pris en compte en traitement de parole comme illustr6 par la figure 7.

(i) Convergence. Supposant le signal quasi station- naire, la convergence des algorithmes optimaux est particulidrement rapide, du fait du gradient du second ordre utilisd. On note des temps de convergence moyens de 3 ms pour les sons voisds, et de 5 ms pour les sons non voisds, c'est4t-dire un petit nombre de fois l 'ordre p. Ceci situe le pouvoir discriminant de ces mdthodes au-dessous de la pdriode de fondamen- tale.

(ii) R~-initialisation. Les algorithmes rapides sont par nature faiblement redondants : lors des calculs

a) son sonore

? v /v

r6siduel

v Y ' T ' - . . . . ~ " V . . . . . . . . . vvv, , , , ' . . . . . .

b) transition

r6siduel

FIG. 7. - - M6thode s6quentielle ~ d6tection d'6v6nement.

Time sequential method with jump detection.

ANN. T~L~COMMUN., 40, n ~ 5-6, 1985 14/17

Page 15: Analyse de la parole par les méthodes de modélisation paramétrique

C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODt~LISATION PARAMETRIQUE 267

it6ratifs pour des nombres d'6chantillons 61ev6s ( ~ 103) des erreurs d'arrondi ne se trouvent pas statistiquement compens6es et peuvent se propager (en particulier au voisinage de la convergence). Profitant de la rapidit6 de convergence, on aura recours h des r6-initialisations. Dans les algorithmes rapides qu'implantent des moindres carr6s exacts (ordres croissants jusqu'~t p, puis constant), le nombre de valeurs initiales est r6duit ~t l'6nergie de l'erreur de pr6diction (!es algorithmes de filtre de Kalman standard demandent, en plus, des covariances difficiles

6valuer). Ces initialisations peuvent ~tre avantageuse- ment d~duites des r6sultats de la fen~tre pr6c6dente. Pour les sons sourds, l'initialisation peut intervenir p6riodiquement (toutes les 20 ms par exemple). Pour les sons sonores, l'initialisation est command6e par une d6tection d'6v~nement (d6but de p6riode fonda- mentale par exemple). On peut, alors, commod6ment tiger les valeurs estim6es durant la p6riode d'ouverture de la glotte o f le mod61e (2), b. entr6e de moyenne nulle, est contestable. Les algorithmes normalis6s, au prix de calculs suppEmentaires de racine carr6e sont consid6rablement plus robustes.

(iii) Stabilite du modble. Les m&hodes adaptatives sans contrainte ne garantissent pas la stabilit6 (m6thode de covariance). Cette constatation est assez naturelle dans la mesure off, vus au travers d'une fen~tre courte, certaines transitions, certains apports d'6nergie d'entr~e, peuvent ~tre assimil6s (~t juste titre) ~ des comportements instables. La notion de stabilit6, en temps variable, est complexe ; son importance en analyse (par opposition /~ la synth6se) n'est pas pri- mordiale.

9.2. D~tection d'~v~nements.

L'un des avantages principaux des techniques r6cursives est de permettre un calcul et une surveillance en ligne de donn6es temporelles, au premier rang desquelles est l'erreur de pr6diction. On peut ainsi esp6rer tirer de l'algorithme des informations quasi instantan6es qui peuvent servir divers buts :

�9 segmenter le signal en zones stationnaires, fournir des indicateurs de point de stationnarit6 maximale, d6tecter des ruptures ;

�9 d6tecter des 6v6nements (d6but de p6riode fonda- mentale, fermeture de la glotte), 61iminer des artefacts, identifier des indices phon6tiques ;

�9 estimer l'entr6e, positionner des impulsions d'excitation, d6marrer une analyse MA.

Pour y parvenir, il serait int6ressant de disposer de tests sp6cifiques susceptibles de d6tecter s61ective- ment des 6v6nements d'un type donn6 (saut de l'6ner- gie d'excitation, transition des param6tres spec- traux...). Dans l'6tat actuel des recherches, il semble plus raisonnable de disposer d'un ensemble de crit6res et d'apprendre leur comportement face aux diff6rentes

non-stationnarit6s. On peut avoir recours aux 616- ments suivants :

(i) Erreur de prediction. Un crit6re simple est la comparaison de l'6nergie ~ court terme de l'erreur de pr6diction (directe ou r6trograde) ~t un seuil adaptatif. Un grand nombre de proc6dures pour cerner des fronti6res peuvent &re imagin6es parmi lesquelles suivant Andr6 et al [50] les techniques de sommes cumul6es sont avantageuses ; une analyse fine peut ~tre r6alis6e par un test de blancheur du r6sidu (porte- manteau, crit6re de sph6ricit6...) ou des tests du maximum de vraisemblance [51].

(ii) Ordre du modble. Le franchissement d'une fronti6re dans la m6moire de l'algorithme peut 8tre interpr6t6 comme une augmentation de l'ordre (les deux spectres initial et final sont, h la fois, pr6sents). Le crit6re classique d'AkaYke a requ une version s6quentielle par Lakehal [52]; dans cette nouvelle version, il constitue un crit6re de segmentation int6ressant.

(iii) Stabilitd du modble. Le test de stabilit6 du mod61e traduit assez bien d'6ventuels apports externes d'6nergie au signal. Les crit6res de Schur-Cohn coincident avec le calcul inverse de l'algorithme de Levinson et des coefficients de corr61ation partielle. Ce type de test, r6duit h l'ordre 2 et ~t l'algorithme du gradient, a 6t6 utilis6 par Leroux pour une d6tection synchrone du fondamental [53].

(iv) Variabilit~ du modble. Les algorithmes adapta- tifs rendent disponible un mod61e h chaque instant et permettent de suivre l'6volution des param6tres. On peut alors tester les valeurs des param6tres al(t), ou les coefficients de r6flexion, ou encore consid6rer des grandeurs plus globales comme, par exemple, la norme de la variation de -(t) [54].

A ce titre, les algorithmes de filtrage de Kalman rapide pr6c6dents sont particuli6rement avantageux car :

�9 ils explicitent des variables internes pr~calcuEes pour 6valuer des crit6res divers,

�9 ils sont param6trables (ordre variable, m6moire ajustable...) et permettent l'intervention de d6cisions logiques dans l'algorithme.

10. CONCLUSION ET PERSPECTIVES

L'analyse pr6c6dente a tent6 de mettre en relief l'int6rSt des m6thodes de mod61isation 6volu6es en traitement de la parole, en particulier, en ce qui concerne les algorithmes de mod61isation non station- naire permettant des interactions entre analyse tempo- relle et fr6quentielle.

Les perspectives de d6veloppement des algorithmes d'analyse doivent ~tre replac6s dans le contexte plus

15/17 ANN. T~L~COmam., 40, n ~ 5-6, 1985

Page 16: Analyse de la parole par les méthodes de modélisation paramétrique

268 C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODI~LISATION PARAM[~TRIQUE

gdndral des systdmes de t ra i tement de parole : t rans- mission, synthdse, reconnaissance. On arrive h l 'heure actuelle h u n point de convergence entre la comprd- hension d ' a lgor i thmes 61abords et rapides, et la dispo- nibilit6 de processeurs de t ra i tement du signal efficaces. On peu t ainsi songer h doter les systdmes d ' u n 6tage d 'ana lyse acoust ique souple et pe r formant . Les caractdristiques de cet dtage d'analyse de l'avenir

nous paraissent devoir ~tre les suivantes :

�9 une analyse fiable et robuste de nature essen- t iel lement spectrale, fonc t ionnant en routine. Cette analyse peut fitre avan tageusement suivie d ' une prd- classification, du type codage-vectoriel , rdduisant le ddbit &info rmat ion , ou d ' u n codage mul t i - impuls ion- nel ;

�9 une analyse /t rdsolut ion variable capable , en rdponse h une sollicitation des niveaux supdrieurs, de parfa i re l ' analyse en calculant des paramktres f ins

(source, par t ie MA, trai ts divers) de s ' adap t e r au locuteur, d'61iminer des bruits. . . ;

�9 une analyse de phdnomdnes tempore ls d&ectant , ou moddlisant , des transi toires courts ou des transi- t ions plus longues, d isposant des marqueurs le long de la phrase analysde et p r o p o s a n t des segmenta t ions ;

�9 pa radoxa lemen t , une analyse pas t rop ddpendante des caractdres spdcifiques du signal de parole car les chaines de commun ica t i on voient t ransi ter ~t la fois parole et donndes et doivent demeurer robus tes /~ ce mdlange.

Des progr~s sont encore ~t faire sur ces diff6rents points, mais les techniques de mod61isation poss6dent des avantages ind6niables qui devraient es tomper leur caract6re calculatoire et leur apparen te complexit6 encore t rop marqu6s dans l 'espr i t des uti l isateurs potentiels.

Le d6veloppement des processeurs de t ra i tement du signal rend main tenan t cr6dible la raise en ~euvre de ces a lgori thmes complexes en temps r6el sur la parole. En particulier, les algori thmes s6quentiels rapides, don t il a 6t6 ici quest ion, se situent aux limites des per formances des processeurs p rog rammab le s actuels, et seront implantables sur les toutes prochaines g6n6rations. Mais c 'es t sans doute sous la fo rme de circuits sp6cialis6s, t ravai l lant 6ventuellement sous la c o m m a n d e d ' u n processeur p r o g r a m m a b l e s tandard , que semble se dessiner l ' aveni r de ce type de m6thode. Des architectures efficaces ont pu ~tre propos6es pou r implanter des filtres et treillis [65], un analyseur- synth6tiseur-compresseur, h base de pr6diction lin6aire d ' o rd re 10, peu t &re consid6r6 c o m m e faisable en un seul circuit dans les surfaces et technologies actuelles [66]. Sans pour au tan t n6gliger les probl6mes d6licats encore pendants , il ne semble pas actuel lement judicieux de renoncer aux b6n6fices d ' u n t ra i tement du signal 6labor6 dans le domaine de la parole.

Article refu le 24 septembre 1984, acceptd le 13 mars 1985.

BIBLIOGRAPHIE

[1] GUEGUEN (C.). Introduction /t l'analyse de la parole. 7 e JEP du GALF. Nancy (mai 1976), vol. 2, exposds de synth~se.

12] GUEGUEIq (C.), CARAYANNIS (G.). Analyse de la parole par filtrage optimal de Kalman. Automatisme, Ft. (1973), 18, n ~ 3, pp. 99-105.

[3] GIBSON (J.), MELSA (J.), JONES (S.). Digital speech analysis using sequential estimation techniques. IEEE Trans. on ASSP, USA (1975), 23, n o 4, pp. 362-369.

[4] SCARR (R. W.). Zero crossings as a mean of obtaining spectral information in speech analysis. IEEE Trans. on Audio and Electro acoustics, USA (1968), pp. 247- 253.

[5] ITO (M. R.), DONALDSON (R. W.). Zero crossing mea- surements for analysis and recognition of speech sounds. 1EEL Trans. AU, USA (1971), 19, n ~ 3, pp. 235-242.

[6] NIEDERJOHN (R. S.). A mathematical formulation and comparison of zero-crossing analysis techniques which have been applied to Automatic speech recognition. 1EEL Trans. on ASSP, USA (1975), 23, n ~ 4.

[7] BAUDRY (M.), DUPEYRAT (]3.). Analyse du signal vocal. Utilisation des extrdma du signal et leurs amplitudes. D$.tection du fondamental et recherche des formants. 7 e JEP du GALF. Nancy (mai 1976), 1, pp. 248-257.

[8] GOLD (B.), RADER (C.). The channel vocoder. IEEE Trans. on AU, USA (ddc. 1967), 15, n ~ 4, pp. 148-161.

[9] DUDLEY (H.). Remarking speech. J. acoust. Soc. Amer. (1939), 11, pp. 1969-1977.

[10] LmNARD (J. S.). Speech caracterisation from a rough spectral analysis. 1EEL 1CASSP, Washington (avr. 1979), 79, pp. 595-599.

[11] GALAND (C.), NUSSBAUMER (f"I.). New quadrature filter structures. IEEE Trans. ASSP, USA (juin 1984), 32, n ~ 3, pp. 522-531.

[12] CARAYANNIS (G.). Analyse de la parole par identification recurrente d'un moddle du systdme de phonation. Thdse de Doct.-Ing. Traitement de l'information, Paris 7 (1973).

[13] RODET (X.). Analyse du signal vocal dans sa reprdsentation amplitude-temps. Synthdse de la parole par rdgles. Thdse de Doct. Etat, Univ. P.-M. Curie Paris VI (juin 1977).

[14] MAKHOUL (J.). Spectral linear prediction : properties and applications. IEEE Trans. ASSP, USA (juin 1975), 23, n ~ 3, pp. 283-296.

[15] KAY (S.), MARPLE (L.). Spectrum analysis. A modern perspective. Proc. of IEEE, USA (nov. 1981), 69, n ~ 11, pp. 1380-1419.

[16] KAVEH (M.), COOPER (G. R.). An empirical investigation of the properties of the autoregressive spectral estimator. 1EEL Trans. IT, USA (mai 1976), 22, n ~ 3, pp. 313-323.

[17] CARTIER (M.). I.~ codage de la parole. L'dcho des Rech., Ft. (1979), n ~ 20, pp. 4-11.

[18] LEGUYADER (A.), GILLOIRE (A.). Codage diff6rentiel de la parole : algorithmes de prddiction adaptative et perfor- mances. Ann. Tdldcommun., Fr. (1983), 39, n ~ 9-10, pp. 381- 398.

[19] GUEGUEN ((3.). Modelling of sources and systems : a commented typology. IEEE ASSP workshop, invited talk, L'Aquila (sep. 1981).

[20] MAEDA (S.). Acoustic cues of vowel nazalisation : a simu- lation study 104 ASA Meeting, Orlando (oct. 1982).

[21] DOLMAZON (J. M.). Contribution aux recherches sur l'appa- reil auditif : 61aboration et exploitation d'un moddle de

ANN. TELECOMMUN., 40, n ~ 5-6, 1985 16/17

Page 17: Analyse de la parole par les méthodes de modélisation paramétrique

C. GUEGUEN. - ANALYSE DE LA PAROLE PAR MODr~LISATION PARAMt~TRIQUE 269

fonctionnement du syst6me p6riph6rique. Th6se de Duct. Etat, USMG et INPG, Grenoble (1980).

[22] CA~LEN (J.). Un mod61e d'oreille. Analyse de la parole continue. Reconnaissance phon6mique. Th6se de Duct. Etat, UPS, Toulouse (1979).

[23] DELOUTTE (B.). Speech coding in the auditory nerve, parts I + OV. J. acoust. Soc. Amer., USA (mars 1984), 75, n ~ 3, pp. 866-918.

[24] KAILATH (T.), KtrNG (S. Y.), MORF (M.). Displacement rank of a matrice. Bull. Am. Math. Soc. (sep. 1979), 1, n ~ 5.

[25] FRIEOLANDER (B.), MORF (M.), KAILATH (T.), LJUNG (L.). New inversion formulas for matrices classified in terms of their distance from Toeplitz matrices. Linear Algebra and its applications, Amsterdam (1979), n ~ 27, pp. 31-60.

[26] MORF (M.), DICKINSON (B.), KAILATH (T.), VIEIRA (A.). Efficient solution of covariance equations for linear pre- diction. IEEE Trans. ASSP, USA (1977), 25, n ~ 5.

[27] LJONG (L.), MORF (M.), FALCONER (D.). Fast calculation of gain matrices for recursive estimation schemes. Int. J. Contr., GB (1979), n ~ 1, pp. 1-19.

[28] LAKEHAL (S.). Analyse des signaux al6atoires non station- naires par identification r6cursive. Th6se de Doct.-Ing., ENST-SYC (juil. 1980).

[29] LEROUX (J.), GUEGUEN (C.). A fixed point computation of partial correlation coefficients. IEEE Trans. ASSP, USA (juin 1977), 25, n ~ 3, pp. 257-259.

[30] DELOSME (J. M.). Algorithms for finite shift rank processes. PhD dissert, Stanford Univ. (sep. 1982).

[31] CARAYANNIS (G.), MANOLAKIS (D.), KALOUPSIDIS (N.). A fast sequential algorithm for least-squares filtering and prediction. IEEE Trans. ASSP, USA (d6c. 1983), 31, n ~ 6, pp. 1394-1402.

[32] LIM (J. S.), OPPENHEIM (A. V.). Enhancement and bandwith compression of noisy speech. Proc. oflEEE, USA (1979), 67, n ~ 12, pp. 1586-1604.

[33] SAMBUR (M.). Adaptive noise cancelling for speech signals. IEEE Trans. ASSP, USA (1978), 24, n ~ 5, pp. 419-423.

[34] KUMARESAN (R.), TUFTS (D.). Accurate parameter estima- tion of noisy speech like signals. IEEE-ICASSP, Paris (mai 1982), 82, pp. 1357-1361.

[35] BRY (K.). Etude d'algorithmes d'identification de mod61es autor6gressifs lorsque les observations sont bruit6es. Applications. Th6se de Doct.-Ing., ENST-SYC, Fr. (nov. 1982).

[36] FITZGERALD (R. M.), BYRNE (C. L.). Extrapolation of band limited signals : a tutorial. EURASIP-EUSIPCO, Lausanne (sep. 1980), 80, pp. 175-179.

[37] OPPENHEIM (A.), JOHNSON (D.). Discrete representation of signals. Proc. oflEEE, USA (juin 1972), 60, pp. 681-691.

[38] STROBE (H.). Linear prediction on a warped frequency scale. J. acoust. Soc. Amer. (oct. 1980), 68, n ~ 4, pp. 1071- 1076.

[39] LAGUNAS (M.), FIGUEIRA (A.), MARINO (J.), VILANOVA (A.). A linear transform for spectral estimation. IEEE Trans. ASSP, USA (oct. 1981), 21, n ~ 5, pp. 989-993.

[40] CHOUZENOUX (C.). Analyse spectrale h r6solution variable ; application au signal de parole. Th~se de Doct.-Ing., ENST-SYC, Fr. (nov. 1982).

[41] STEIOLrrZ (K.). On the simultaneous estimation of poles and zeros in speech analysis. 1EEE Trans. ASSP, USA (juin 1977), 25, n ~ 3, pp. 229-234.

[42] LEROUX (J.), GIANNELLA (F.). Whiteness criteria for ARMA model identification. ECCTD, La Hague (sep. 1981), pp. 822-827.

[43] EL MALLAWANV. Etude de vocodeurs/t pr6diction lin6aire : d6tection de l'intervalle de fermeture de la glotte, d6tection de la m61odie, extraction de la function d'aire. Th~se de Doct.-Ing., Grenoble (sep. 1975).

[44] MAKHOUL (J.), BEROUTI (M.). High frequency regeneration in speech coding systems. Proc. of lCASSP 79, Washington (1979), pp. 428-431.

[45] LEGUYADER (A.). Etude d 'un vocodeur/t excitation vocale et h base de pr6diction lin6aire. Th6se 3 ~ C., Univ. Rennes (juin 1978).

[46] MotmlKlS (C.). Conception d 'un vocodeur h excitation vocale /t 9 600 bit/s. Th6se de Doct.-Ing., ENST (nov. 1979), E-79006.

[47] ATAL (B. S.), REMDE (J. R.). A new model of LPC excitation producing natural-sounding speech at low bit rates. Proe. of ICASSP, Paris (1982), p. 614.

[48] ATAL (B. S.), REMDE (J. R.). Optimizing LPC filter para- meters for multipulse excitation. Proc. of ICASSP, Boston (1983), 17-2.

[49] JAIN (V. K.). Efficient algorithm for multipulse LPC analysis of speech. Proc. of ICASSP, San Diego (1984), 1-4-1.

[50] BEROUTI (M.), GARTEN (n.), KABAL (P.), MERMELSTEIN (P.). Efficient computation and encoding of the multi-pulse excitation for LPC. Proc. of ICASSP, San Diego (1984), 10-2-1.

[51] SINGHAL (S.), ATAL (B. S.). Improving performance of multipulse LPC coders at low bit rates. Proc. of ICASSP, San Diego (1984), 1-3-1.

[52] STELLA (M.). Synth6se de la parole. L'dcho des Rech., Fr. (1984), n ~ 115, pp. 21-32.

[53] MCCANDLESS (N.). An algorithm for automatic formant extraction using linear prediction spectra. IEEE Trans. ASSP, USA (avr. 1974), 22, n ~ 2.

[54] CARAYANNIS (G.). Mod61isation des transitions phon6- miques. Application /t la segmentation de parole. 4 e JEP du GALF, Bruxelles (1973), pp. 307-316.

[55] PORITZ (A. B.). Linear predictive hidden markov chain models and the speech signals. IEEE 1CASSP, Paris (mai 1982), pp. 1291-1294.

[56] LIPORACE (L.). Linear estimation of non stationary signals. J. Acoust. Soc. Am., USA (1975), 58, n ~ 6, pp. 1288-1295.

[57] HALL (M.), OPPENHEIM (A.), WILLSKY (A.). Time varying modelling of speech. Signal Processing (mai 1983), 5, n ~ 3, pp. 267-285.

[58] GRENIER (Y.). Time dependent ARMA modeling of non stationary signals. IEEE Trans. ASSP, USA (1983), 31, n ~ 4, pp. 899-911.

[59] GRENIER (Y.). Time-frequency analysis using time-depen- dent ARMA models. IEEE ICASSP, San Diego (1984), tome 3, 41B5.

[60] ANDRE (R.), BASSEVILLE (M.), BENVENISTE (A.). Un exemple de segmentation en temps r6el du signal de parole. CNRS ATP, outils math6matiques, s6minaire ruptures, Fr. (mars 1984).

[61] DESHAYES (J.). Ruptures de mod61es en statistique. ThSse de Doct. Etat, Math6matiques, Universitd de Paris-Sud (mai 1983).

[62] LAKEHAL (S.). On line segmentation of quasi-stationary signals using auto-regressive order selection. 1 er EURASIP EUSIPCO, Lausanne (sep. 1980).

[63] LEROUX (J.). Une m6thode synchrone d'analyse en temps r6el du fondamental. 6 o JEP GALF, Toulouse (1975), pp. 3-11.

[64] CARAYANN1S (G.). Analyse de la parole par identification r6cursive d 'un mod61e du syst6me de phonation. Th6se de Doct.-Ing., Traitement de l'information, Univ. Paris 7 (1973).

[65] BARRAL (n.), MOREAU (N.), NGUYEN-Huu (D.), SAUVEE (P.). Circuits int6gr6s modulaires pour le traitement du signal. 9 ~ GRETSI, Nice (mai 1983).

[66] BARRAL (H.), MOREAU (N.). Circuits for digital signal processing. IEEE-ICASSP, San Diego (1984), pp. 44.9.

17/17 ANN. T'bLI~COMMUN., 40, n ~ 5-6, 1985