Transcript
Page 1: Sylvain Daudé DEA ATIAM Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques Stage réalisé au LIA sous

Sylvain Daudé

DEA ATIAM

Modèle statistique de la voixà structure optimisée

pour la caractérisationdes phénomènes dynamiques

Stage réalisé au LIA sous la directionde MM. Bonastre et Linarès

Page 2: Sylvain Daudé DEA ATIAM Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques Stage réalisé au LIA sous

Contexte

• Traitement automatique de la parole

• Modélisation statistique de la parole– MMG en R.A.L.– MMC en R.A.P

• Dynamique de la parole– durée, séquentialité, synchronie– variations spectrales– importance dans le signal de parole

Page 3: Sylvain Daudé DEA ATIAM Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques Stage réalisé au LIA sous

Problématique• Apprentissage du modèle

– MMG : peu d'information dynamique– MMC : de l'information dynamique dans les

transitions, mais…• peu prise en compte lors de l'apprentissage

• modèles de durée infructueux

Objectif : prendre en compte les infos dynamiques dans le modèle

Page 4: Sylvain Daudé DEA ATIAM Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques Stage réalisé au LIA sous

Méthode : des données au modèle

Caractères statistiques+ infos dynamiques

Analyse

Modèle

Correspondance

Données

+ d’infosInterprétation ?

Page 5: Sylvain Daudé DEA ATIAM Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques Stage réalisé au LIA sous

Construction du modèle

MMG MMC

...

Diminution du nombre d’états

Page 6: Sylvain Daudé DEA ATIAM Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques Stage réalisé au LIA sous

Info dynamique dans les MMC ?

• transitions :séquentialité, durée

• regroupement d’états :synchronie : « vraie » distribution d’un caractère acoustique

Vrais. Vrais.

tEtat 1

tEtat 2

Etat 1+2 « vraie » distribution

Page 7: Sylvain Daudé DEA ATIAM Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques Stage réalisé au LIA sous

Stratégies de regroupement

• Similarité des entrées-sorties :séquentialité, synchronie des chemins parallèles

• Eloignement des entrées-sorties :bifurcations, asynchronie des chemins parallèles

• Information mutuelle : synchronie

• Transitions mutuelles : linéaire, séquentialité

Page 8: Sylvain Daudé DEA ATIAM Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques Stage réalisé au LIA sous

Les résultats

128 127 117 107 97 87 77 67 57 47 37 27 17 7 1Nombre d'états du modèle

-0,5

-0,4

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4

Ec

art

p/r

au

ha

sa

rd (

log

V)

Transitions mutuelles

Proximité de profilsEloignement de profilsInformation mutuelle

Page 9: Sylvain Daudé DEA ATIAM Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques Stage réalisé au LIA sous

Conclusion

• Meilleurs modèles :

– séquentialité ou synchronie portées par le modèle

– réestimation des transitions

• Gain en complexité

• Meilleure modélisation de l’information dynamique

Page 10: Sylvain Daudé DEA ATIAM Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques Stage réalisé au LIA sous

Perspectives

• Améliorations

– Concilier synchronie et séquentialité

– Modèles de durée

• Estimation de la qualité

• Application musicale

Page 11: Sylvain Daudé DEA ATIAM Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques Stage réalisé au LIA sous

Des questions ? (1)

D E A

Meilleurchemin

Trame 1 Trame 2 Trames 3, 4, 5

Trames 6, 7Trame 8Trame 9

Vraisemblancestrame / état

Vraisemblancedu MMC

Information mutuelle :

),( )()(

),(log),(),(

ba ji

ijij

bpap

bapbapjiI

Page 12: Sylvain Daudé DEA ATIAM Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques Stage réalisé au LIA sous

Des questions ? (2)

t

Vrais.

Etat 1t

Vrais.

Etat 2

Etat 1+2 « vraie » distribution


Recommended