105
1 Pierre Pierre - - Louis Gonzalez Louis Gonzalez Michel Michel Tenenhaus Tenenhaus Les Méthodes PLS

Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

  • Upload
    ledang

  • View
    229

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

1

PierrePierre--Louis Gonzalez Louis Gonzalez

Michel Michel TenenhausTenenhaus

Les Méthodes PLS

Page 2: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

2

Les méthodes PLSinitiées par Herman et Svante Wold

I. NIPALS (Nonlinear Iterative Partial Least Squares)

II. Régression PLS (Partial Least Squares Regression)

II.1 PLS1II.2 PLS2

III Analyse discriminante PLSIV. Régression logistique PLS

Page 3: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

3

Analyse en composantes principales• Possibilité de données manquantes.• Validation croisée pour choisir le nombre

de composantes.• Identification des outliers avec

- une carte de contrôle des observations,

- des tests sur les écarts au modèle de l’ACP.

I. La méthode NIPALS

Page 4: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

4

Utilisation de NIPALS :Exemple voitures

Modèle Cylindrée Puissance Vitesse Poids Longueur LargeurHonda Civic . 90 174 850 369 166Renault 19 1721 . 180 965 415 169Fiat Tipo 1580 83 . 970 395 170

Citroën AX Sport 1294 95 184 730 350 .

Il y a une observation manquante par véhicule !

Le principe de NIPALS: Comment projeter un point avec données manquantes ?

Page 5: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

5

**

*

*

**

**

xi

ti

xi

u

u

usur xde constante sans carrés moindres des

droite la de penteu'uu'xt

i

ii ==

0

oo

o

o o

o

Projection sur un axe

Page 6: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

6

**

*

*

**

**

xi

ti

xi

u

u

sdisponible

données lessur calculéest ''

manquantes données des ay ilS'

uuuxt i

i =

0

oo

o

oo

o

Valeur manquante

Projection d’un point avec données manquantes sur un axe

Page 7: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

7

L ’algorithme NIPALSRecherche des composantes principales

Données :X = {xij} tableau n×k , xj = variable j xi = observation i

Modèle de l ’ACP :X = t1p1´ + … + tkpk´ avec (1) p1, … , pk orthonormés ( axes )et (2) t1, … , tk orthogonaux

( composantes principales )

Page 8: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

8

L ’algorithme NIPALSRecherche de la première composante principale

• Modèle : X = t1p1´ + résidu, avec p1 normé

• Algorithme : les équations de base

(1) Si t1 connu, calcul de p1j par régression :xj = p1jt1 + résidu

(2) Normalisation de p1 = (p11,…,p1k)(3) Si p1 connu, calcul de t1i par régression :

xi = t1ip1 + résidu

• Algorithme : fonctionnement- Prendre t1 = x1 , puis itérer sur (1), (2), (3).- Si données manquantes, faire les calculs sur toutes les données

disponibles.

Page 9: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

9

Commentaires:

Les relations cycliques découlant des équations de base de l’algorithme montrent que λ1 est la plus grande valeur propre vérifiant les équations suivantes:

Nous avons divisé par n-1 pour retrouver les résultats de SIMCA.Ce calcul est une application de la méthode de la puissance itérée pour le calcul du vecteur propre d’une matrice associé à la plus grande valeur propre ( Hotelling-1936; Anderson-1958)

1 1 1

1 1 1

1 '1

1 '1

X X p pn

X X t tn

λ

λ

=−

=−

Page 10: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

10

**

*

*

**

**

xi

t1i

xip1

11

1 1

i 1

' p p e n te d e la d ro i te p 'p

d e s m o in d re s c a r ré s s a n s c o n s ta n te d e x s u r p

ii

xt = =

0

oo

o

o o

o

Projection sur l’ axe 1

p1

Page 11: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

11

L ’algorithme NIPALSRecherche des autres composantes principales

• La première étape donne :

X = t1p1′ + X1

• On répète les opérations précédentes sur la matrice des résidus X1 de la régression de X sur t1.

• On obtient : X1 = t2p2′ + X2

et X = t1p1′ + t2p2

′ + X2

• On obtient de même les autres composantes.

Page 12: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

12

RESSh et PRESSh

Residual Sum of Squares : 2ij

j,iijh )xx(RESS −= ∑

Les cases de X sont partagées en G groupes, et on réalise G factorisationsen enlevant à chaque fois un seul des groupes.

Predicted Residual Sum of Squares :

2)ij(

j,iijh )xx(PRESS −−= ∑

où est calculé dans l’analyse réalisée sans le groupecontenant la case (i,j).

)ij (x −

A chaque étape on étudie la reconstitution du tableau X :

'hh

'22

'11 pt...ptptX +++=

Page 13: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

13

L ’algorithme NIPALSChoix du nombre de composantes

• On choisit le nombre de composantes principales par validation croisée.

• La composante th est retenue si

limiteRESSPRESS1Q

1h

h2 ≥−=−

Page 14: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

14

Q2(cum) et R2(validation croisée)

∏= −

−=h

a a

ahcum RESS

PRESSQ1 1

2 1][

peu différent de

∑−

−=

j

2j

h2croisée validation s

1n/PRESS1R

CONSEIL : Modèle à h composantes acceptable si [Q2cum]h > 0.5

La composante h est retenue si :

122 ][ àsupérieur nettement est ][ −hcumhcum QQ

Page 15: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

15

Utilisation de NIPALS :Exemple voitures

La validation croisée conduit à deux composantes.

0.00

0.20

0.40

0.60

0.80

1.00

Comp[1] Comp[2] Comp[3] Comp[4]

R2X

(cum

) & Q

2(cu

m)

autobis.M1 (PC), Untitled, Work setModel Overview (cum)

R2X(cum)Q2(cum)

Simca-P 8.0 by Umetrics AB 2000-05-30 18:38

Page 16: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

16

0.0 0.1 0.2 0.3 0.4

-0.4

-0.2

0.0

0.2

0.4

0.6

CYLINDRÉE

PUISSANCE

VITESSE

POIDSLONGUEUR

LARGEUR

Sim

ca-P

3.0

1 by

Um

etri

AB

199

8-11

-21

14:2

6

NIPALS : Exemple Voitures

Carte des variables ("les vecteurs propres")p[

2]

p[1]

Page 17: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

17

-4 -2 0 2 4

-2

-1

0

1

2

honda cirenault

fiat tip peugeot renault citroen

bmw 530irover 82renault

opel ome

peugeot

ford sie

bmw 325i

audi 90

ford sco

renault

nissan vvw carav

ford fie

fiat uno

peugeot

peugeot

seat ibi

citroen

Ellipse: Hotelling T2 (0.05)

Sim

ca-P

3.0

1 by

Um

etri

AB

1998

-11-

21 1

4:29

NIPALS : Exemple VoituresCarte des voitures (les 2 premières "composantes principales")

t[2]

t[1]

Page 18: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

18

NIPALS : Identification des outliersCarte de contrôle des distances au modèle normalisées

0.00

0.20

0.40

0.60

0.80

1.00

1.20

1.40

1.60

1.80

2.00

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

DM

odX

[2]

Dcrit [2] = 2.00746, Normalized distances, Non weighted residuals

DCrit (0.05)

honda civic

renault 19fiat tipo

peugeot 405renault 21

citroen bxbmw 530i

rover 827i

renault 25

opel omega

peugeot 405bford sierra

bmw 325ix

audi 90 quat

ford scorpio

renault espa

nissan vanet

vw caravelle

ford fiesta

fiat uno

peugeot 205

peugeot 205r

seat ibiza scitroen a

Simca-P 8.0 by Umetrics AB 2000-05-30 19:00

Page 19: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

19

Calcul de la limite de contrôlePropriété :

Limite de contrôle :

**

*

*

** *

*

xi

yi

)k,k(F)y,x(d

n1

)y,x(d

DModX

21n

1iii

2

ii2

=

∑=

)k,k(F 2195.0

Page 20: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

20

Probabilité d’appartenir au modèle

Test : H0 : l’observation i appartient au modèle de l’ACPH1 : l’observation i n’appartient pas au modèle

Décision : On rejette H0 au risque α de se tromper si

),( DModX 211 kkF α−≥

Niveau de signification ou « probabilité d’appartenir au

modèle » : Plus petit α conduisant au rejet de H0

= Prob (F(k1,k2) ≥ DModX2)

L’individu i est exactement sur la limite de contrôle DCrit(αmin)

Page 21: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

21PModX(Nissan Vanette) = 0.08

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

M1.

PM

odX

[2]

M1.Num

NIPALS : Exemple Voitures"Probabilité" d'appartenir au modèle ACP (2 composantes)

honda civic

renault 19

fiat tipopeugeot 405

renault 21

citroen bxbmw 530i

rover 827i

renault 25

opel omega

peugeot 405bford sierra

bmw 325ix

audi 90 quat

ford scorpio

renault espa

nissan vanet

vw caravelle

ford fiesta

fiat uno

peugeot 205

peugeot 205r

seat ibiza scitroen a

Simca-P 8.0 by Umetrics AB 2000-05-22 11:34

Page 22: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

22

II. La régression PLS• Relier un bloc de variables à expliquer Y à un

bloc de variables explicatives X.• Possibilité de données manquantes.• Il peut y avoir beaucoup plus de variables X que

d’observations.• Il peut y avoir beaucoup plus de variables Y que

d’observations.• Meilleure réponse au problème de la

multicolinéarité.

Page 23: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

23

La régression PLS : vocabulaire

• Régression PLS1 : un seul Y

• Régression PLS2 : plusieurs Y

• Analyse discriminante PLS : Y qualitatif transformé en variables indicatrices des modalités

Page 24: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

24

II.1. La régression PLS1 :une idée de l’algorithme

Etape 1 : Recherche de m composantes orthogonales th = Xah bien explicatives de leur propre groupe et bien corrélées à y. Le nombre m est obtenu par validation croisée.

Etape 2 : Régression de Y sur les composantes PLS th .

Etape 3 : Expression de la régression en fonction de X.

Page 25: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

25

Objectif de l’étape 1 de la régression PLS1

***

***

X2

X1

CPX1

t1

*** **

*

*y

CPX1

t1

y

**

*** *

Page 26: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

26

La régression PLS1 : une idée de l’étape 1 lorsqu’il n’y a pas de données manquantes

Pour chaque h = 1 à m, on recherche descomposantes th = Xah maximisantle critère

Cov (Xah , y)

sous des contraintes de norme ( ) etd’orthogonalité entre th et les composantesprécédentes t1 ,…, th-1.

1=ha

Page 27: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

27

Propriétés de la régression PLS1

De Cov2(Xah , y) = Cor2(Xah , y)*Var(Xah)*Var(y)

on déduit que la régression PLS1 réalise un

compromis entre la régression multiple de y sur X et

l’analyse en composantes principales de X.

Page 28: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

28

Régression PLS1: Étape 11. Calcul de la première composante PLS t1 :

∑ ×==j

jj xxycorXat ),(11

2. Normalisation du vecteur a1= (a11,…,a1k)

3. Régression de y sur t1=Xa1 exprimée en fonction des x

4. Calcul des résidus y1 et X1 des régressions de y et X sur t1 :- y = c1t1 + y1- X = t1p1′ + X1

Lors de cette étape les covariances sont égales aux corrélations, puisque toutes les données sont centrées réduites

Page 29: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

29

Régression PLS1: Étape 21. Calcul de la deuxième composante PLS t2 :

∑ ×==j

jj xxybXt 111212 ),cov(

2. Normalisation du vecteur b2= (b21,…,b2k)

3. Calcul de a2 tel que : t2 = X1b2 = Xa2

4. Régression de y1 sur t2 = Xa2 exprimée en fonction des x

5. Calcul des résidus y2 et X2 des régressions de y et X1sur t2 :

- y1 = c2t2 + y2- X1 = t2p2′ + X2

Page 30: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

30

Régression PLS1: Étapes suivantes

• D’où le modèle de régression PLS à m composantes :y = c1t1 + c2t2 + … + cmtm + Résidu

= c1Xa1 + c2Xa2 + … + cmXam + Résidu = X(c1a1 + c2a2 + … + cmam) + Résidu= b1x1 + b2x2 + … + bkxk + Résidu

• On procède de la même manière pourles autres composantes.

y

Page 31: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

31

Calcul de RESSh et PRESSh à l’étape h

Les observations sont partagées en G groupes, et on réalise G fois l’étapecourante de l’algorithme sur yh-1 et Xh-1 en enlevant à chaque fois un groupe.

Predicted Residual Sum of Squares :

2i),1h(

ii),1h(h )yy(PRESS −−− −= ∑

où est calculé dans l’analyse réalisée sans le groupe

contenant l’observation (i).i),1h(y −−

Residual Sum of Squares : 2i),1h(

ii),1h(h )yy(RESS −− −= ∑

où hihi),1h( tcy =− est la prévision de y(h-1),i

Page 32: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

32

Choix du nombre de composantes

• On choisit le nombre de composantespar validation croisée.

• La composante h est retenue si

⇒ [PRESSh] ≤ 0.95×[RESSh-1]

Soit :05.0

RESSPRESS1Q

1h

h2 ≥−=−

Page 33: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

33

Q2(cum) et R2(validation croisée)

∏= −

−=h

a a

ahcum RESS

PRESSQ1 1

2 1][

peu différent de

∑ −−=

ii

h

yyPRESSR 2

2croisée validation )(

1

Modèle à h composantes acceptable si [Q2cum]h > 0.5

La composante h est retenue si :

122 ][ àsupérieur nettement est ][ −hcumhcum QQ

Page 34: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

34

Variable Importance in the Prediction(VIP)

• Importance de la variable xj (j=1,…, p) pour la prédiction de y dans un modèle à m composantes :

∑∑ =

=

=m

hhjhm

hh

mj btyRtyR

pVIP1

22

1

2),(

),(

• Composantes PLS : th = Xh-1bh, avec ||bh|| = 1

• Moyenne des carrés des VIP = 1• Variable importante pour la prédiction si VIP > 0.8

Page 35: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

35

Régression PLS1 : Exemple VoituresProblèmes : multicolinéarité, données manquantes

Modèle Prix Cylindrée Puissance Vitesse Poids Longueur LargeurHonda Civic 83700 . 90 174 850 369 166Renault 19 83800 1721 . 180 965 415 169Fiat Tipo 70100 1580 83 . 970 395 170

Citroën AX Sport 66800 1294 95 184 730 350 .

Modèle Prix Cylindrée Puissance Vitesse Poids Longueur LargeurHonda Civic 83700 1396 90 174 850 369 166Renault 19 83800 1721 92 180 965 415 169Fiat Tipo 70100 1580 83 170 970 395 170

Citroën AX Sport 66800 1294 95 184 730 350 160

Données complètes

Données incomplètes

Page 36: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

36

Régression multiple sur les données complètes

R2 = 0.847, F = 15.730 Sig. = 0.0001

Coefficientsa

12070.406 194786.6 .062 .951-1.936 33.616 -.018 -.058 .955

1315.906 613.510 .888 2.145 .047-472.507 740.319 -.207 -.638 .532

45.923 100.047 .184 .459 .652209.653 504.152 .151 .416 .683

-505.429 1501.589 -.067 -.337 .741

(Constant)CYLINDREPUISSANCVITESSEPOIDSLONGUEURLARGEUR

Model B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: PRIXa.

Page 37: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

37

Corrélations entre les variablesCorrelation Matrix

1.000 .852 .891 .720 .813 .747 .611.852 1.000 .861 .693 .905 .864 .709.891 .861 1.000 .894 .746 .689 .552.720 .693 .894 1.000 .491 .532 .363.813 .905 .746 .491 1.000 .917 .791.747 .864 .689 .532 .917 1.000 .864.611 .709 .552 .363 .791 .864 1.000

PRIXCYLINDREPUISSANCVITESSEPOIDSLONGUEURLARGEUR

PRIX CYLINDRE PUISSANC VITESSE POIDS LONGUEUR LARGEURCorrelation

Page 38: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

38

Régression PLS sur les données incomplètesChoix du nombre de composantes

0.00

0.20

0.40

0.60

0.80

1.00

Comp[1] Comp[2] Comp[3]

R2Y

(cum

) & Q

2(cu

m)

autopbis.M1 (PLS), Untitled, Work setModel Overview (cum)

R2Y(cum)Q2(cum)

Simca-P 8.0 by Umetrics AB 2000-05-30 18:11

On retient une composante PLS

Page 39: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

39

Régression PLS sur les données incomplètesR2 = 0.761

*ur0.129Large *eur0.153Longu *0.165Poids

*se0.146Vites *ance0.206Puiss *drée0.183Cylin 2.18 )(Pr

Pr

+++

+++=ix

ixσ

Équation sur les données centrées-réduites (CoeffCS)

Équation sur les données d’origine (Coeff)

Prix = -316 462 + 23Cylindrée + 328Puissance + 339Vitesse

+ 40Poids + 205Longueur + 1007Largeur

Équation sur les données d’origine pour Y et centrées pour X (CoeffC)

Prix = 125513 + 23(Cylindrée - 1888) + 328(Puissance - 112) + 339(Vitesse - 182)

+ 40(Poids - 1113) + 205(Longueur - 422) + 1007(Largeur - 168)

Page 40: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

40

Résultats de la validation croiséesur les coefficients de régression PLS

0.10

0.12

0.14

0.16

0.18

0.20

0.22

0.24

CYLIN

DR

E

PU

ISS

AN

C

VITE

SS

E

PO

IDS

LON

GU

EU

R

LAR

GE

UR

PRIX

Audi 90 Quattro

Page 41: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

41

Résultats de la validation croiséesur les coefficients de régression PLS

B SE Student T p-valueCylindréePuissanceVitessePoidsLongueurLargeur

0.18270.20600.14650.16530.15250.1286

0.03710.05700.04300.01810.01750.0299

4.9253.6143.4079.1338.7144.301

0.00010.00050.00020.00010.00010.0001

Page 42: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

42

Carte des variables

-0.60

-0.40

-0.20

0.00

0.20

0.40

0.60

-0.80 -0.70 -0.60 -0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80

w*c

[2]

w*c[1]

XY

CYLINDRÉE

PUISSANCE

VITESSEPOIDS

LONGUEUR

LARGEUR

PRIX

Page 43: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

43

Validation globale

- Abscisse : Corrélation entre Y et Y permuté- Ordonnée : R2 et Q2 de la régression PLS de Y permuté sur X- Les droites noire et rouge sont les droites des moindres carrés

-0.20

-0.10

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

Autoprib.M1 (PLS): Validate ModelPRIX Intercepts: R2=(0.0, -0.0144), Q2=(0.0, -0.192)

200 permutations 1 components

R2Q2

Page 44: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

44

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

1.10

1.20P

UIS

SA

NC

CY

LIN

DR

E

PO

IDS

LON

GU

EU

R

VIT

ES

SE

LAR

GE

UR

VIP

[1]

Exemple VoituresVariable Importance in the Projection (1 composante)

Simca-P 8.0 by Umetrics AB 2000-05-22 12:05

Page 45: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

45

Régression PLS sur les données incomplètes

50000

100000

150000

200000

250000

40000 60000 80000 100000 120000 140000 160000 180000 200000 220000 240000

Y

Predicted

AUTOPRIB.M1 (PLS), Modèle 1, Work setPRIX, Comp 1(Cum)

RMSEE=28979

honda ci renault fiat tip

peugeot renault citroen

bmw 530i

rover 82

renault

opel omepeugeot ford sie

bmw 325i

audi 90

ford scorenault

nissan v

vw carav

ford fiefiat unopeugeot peugeot seat ibicitroen

Simca-P 7.01 by Umetri AB 1998-11-23 09:40

Page 46: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

46

Intervalle de confiance à 95% du prix moyen(fourni par SIMCA)

prévision

3000002000001000000

PR

IX300000

200000

100000

0

Page 47: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

47

Intervalle de prévision à 95% du prix (à calculer)

prévision

3000002000001000000

PR

IX

300000

200000

100000

0

audi 90 quattro

Page 48: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

48

Prédiction du prix de la HONDA CIVIC(Problème : certains X sont manquants)

Prix de vente : 83 700 FF

Caractéristiquesde la Honda Civic

Caractéristiquescentrées-réduites

CylindréePuissanceVitessePoidsLongueurLargeur

?90

174850369166

?-.61009-.32011

-1.10172-1.23196-.32679

Page 49: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

49

Prédiction du Prix de la HONDA CIVIC

Calcul de tPS1 pour la HONDA CIVIC :

- Régression : Xj = p1jt1 + erreur, j = 1,…, p

⇒ p1 = (p11, …, p1p)

- Régression : xi = tPS1ip1 + erreur

sur les données disponibles; d ’où le calcul de tPS1i

⇒ tPS1(Honda Civic) = -1.84262 est l’estimation de t1i

Prédiction du prix de la HONDA CIVIC- On utilise tPS1 à la place de t1

⇒ Prédiction du Prix = 82 644.5 FF

Régression du Prix sur t1 :

1 0.4045789 503 57

512 125 -Prix t×≈

Page 50: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

50

Prédiction du Prix de la HONDA CIVIC : calcul de tPS1 (Honda Civic)

⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢

×≈

⎟⎟⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜⎜⎜

−−−−−

=

36.039.039.037.045.048.0

)(

33.23.110.1

32.61.?

1 HondatPSxHondatPS1(Honda) = -1.84262

P1CylindréePuissanceVitessePoidsLongueurLargeur

0.480.450.370.390.390.36

Page 51: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

51

Régression PLS1 : Cas UOP Guided WaveProblème : 226 variables X et 26 observations

Les données :• Y = indice d’octane• X1, X2, …, X226 :

valeurs d’absorbance à différentes longueurs d’onde

• Données de calibration :26 échantillons d’essence (dont 2 avec alcool)

• Données de validation :13 échantillons d’essence (dont 4 avec alcool)

Page 52: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

52

Cas UOP Guided Wave Visualisation des X

Octane - Matrix Plot, Sam.Set: All Samples, Var.Set: Selected Variables

H17

H36

S.016

11001200

13001400

1500

a

m

p

l

e

s X - V a r i a b l e s

-4.469e-03 0.113 0.231 0.349 0.467 0.585

Page 53: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

53

Cas UOP Guided Wave Visualisation des X : Données de calibration

Sequence number

217

205

193

181

169

157

145

133

121

109

97

85

73

61

49

37

25

13

1

.7

.6

.5

.4

.3

.2

.1

0.0

-.1

M52

H59

Les échantillons M52 et H59 contiennent de l ’alcool

Page 54: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

54

Cas UOP Guided Wave Visualisation des X : Données de validation

Les échantillons avec alcool sont en rouge

Numéro de la longueur d'onde

217

205

193

181

169

157

145

133

121

109

97

85

73

61

49

37

25

13

1

.7

.6

.5

.4

.3

.2

.1

0.0

-.1

Page 55: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

55

Régression PLS1 : les résultats

• Données de spectroscopieLes données sont centrées, mais non réduites

• Validation croisée :3 composantes PLS

Page 56: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

56

UOP Guided Wave : Les composantes PLS

-0.40

-0.20

0.00

0.20

0.40

-0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60

t[2]

t[1]

OCTANE.M4 (PLS), Untitled, Work setScores: t[1]/t[2]

Ellipse: Hotelling T2 (0.05)

M01M02

M05

L06

H11H12

L13

L14L15

H17

M18

H20

L21

H24H27

L29L31

H32

L35

H36

L37

H38

H39

L40

M52 H59

Simca-P 7.01 by Umetri AB 1998-11-23 12:14

- Indice d ’octane : L = Low, M = Medium, H = High- Les échantillons M52 et H59 contiennent de l’alcool

Page 57: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

57

UOP Guided Wave : les composantes PLS

-0.100

-0.050

0.000

0.050

0.100

-0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50

t[3]

t[2]

OCTANE.M4 (PLS), Untitled, Work setScores: t[2]/t[3]

Ellipse: Hotelling T2 (0.05)

M01M02 M05

L06H11

H12L13

L14L15

H17

M18

H20

L21

H24H27L29

L31

H32

L35

H36

L37

H38

H39

L40M52

H59

Simca-P 7.01 by Umetri AB 1998-11-23 12:41

Indice d ’octane : L = Low, M = Medium, H = High

Page 58: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

58

Cas UOP Guided Wave : PrévisionDonnées de calibration

87

88

89

90

91

92

87 88 89 90 91 92

Y

Predicted

OCTANE.M4 (PLS), Untitled, Work setOCTANE, Comp 3(Cum)

RMSEE=0.290788

M01M02M05

L06

H11H12

L13L14L15

H17

M18

H20

L21

H24 H27

L29L31

H32

L35

H36

L37

H38H39

L40

M52

H59

Simca-P 7.01 by Umetri AB 1998-11-23 12:53

Page 59: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

59

Cas UOP Guided Wave : PrévisionDonnées de validation

87

88

89

90

91

92

87 88 89 90 91 92

Obs

erve

d

Predicted

OCTANE.M5 (PLS), Untitled, PS-OCTANEOCTANE, Comp 3 (Cum)

RMSEP=0.256792

S.003S.004

S.010

S.016

S.019

S.022

S.025

S.026

S.034

S.055

S.056

S.057S.058

Simca-P 7.01 by Umetri AB 1998-11-23 13:11

Présence d ’alcool : OUI / NON

Page 60: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

60

II.2 La régression PLS2

• Relier un bloc de variables à expliquer Y à un bloc de variables explicatives X.

• Possibilité de données manquantes.• Il peut y avoir beaucoup plus de variables X que

d’observations.• Il peut y avoir beaucoup plus de variables Y que

d’observations.

Page 61: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

61

La régression PLS2 : une idée de l’algorithme

Etape 3 : Expression de la régression en fonction de X.

Etape 1 : Recherche de m composantes orthogonalesth = Xah et m composantes uh= Ybh bien corréléesentre elles et explicatives de leur propre groupe.

Le nombre m est obtenu par validation croisée.

Etape 2 : Régression de Y sur les composantes th .

Page 62: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

62

Objectif de l’étape 1 de la régression PLS2

***

***

X2

X1

CPX1

t1

*** **

*

*CPY1

u1

Y2

Y1

t1

u1

**

*** *

Page 63: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

63

La régression PLS2 : une idée de l’étape 1 lorsqu’il n’y a pas de données manquantes

Pour chaque h = 1 à m, on recherche descomposantes th = Xah et uh= Ybh maximisantle critère

Cov (Xah , Ybh )sous des contraintes de norme et d’orthogonalitéentre th et les composantes précédentes t1 ,…, th-1.

Page 64: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

64

Interprétation du critère de Tucker

De Cov2(Xah , Ybh ) = Cor2(Xah , Ybh )* Var(Xah)*Var(Ybh)

on déduit que la régression PLS réalise uncompromis entre l’analyse canoniquede X et Y, une ACP de X, et une ACP« oblique » de Y.

Page 65: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

65

Variable Importance in the Prediction (VIP)

• Importance de la variable xj (j=1, p) pour la prédiction des yk (k=1, q) dans un modèle à m composantes :

∑ ∑∑∑ = =

= =

=m

hhj

q

khkm

h

q

khk

mj btyRtyR

pVIP1

2

1

2

1 1

2]),([

);(

• Composantes PLS : th = Xh-1bh , avec ||bh|| = 1

• Moyenne des carrés des VIP = 1• Variable importante pour la prévision si VIP > 0.8

Page 66: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

66

Régression PLS2Exemple 1: Dégustation de thé

Les donnéesObs Température Sucré Force Citron Sujet 1 … Sujet 61 1 1 1 1 4 52 1 2 2 1 2 83 1 3 3 2 6 6

11 1 2 1 1 1 14

18 3 3 1 2 12 15

Température Sucré Force Citron1 = Chaud2 = Tiède3 = Glacé

1 = Pas de sucre2 = 1 sucre3 = 2 sucres

1 = Fort2 = Moyen3 = Faible

1 = Avec2 = Sans

Page 67: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

67

Cas Dégustation de thé

• Bloc XVariables indicatrices des modalitésde Température, Sucré, Force et Citron

• Bloc YLes classements des sujets

Page 68: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

68

Cas Dégustation de théRésultats de la régression PLS

• Validation croisée :

3 composantes : th = Xwh* et uh = Ych

• Équation de régression de Yk sur t1, …, th :

Yk = c1kt1 + c2kt 2+ c3kt3 + c4kt4 + résidu

• Les variables X et Y sont représentées à l’aidedes vecteurs wh* et ch.

Page 69: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

69

Cas Dégustation de théCarte des variables

-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8-0.6

-0.4

-0.2

0.0

0.2

0.4

0.6

CHAUD

TIEDE

GLACÉSUCRE0

SUCRE1

SUCRE2

FORTMOYEN

LEGER

CITRON1

CITRON0Y1

Y2

Y3

Y4

Y5

Y6

Sim

ca-P

3.0

1 by

Um

etri

AB

199

8-11

-23

18:1

1

THE.M1 (PLS), régression PLS, WorksetLoadings: w*c[1]/w*c[2]

w*c

[2]

w*c[1]

Page 70: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

70

Cas dégustation de théVisualisation de la régression PLS de Y1 sur X

-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8-0.6

-0.4

-0.2

0.0

0.2

0.4

0.6

CHAUD

TIEDE

FROIDSUCRE0

SUCRE1

SUCRE2

FORTMOYEN

LEGER

CITRON1

CITRON0Y1

Y2

Y3

Y4

Y5

Y6

Sim

ca-P

3.0

1 by

Um

etri

AB

1998

-11-

23 1

8:11

THE.M1 (PLS), régression PLS, WorksetLoadings: w*c[1]/w*c[2]

w*c

[2]

w*c[1]

CH

AUD

TIED

E

FRO

ID

SUC

RE0

SUC

RE1

SUC

RE2

FOR

T

MO

YEN

LEG

ER

CIT

RO

N1

CIT

RO

N0

-0.6

-0.4

-0.2

0.0

0.2

0.4

Coe

ffCS5

[4]

Sim

ca-P

3.0

1 by

Um

etri

AB

1998

-11-

23 1

9:14

THE régression PLS M1.Y1 (CoeffCS) [4]

Règle d’interprétation:Les projections des variables X sur les variables Y reflètent le signe et l’ordre de grandeur des coefficients de régression PLS des Y sur X.Le juge 1 aime son thé chaud et rejette le thé tiède

Page 71: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

71

Validation du modèle pour le juge 1

-0.60

-0.40

-0.20

0.00

0.20

0.40

0.60

CH

AUD

TIED

E

FRO

ID

SUC

RE0

SUC

RE1

SUC

RE2

FOR

T

MO

YEN

LEG

ER

CIT

RO

N1

CIT

RO

N0

Coe

ffCS[

4](Y

1)

Var ID (Primary)

Page 72: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

72

Cas dégustation de théVisualisation de la régression PLS de Y5 sur X

-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8-0.6

-0.4

-0.2

0.0

0.2

0.4

0.6

CHAUD

TIEDE

FROIDSUCRE0

SUCRE1

SUCRE2

FORTMOYEN

LEGER

CITRON1

CITRON0Y1

Y2

Y3

Y4

Y5

Y6

Sim

ca-P

3.0

1 by

Um

etri

AB

1998

-11-

23 1

8:11

THE.M1 (PLS), régression PLS, WorksetLoadings: w*c[1]/w*c[2]

w*c

[2]

w*c[1]

CH

AU

D

TIED

E

FRO

ID

SU

CR

E0

SU

CR

E1

SU

CR

E2

FOR

T

MO

YEN

LEG

ER

CIT

RO

N1

CIT

RO

N0

-0.4

-0.2

0.0

0.2

0.4

Coe

ffCS9

[4]

Sim

ca-P

3.0

1 by

Um

etri

AB

1998

-11-

23 1

9:26

THE régression PLS M1.Y5 (CoeffCS) [4]

Le juge 5 préfère son thé sans citron, fort;il est indifférent au thé tiède; il rejette le thé léger, avec du citron.

Page 73: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

73

Validation du modèle pour le juge 5

-0.40

-0.20

0.00

0.20

0.40

CH

AUD

TIED

E

FRO

ID

SUC

RE0

SUC

RE1

SUC

RE2

FOR

T

MO

YEN

LEG

ER

CIT

RO

N1

CIT

RO

N0

Coe

ffCS[

4](Y

5)

Var ID (Primary)

Page 74: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

74

Carte des produits dans l’espace des juges

-2

-1

0

1

2

-2 -1 0 1 2

u[2]

u[1]

Dégustation de thésScores: u[1]/u[2]

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

Simca-P 8.0 by Umetrics AB 2000-11-27 10:19

Page 75: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

75

Variable Importance in the Projection (VIP)

0.00

0.20

0.40

0.60

0.80

1.00

1.20

1.40

1.60

TIE

DE

CH

AU

D

SU

CR

E0

SU

CR

E2

LEG

ER

CIT

RO

N1

CIT

RO

N0

FOR

T

FRO

ID

MO

YE

N

SU

CR

E1

VIP

[4]

THE.M1 (PLS), Untitled, Work setVIP, Comp 4(Cum)

Simca-P 8.0 by Umetrics AB 2000-03-08 08:01

Page 76: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

76

III. Analyse discriminante PLS

• Bloc YLa variable qualitative Y est remplacée par l’ensemble des variables indicatrices de ses modalités.

• Bloc XVariables numériques ou indicatrices des modalités des variables qualitatives.

• Régression PLS de Y sur X

Page 77: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

77

Analyse discriminante PLS : exemple

• 16 biopsies de tumeurs de cerveau humain.• Chaque tumeur est classée par un médecin anatomo-

pathologiste comme bénigne ou maligne.• Chaque biopsie est analysée par chromatographie en phase

gazeuse : on obtient un profil métabolique de la biopsie formé de 156 pics.

• Quelques données manquantesArticle:

Jellum E., Bjørnson I., Nesbakken R., Johanson E., Wold S. Classification of human cancer cells by means of capillary gas chromatography and pattern recognition analysis. ( Journal of Chromatography, 1981)

Les données

Page 78: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

78

Analyse discriminante PLSProfils métaboliques des biopsies

Sequence number

153145

137129

121113

10597

8981

7365

5749

4133

2517

91

1400

1200

1000

800

600

400

200

0

N1

N4

N5

N13

N14

N15

Sequence number

153145

137129

121113

10597

8981

7365

5749

4133

2517

91

1200

1000

800

600

400

200

0

T2

T3

T6

T7

T8

T9

T10

T11

T12

T16

Tumeurs bénignes Tumeurs malignes

Page 79: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

79

Analyse en composantes principales des 16 biopsiesComposantes principales 1 et 2

-10

-5

0

5

10

-10 0 10

t[2]

t[1]

EGI1.M4 (PC), Untitled, Work setScores: t[1]/t[2]

Ellipse: Hotelling T2 (0.05)

N1

T2

T3 N4

N5

T6T7

T8

T9T10

T11

T12

N13

N14

N15

T16

Simca-P 7.01 by Umetri AB 1998-11-24 15:17

Page 80: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

80

Analyse en composantes principales des 16 biopsiesComposantes principales 1 et 3

-10

-5

0

5

10

-10 0 10

t[3]

t[1]

EGI1.M4 (PC), Untitled, Work setScores: t[1]/t[3]

Ellipse: Hotelling T2 (0.05)

N1

T2

T3N4

N5

T6T7

T8T9

T10T11

T12N13

N14

N15T16

Simca-P 7.01 by Umetri AB 1998-11-24 15:19

Page 81: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

81

Analyse discriminante PLSComposantes PLS 1 et 2

-10

-5

0

5

10

-10 0 10

t[2]

t[1]

EGI1.M5 (PLS), Untitled, Work setScores: t[1]/t[2]

Ellipse: Hotelling T2 (0.05)

N1

T2

T3

N4

N5T6T7

T8

T9T10

T11

T12 N13

N14

N15T16

Simca-P 7.01 by Umetri AB 1998-11-24 15:22

Page 82: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

82

IV. Régression logistique PLS

• Bonne solution au problème de la multicolinéarité.

• Il peut y avoir beaucoup plus de variables que d’observations.

• Il peut y avoir des données manquantes.• Présentation de trois algorithmes

Page 83: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

83

Qualité des vins de Bordeaux

Variables observées sur 34 années (1924 - 1957)

• TEMPERATURE : Somme des températures moyennes journalières

• SOLEIL : Durée d’insolation• CHALEUR : Nombre de jours de grande chaleur• PLUIE : Hauteur des pluies

• QUALITE DU VIN : Bon, Moyen, Médiocre

Page 84: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

84

Régression logistique ordinale

Pluie4Chaleur3Soleil2eTempératur1i

Pluie4Chaleur3Soleil2eTempératur1i

e1e

β+β+β+β+α

β+β+β+β+α

+

PROB(Y ≤ i) =

Y = Qualité : Bon (1), Moyen (2), Médiocre (3)

Page 85: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

85

Régression logistique ordinaleRésultats SAS

Score Test for the Proportional Odds Assumption

Chi-Square = 2.9159 with 4 DF (p=0.5720)

Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr >Variable DF Estimate Error Chi-Square Chi-Square

INTERCP1 1 -2.6638 0.9266 8.2641 0.0040INTERCP2 1 2.2941 0.9782 5.4998 0.0190TEMPERA 1 3.4268 1.8029 3.6125 0.0573SOLEIL 1 1.7462 1.0760 2.6335 0.1046CHALEUR 1 -0.8891 1.1949 0.5536 0.4568PLUIE 1 -2.3668 1.1292 4.3931 0.0361

Page 86: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

86

Régression logistique ordinaleQualité de prévision du modèle

QUALITE PREVISIONOBSERVEEEffectif ‚ 1‚ 2‚ 3‚ Totalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 8 ‚ 3 ‚ 0 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 ‚ 2 ‚ 8 ‚ 1 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 ‚ 0 ‚ 1 ‚ 11 ‚ 12ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 10 12 12 34

Résultat : 7 années mal classées

Page 87: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

87

Régression logistique ordinaleCommentaires

• Le modèle à pentes égales est acceptable(p = 0.572).

• La chaleur a une influence positive sur la qualité du vin de Bordeaux, alors qu’elle apparaît comme non significative et avec un coefficient négatif dans le modèle.

• C ’est un problème de multicolinéarité.• Il y a 7 années mal classées.

Page 88: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

88

Algorithme 1 : La régression logistique PLS

Etape 3 : Expression de la régression logistique en fonction de X.

Etape 1 : Recherche de m composantes orthogonalesTh = Xah explicatives de leur propre groupeet bien prédictives de y.

Le nombre m est obtenu par validation croisée.

Etape 2 : Régression logistique de Y sur les composantes Th .

Page 89: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

89

Régression logistique PLSÉtape 1

1. Régression logistique de y sur chaque xj :

⇒ les coefficients de régression a1j

2. Normalisation du vecteur a1= (a11,…,a1k)

3. Régression logistique de y sur T1=Xa1

exprimée en fonction des X4. Calcul du résidu X1 de la régression de X sur T1

Page 90: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

90

1. Régression logistique de y sur T1 et chaquerésidu x1j :⇒ les coefficients de régression b2j

2. Normalisation du vecteur b2= (b21,…,b2k)3. Calcul de a2 tel que : T2 = X1b2 = Xa2

4. Régression logistique de y sur T1= Xa1 et T2 = Xa2exprimée en fonction des X

5. Calcul du résidu X2 de la régression de X sur T1 , T2

Régression logistique PLSÉtape 2

Page 91: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

91

Régression logistique PLSChoix du nombre de composantes

0975.01 21-h étape on,substituti

2h étape croisée, validation2 ≥−=

χχ

Q

• On choisit le nombre de composantes par validation croisée : la composante h est retenue si

≤ 0.95×Soit :

2/12 )]h étape croisée, validation([ Pearsonχ2/12 )]1-h étape on,substituti([ Pearsonχ

• On procède de la même manière pour les autres étapes.

Page 92: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

92

Régression logistique PLSRésultats de l’algorithme

• La température de 1924 est supposée inconnue.• La régression logistique PLS de Y sur X a conduit

à deux composantes PLS T1 et T2 :T1 = 0.57×Température + 0.63×Soleil + 0.41×Chaleur

- 0.34×Pluie

T2 = - 0.14×Température + 0.45×Soleil - 0.69×Chaleur - 0.52×Pluie

Page 93: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

93

Régression logistique ordinale sur T1, T2Résultats SAS

Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr >Variable DF Estimate Error Chi-Square Chi-Square

INTERCP1 1 -2.5490 0.8768 8.4507 0.0036INTERCP2 1 2.1349 0.8955 5.6837 0.0171T1 1 3.0797 0.8350 13.6032 0.0002T2 1 1.4148 0.8849 2.5563 0.1099

TABLEAU CROISANT QUALITÉ OBSERVÉE ET PRÉDITE

QUALITÉ PRÉDICTION

Effectif ‚ 1‚ 2‚ 3‚ Totalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 9 ‚ 2 ‚ 0 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 ‚ 1 ‚ 9 ‚ 1 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 ‚ 0 ‚ 1 ‚ 11 ‚ 12ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 10 12 12 34

Résultat :5 années mal classées

Page 94: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

94

Régression logistique PLSLe modèle

Prob (Y≤ i)

2T42.11T08.314.255.2

2T42.11T08.314.255.2

e1e

×+×+×+×−

×+×+×+×−

+= MoyenBon

MoyenBon

PluieChaleurSoleilTemp.MoyenBon

PluieChaleurSoleilTemp.MoyenBon

×−×+×+×+×+×−

×−+×+×+×+×−

+= 77.126.073.257.114.255.2

77.126.073.257.114.255.2

e1e

Page 95: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

95

Algorithme 2 Régression logistique sur composantes PLS

(1) Régression PLS des indicatrices de Y sur les X.

(2) Régression logistique de Y sur lescomposantes PLS des X.

Page 96: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

96

Régression logistique sur les composantes PLSRésultats

• La température de 1924 est supposée inconnue.• La régression PLS des indicatrices de Y sur X

a conduit à une seule composante PLS t1(résultat de la validation croisée).

• t1 = 0.55×Température + 0.55×Soleil +0.48×Chaleur– 0.40×Pluie

• Pour l’année 1924 : t1 = (0.55×Soleil +0.48×Chaleur– 0.40×Pluie)/0.69

Page 97: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

97

Utilisation de la régression PLS pour la prévision de la qualité du vin de Bordeaux

The PLS ProcedureCross Validation for the Number of Latent Variables

Test for largerresiduals than

minimumNumber of RootLatent Mean Prob >

Variables PRESS PRESSƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

0 1.0313 01 0.8304 1.00002 0.8313 0.49903 0.8375 0.44504 0.8472 0.3500

Minimum Root Mean PRESS = 0.830422 for 1 latent variableSmallest model with p-value > 0.1: 1 latent

TABLE OF QUALITE BY PREV

QUALITE PREV

Frequency‚ 1‚ 3‚ Totalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ

1 ‚ 11 ‚ 0 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ

2 ‚ 4 ‚ 7 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ

3 ‚ 1 ‚ 11 ‚ 12ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 16 18 34

Résultat :12 années mal classées

Choix d’une composante PLS

Page 98: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

98

Résultats de la régression logistiquede Y sur la composante PLS t1

Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr >Variable DF Estimate Error Chi-Square Chi-Square

INTERCP1 1 -2.1492 0.8279 6.7391 0.0094INTERCP2 1 2.2845 0.8351 7.4841 0.0062t1 1 2.6592 0.7028 14.3182 0.0002

TABLEAU CROISANT QUALITÉ OBSERVÉE ET PRÉDITE

QUALITÉ PRÉDICTION

Effectif ‚ 1‚ 2‚ 3‚ Totalƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 9 ‚ 2 ‚ 0 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 ‚ 2 ‚ 8 ‚ 1 ‚ 11ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 ‚ 0 ‚ 1 ‚ 11 ‚ 12ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆTotal 11 11 12 34

Résultat :6 années mal classées

Page 99: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

99

Régression logistique sur composantes PLSLe modèle

Prob (Y≤ i)

1t66.228.215.2

1t66.228.215.2

e1e

×+×+×−

×+×+×−

+= MoyenBon

MoyenBon

Pluie07.1Chaleur28.1Soleil46.1Temp.47.1Moyen28.2Bon15.2

Pluie07.1Chaleur28.1Soleil46.1Temp.47.1Moyen28.2Bon15.2

e1e

×−×+×+×+×+×−

×−×+×+×+×+×−

+=

Page 100: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

100

Conclusion 1: Régression logistique PLSvs régression logistique sur composantes PLS

• Les deux algorithmes présentés devraient avoir des qualités comparables.

• L ’algorithme 2 est beaucoup plus simple :Deux étapes :(1) Régression PLS des indicatrices de Y sur X(2) Régression logistique de Y sur les

composantes PLS

Page 101: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

101

Conclusion 2:Le modèle linéaire généralisé PLS

• Le modèle linéaire généralisé PLS peut être construit selon les mêmes procédures.

• Approche beaucoup plus simple que la méthode de Brian Marx : « Iteratively Reweighted Partial Least Square Estimation for Generalized Linear Regression »,Technometrics, 1996.

Page 102: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

102

Algorithme 3 (données groupées) Régression PLS du logit de la variable de

réponse sur les prédicteurs

Exemple : Job satisfaction (Zelterman, 1999)• 9949 employees in the ‘ craft ’ job within a company• Response : Satisfied/Dissatisfied• Factors : Sex, Race (White/Nonwhite),

Age (<35, 35-44, >44)Region (Northeast, Mid-Atlantic, Southern, Midwest, Northwest, Southwest, Pacific)

• Explain Job satisfaction with all the main effects and the interactions.

Page 103: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

103

Une approche exploratoire

(1) Régression PLS de Y1 = Logit(proportion of satisfied people)Y2 = Logit(proportion of non satisfied people)sur les 4 facteurs et toutes les interactions.

(2) Élimination itérative des termes à petits VIP, en vérifiant l’augmentation du Q2(cum)

(3) Carte des variables finalement retenues

Page 104: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

104

Résultat de la Régression PLS sur les logits

-0.50

-0.40

-0.30

-0.20

-0.10

0.00

0.10

0.20

0.30

-0.30 -0.20 -0.10 0.00 0.10 0.20 0.30

w*c

[2]

w*c[1]

MEN

NORTHEAST

MID-ATLANTIC

YOUNG

SOUTHERN

WOMEN

YOUNG WHITE

OLD WHITE

WHITE in MID-ATLANTIC

YOUNG WOMEN

YOUNG in NORTHEAST

YOUNG in MIDWEST

OLD in MID-ATLANTIC

OLD in SOUTHERN

WOMEN in NORTHEAST

WOMEN in MIDWESTNONWHITE WOMEN

NONWHITE MEN

SATISFIED

NON SATISFIED

Y1 = Logit (Proportion of Satisfied)Y2 = Logit (Proportion of Non Satisfied)X = Explanatory variables kept after elimination of small VIP terms

Page 105: Les Méthodes PLS - maths.cnam.frmaths.cnam.fr/IMG/pdf/REGRESSION_PLS-1-2-Disc-Logist.pdf · fiat uno peugeot 205 peugeot 205r seat ibiza s citroen a Simca-P 8.0 by Umetrics AB 2000-05-22

105

Quelques références sur les méthodes PLS

- J.-B. Lohmöller : Latent variable path modeling with partial least squares, Physica-Verlag, 1989

- LVPLS 1.8 : Software for Latent variables path analysis with partial least-squares estimation, J.-B. Lohmöller, 1989

- M. Tenenhaus : L’approche PLS, R.S.A., 47 (2), 5-40, 1999

Régression PLS - L. Eriksson, E. Johansson, N. Kettaneh-Wold & S. Wold : Multi- and

Megavariate Data Analysis using Projection Methods (PCA & PLS),Umetrics, 1999.

- H. Martens & M. Martens : Multivariate Analysis of Quality, Wiley, 2000- H. Martens & T. Næs : Multivariate calibration, Wiley, 1989- SIMCA 12.0 : PLS Software, S. WOLD, UMETRI (Sweden),

distribué par SIGMA PLUS- M. Tenenhaus : La régression PLS, Editions Technip, 1998

Approche PLS (PLS Path modelling)