20
1 Statistique et Causalité Selon J. Pearl

1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

Embed Size (px)

Citation preview

Page 1: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

1

Statistique et Causalité

Selon J. Pearl

Page 2: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

2

Lithiase rénale(paradoxe de Simpson)

Population

totaleChirurgie Technique

percutanée

Succès 546 (78%) 578 (83%) 1124 (80%)

Echecs 154 122 276

700 700 1400

Petit volume

Chirurgie Technique percutanée

Succès 162 (93%) 468 (87%) 630 (88%)

Echecs 12 72 84

174 540 (76%) 714

Gros volume

Chirurgie Technique percutanée

Succès 384 (73%) 110 (69%) 494 (72%)

Echecs 142 50 192

526 160 (23%) 686

Page 3: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

Lithiase rénale• Où est le problème?

– Succès Petite lithiase Percutané– K. Pearson (1899) :

• A mixture of heterogeneous groups, each of which exhibits in itself no correlation, will exhibit a greater or lesser amount of correlation. To those who persist in looking upon correlation as cause and effect, this fact must come rather as a shock

– C’est l’interprétation causale qui est à l’origine du paradoxe

• Mais: que propose-t-on au prochain patient? – Si on regarde le dossier: chirurgie– Si on ne regarde pas: procédure percutanée !!

3

Page 4: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

Autrement dit…

• Quelle est la bonne analyse : ajuster ou ne pas ajuster…– Quelles covariables doit-on introduire dans le

modèle? (sélection des covariables ≠ sélection de modèle)

• Qu’est-ce qu’un facteur de confusion?– Intuitivement: si je l’oublie, je vais conclure à une

association statistique « fausse » (i.e. non causale!!!)– Plus formellement:

• En relation causale avec la réponse, indépendamment de l’exposition

• Associé à l’exposition, sans en être une conséquence

4

Page 5: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

Donc…• Le problème de sélection des covariables

– N’est pas de nature statistique– Il est de nature causale

• Il faut :– Un formalisme pour la causalité : graphes

acycliques orientés, calcul des interventions– Spécifier un modèle causal (expliciter les

hypothèses causales)

5

Page 6: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

6

Graphes• Graphe = (S,A)

– S: sommets– A: arêtes (relient les sommets 2 par 2)

• Graphes orientés acycliques (Directed Acyclic Graphs, réseaux bayésiens)– Arêtes orientées (flèches), pas de cycle– Flèche: représente un mécanisme causal (hypothétique)

a b

c d

a b

c d

a b

c d

Page 7: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

7

Graphes

• Pratiques pour représenter les lois conjointes (reflètent les hypothèses d’indépendance): une variable est indépendante de ses prédécesseurs, conditionnellement à ses parents

• Peuvent être élaborés selon des hypothèses causales (réseaux bayésiens causaux)– Causalité: intuitive (qualitative, asymétrique)), contrairement à

dépendance statistique (quantitative, symétrique)

jjjjjj XPA),paP(XxxXP de parents ),,( 11

n

jjjn paXPXXP

11 )(),,(

Page 8: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

8

Calcul des interventions

• Consiste à élaguer le modèle causal de base

• do(X=x): imposer X=x– On élague les flèches arrivant sur X– On fixe X à la valeur x– :

• loi de Y dans le graphe élagué • effet (causal) de X sur Y• en général ≠ (facteurs de confusion)

P(Y do(X x))

P(Y X x)

Page 9: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

9

Imposer le traitement =

élaguer le modèle causal

Chirurgie

Taillelithiase

Résultat

T

Voiture

R

Niveau socio-culturel

Age

Traitement

TA

Résultat

Page 10: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

10

Sélection des covariables: la solution dépend du modèle causal

Traitement

Taillelithiase

Résultat

T

Voiture

R

Niveau socio-culturel

Age

Ajuster Ne pas ajuster

Traitement

TA

RésultatV associée à T et R!!

Page 11: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

11

Essai randomiséObservation

Traitement

Réponse

Essai randomisé

Randomisation

Traitement

Réponse

U* U*

La randomisation élague les flèches arrivant à la variable traitement…

P(Y do(X x)) P(Y X x)

Page 12: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

12

Retour sur le paradoxe de Simpson

• Il n’y a pas de paradoxe• Théorème

),|do P() ,|doP(

),|do P() ,|doP(

lithiase Grosse)Chirurgie(Succèslithiase Grosse)Percutané(Succès

lithiase Petite)Chirurgie(Succèslithiase Petite)Percutané(Succès

P(Succès do(Percutané)) P(Succès do(Chirurgie))

Page 13: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

13

Observer vs. Faire

• Dans les modèles de causalité, on suppose que chaque relation fonctionnelle parent-descendant représente un mécanisme stable et autonome: – Le modèle obtenu en modifiant un mécanisme sans changer les

autres reste un modèle valide de la réalité (organisation modulaire)

– Modèle probabiliste (bayésien): définit la probabilité d’événements et comment ces probabilités varieront avec les observations futures (modèle lui-même: statique)

– Modèle de causalité: définit en outre comment varieront les probabilités après des interventions (modèle dynamique: changements possibles)

Page 14: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

14

Conclusion

• Clarifie/simplifie (Simpson, facteurs de confusion)

• Conduit à expliciter les hypothèses causales sous-jacentes

• Formalisme pour expliciter/discuter/calculer

Page 15: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

15

d-séparation dans GAO

• Soient X, Y, Z sous-ensembles de variables– X et Y d-séparés : tout chemin (non orienté) de X à Y

contient un confluent (collider): i k j– X et Y d-séparés par Z : tout chemin (non orienté) de X

à Y est bloqué par Z, i.e. contient• une chaîne izj ou une fourche izj, • ou un confluent iz*j tel que ni z* ni ses descendants ne sont

dans Z

Zz

Page 16: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

16

d-séparation et indépendance

– d-séparation dans le graphe indépendance en probabilité :

• Si X et Y sont d-séparés par Z dans un GAO, alors X et Y sont indépendants conditionnellement à Z pour toute probabilité compatible avec le GAO

• Si X et Y sont indépendants conditionnellement à Z pour toute probabilité compatible avec un GAO, alors X et Y sont d-séparés par Z dans le GAO

Page 17: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

17

d-séparation

• chaîne izj ou fourche izj: – le conditionnement sur z rend i et j indépendantes

• confluent iz*j:– le conditionnement sur z* (ou un descendant) rend i

et j dépendantes– Exemple:

• A,B binaires, indépendantes • C = A + B (ACB)• Si C=1: B = 1 – A • A et B dépendantes conditionnellement à C

– biais de sélection (Berkson)

Page 18: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

18

Le critère ‘back-door’• On observe X, Y et des covariables Z et on veut

calculer P(Y|do(X=x)) – S’il n’y a pas de facteur de confusion P(Y|do(X=x)) =

P(Y|X=x) (par définition!)• Chemin back-door: contient une flèche vers X

(‘affecte’ X)• Z satisfait le critère ‘back-door’ si

– Z ne contient aucun descendant de X (X n’affecte pas Z)

– Z bloque tout chemin back-door c de X à Y (X n’affecte pas Z), i.e.

• c contient une chaîne ou une fourche dont l’élément médian est dans Z (indépendance conditionnelle)

• Ou: c contient un confluent dont ni l’élément médian ni ses descendants ne sont dans Z (l’indépendance marginale est préservée par conditionnement sur Z)

Page 19: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

19

Back-door et ajustement

• Si Z satisfait le critère back-door pour X et Y, alors :

• Les covariables à inclure dans le modèle (de régression) sont celles qui permettent le calcul ci-dessus (Z: ensemble minimal satisfaisant le back-door)

z

z)z)P(Zx,ZP(Y|X x)) P(Y|do(X

Page 20: 1 Statistique et Causalité Selon J. Pearl. 2 Lithiase rénale (paradoxe de Simpson) Population totale ChirurgieTechnique percutanée Succès546 (78%)578

Exemple

Traitement

Taillelithiase

Résultat

T

Voiture

R

Niveau socio-culturel

Age

Traitement

TA

Résultat

V ne bloque pas (confluent)TA descend de TTaille bloque (fourche)