Upload
berthe-courtin
View
107
Download
0
Embed Size (px)
Citation preview
1
Statistique et Causalité
Selon J. Pearl
2
Lithiase rénale(paradoxe de Simpson)
Population
totaleChirurgie Technique
percutanée
Succès 546 (78%) 578 (83%) 1124 (80%)
Echecs 154 122 276
700 700 1400
Petit volume
Chirurgie Technique percutanée
Succès 162 (93%) 468 (87%) 630 (88%)
Echecs 12 72 84
174 540 (76%) 714
Gros volume
Chirurgie Technique percutanée
Succès 384 (73%) 110 (69%) 494 (72%)
Echecs 142 50 192
526 160 (23%) 686
Lithiase rénale• Où est le problème?
– Succès Petite lithiase Percutané– K. Pearson (1899) :
• A mixture of heterogeneous groups, each of which exhibits in itself no correlation, will exhibit a greater or lesser amount of correlation. To those who persist in looking upon correlation as cause and effect, this fact must come rather as a shock
– C’est l’interprétation causale qui est à l’origine du paradoxe
• Mais: que propose-t-on au prochain patient? – Si on regarde le dossier: chirurgie– Si on ne regarde pas: procédure percutanée !!
3
Autrement dit…
• Quelle est la bonne analyse : ajuster ou ne pas ajuster…– Quelles covariables doit-on introduire dans le
modèle? (sélection des covariables ≠ sélection de modèle)
• Qu’est-ce qu’un facteur de confusion?– Intuitivement: si je l’oublie, je vais conclure à une
association statistique « fausse » (i.e. non causale!!!)– Plus formellement:
• En relation causale avec la réponse, indépendamment de l’exposition
• Associé à l’exposition, sans en être une conséquence
4
Donc…• Le problème de sélection des covariables
– N’est pas de nature statistique– Il est de nature causale
• Il faut :– Un formalisme pour la causalité : graphes
acycliques orientés, calcul des interventions– Spécifier un modèle causal (expliciter les
hypothèses causales)
5
6
Graphes• Graphe = (S,A)
– S: sommets– A: arêtes (relient les sommets 2 par 2)
• Graphes orientés acycliques (Directed Acyclic Graphs, réseaux bayésiens)– Arêtes orientées (flèches), pas de cycle– Flèche: représente un mécanisme causal (hypothétique)
a b
c d
a b
c d
a b
c d
7
Graphes
• Pratiques pour représenter les lois conjointes (reflètent les hypothèses d’indépendance): une variable est indépendante de ses prédécesseurs, conditionnellement à ses parents
• Peuvent être élaborés selon des hypothèses causales (réseaux bayésiens causaux)– Causalité: intuitive (qualitative, asymétrique)), contrairement à
dépendance statistique (quantitative, symétrique)
jjjjjj XPA),paP(XxxXP de parents ),,( 11
n
jjjn paXPXXP
11 )(),,(
8
Calcul des interventions
• Consiste à élaguer le modèle causal de base
• do(X=x): imposer X=x– On élague les flèches arrivant sur X– On fixe X à la valeur x– :
• loi de Y dans le graphe élagué • effet (causal) de X sur Y• en général ≠ (facteurs de confusion)
P(Y do(X x))
P(Y X x)
9
Imposer le traitement =
élaguer le modèle causal
Chirurgie
Taillelithiase
Résultat
T
Voiture
R
Niveau socio-culturel
Age
Traitement
TA
Résultat
10
Sélection des covariables: la solution dépend du modèle causal
Traitement
Taillelithiase
Résultat
T
Voiture
R
Niveau socio-culturel
Age
Ajuster Ne pas ajuster
Traitement
TA
RésultatV associée à T et R!!
11
Essai randomiséObservation
Traitement
Réponse
Essai randomisé
Randomisation
Traitement
Réponse
U* U*
La randomisation élague les flèches arrivant à la variable traitement…
P(Y do(X x)) P(Y X x)
12
Retour sur le paradoxe de Simpson
• Il n’y a pas de paradoxe• Théorème
),|do P() ,|doP(
),|do P() ,|doP(
lithiase Grosse)Chirurgie(Succèslithiase Grosse)Percutané(Succès
lithiase Petite)Chirurgie(Succèslithiase Petite)Percutané(Succès
P(Succès do(Percutané)) P(Succès do(Chirurgie))
13
Observer vs. Faire
• Dans les modèles de causalité, on suppose que chaque relation fonctionnelle parent-descendant représente un mécanisme stable et autonome: – Le modèle obtenu en modifiant un mécanisme sans changer les
autres reste un modèle valide de la réalité (organisation modulaire)
– Modèle probabiliste (bayésien): définit la probabilité d’événements et comment ces probabilités varieront avec les observations futures (modèle lui-même: statique)
– Modèle de causalité: définit en outre comment varieront les probabilités après des interventions (modèle dynamique: changements possibles)
14
Conclusion
• Clarifie/simplifie (Simpson, facteurs de confusion)
• Conduit à expliciter les hypothèses causales sous-jacentes
• Formalisme pour expliciter/discuter/calculer
15
d-séparation dans GAO
• Soient X, Y, Z sous-ensembles de variables– X et Y d-séparés : tout chemin (non orienté) de X à Y
contient un confluent (collider): i k j– X et Y d-séparés par Z : tout chemin (non orienté) de X
à Y est bloqué par Z, i.e. contient• une chaîne izj ou une fourche izj, • ou un confluent iz*j tel que ni z* ni ses descendants ne sont
dans Z
Zz
16
d-séparation et indépendance
– d-séparation dans le graphe indépendance en probabilité :
• Si X et Y sont d-séparés par Z dans un GAO, alors X et Y sont indépendants conditionnellement à Z pour toute probabilité compatible avec le GAO
• Si X et Y sont indépendants conditionnellement à Z pour toute probabilité compatible avec un GAO, alors X et Y sont d-séparés par Z dans le GAO
17
d-séparation
• chaîne izj ou fourche izj: – le conditionnement sur z rend i et j indépendantes
• confluent iz*j:– le conditionnement sur z* (ou un descendant) rend i
et j dépendantes– Exemple:
• A,B binaires, indépendantes • C = A + B (ACB)• Si C=1: B = 1 – A • A et B dépendantes conditionnellement à C
– biais de sélection (Berkson)
18
Le critère ‘back-door’• On observe X, Y et des covariables Z et on veut
calculer P(Y|do(X=x)) – S’il n’y a pas de facteur de confusion P(Y|do(X=x)) =
P(Y|X=x) (par définition!)• Chemin back-door: contient une flèche vers X
(‘affecte’ X)• Z satisfait le critère ‘back-door’ si
– Z ne contient aucun descendant de X (X n’affecte pas Z)
– Z bloque tout chemin back-door c de X à Y (X n’affecte pas Z), i.e.
• c contient une chaîne ou une fourche dont l’élément médian est dans Z (indépendance conditionnelle)
• Ou: c contient un confluent dont ni l’élément médian ni ses descendants ne sont dans Z (l’indépendance marginale est préservée par conditionnement sur Z)
19
Back-door et ajustement
• Si Z satisfait le critère back-door pour X et Y, alors :
• Les covariables à inclure dans le modèle (de régression) sont celles qui permettent le calcul ci-dessus (Z: ensemble minimal satisfaisant le back-door)
z
z)z)P(Zx,ZP(Y|X x)) P(Y|do(X
Exemple
Traitement
Taillelithiase
Résultat
T
Voiture
R
Niveau socio-culturel
Age
Traitement
TA
Résultat
V ne bloque pas (confluent)TA descend de TTaille bloque (fourche)