33
Méthode d’estimation de la parenté en population naturelle (revue bibliographique) Frédéric Austerlitz 20 juin 2003

Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Embed Size (px)

DESCRIPTION

Méthode d’estimation de la parenté en population naturelle (revue bibliographique). Frédéric Austerlitz 20 juin 2003. Coefficients d’apparentement (2 gènes). r xy. X. Y. ou. q xy. - PowerPoint PPT Presentation

Citation preview

Page 1: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Méthode d’estimation de la parenté en population naturelle

(revue bibliographique)

Frédéric Austerlitz

20 juin 2003

Page 2: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Coefficients d’apparentement(2 gènes)

xy

ou

rxy

• xy = coefficient de coancestralité  : probabilité qu’un gène pris au hasard chez X et un gène pris au hasard chez Y soit IBD.

• rxy = coefficient d’apparentement  : probabilité pour un gène de x d’être indentique avec l’un des deux gènes de B.

• si individus non consanguins r = 2 , sinon r = 2 /(1+F).

X Y

Page 3: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Coefficients d’apparentement (4 gènes)

• xy = probabilité qu’un des gènes soit IBD et pas l’autre.• xy = probabilité que les deux gènes soit IBD

X Y X Y

xy xy

xyxy

xyr

2

• parent – enfant  : xy = 1, xy = 0 → rxy = 0.5

• pleins frères  : xy = 0.5, xy = 0.25 → rxy = 0.5

• demi frères  : xy = 0.25, xy = 0 → rxy = 0.25

• non – apparentés  : xy = 0, xy = 0 → rxy = 0.125

Page 4: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Méthode de Queller et Goodnight (1/2)

• si on suppose un allèle a à un locus donné  :

pYa = r pXa + (1-r) pa

• d’où l’estimateur  :

(où pXa et pYa = 0, 1/2 ou 1)

• Si locus multiallélique  :

aXa

aYaxy pp

ppr

ˆ

bXbaXa

bYbaYaxy pppp

ppppr

ˆ

Plutôt que  :

bXb

bYb

aXa

aYaxy pp

pp

pp

ppr

2

X Y

a b c d

Page 5: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Méthode de Queller et Goodnight (2/2)

• estimateur sur plusieurs locus  :

• poids implicites donnés  :

– aux allèles  : wa = 1 – pa.

– aux locus  : wl = 1 – pa2

• estimateur symétrisé  :

llbXlblaXla

llbYlblaYla

Qxy pppp

ppppr

)(

)(ˆ

2

ˆˆˆ ,

QyxQxysimQxy

rrr

Page 6: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Méthode de Ritland (1/3)

• Si = proportion de paires similaires pour l’allèle i pour un locus donné

Ai Ai– Ai Ai Si = 1

exemples  : Ai Ai– Ai Aj Si = 1/2

Ai Aj – Ai Aj Si = 1/4

• L’espérance de Si vaut  : si = pi + (1-) pi2

• d’où un estimateur

ii

iii QP

PS 2ˆ

Page 7: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Méthode de Ritland (2/3)• Moyenné sur l’ensemble des allèles  :

• où les wi sont calculés pour minimiser la variance de

• w = vecteur des wi (inconnus).

• V = matrice des variances / covariances.

• pas de solution dans le cas général mais seulement si on suppose soit – = 0 → wi = qi/(n-1)

– = 1 → wi = piqi/(1-J) où J = homozygotie attendue.

i

iiw ˆˆ

Vww

i

T)ˆvar(

jiji

jiji qqpcp

ss)ˆ,ˆcov(

22

)1()ˆvar(

ii

iii qcp

ss

Page 8: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Méthode de Ritland (3/3)

• Pour un estimateur multilocus, on calcule– où wl = K/var(l)

– ne se calculent analytiquement aussi que dans les cas = 0 ou = 1

• On peut aussi développer un estimateur de .• Propriétés  :

– meilleure efficacité obtenue en supposant = 0 pour le calcul des poids.

– Peu de biais des que les fréquences alléliques sont correctement estimées.

– variance a peu pres de l’ordre de 1/n où n = le nombre de loci.

l

llw ˆˆ

Page 9: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Méthode de Lynch et Ritland

• Basé sur la relation conditionnelle  :

• Par exemple dans le case où X est homozygote  :

• d’où

• et donc

X Y

a b c d

Page 10: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Méthode de Lynch et Ritland (2)

X Y

a b c d

• Dans le cas général  :

• où Sab = 1 si a=b, Sab = 0 sinon.

• Pour un estimateur multilocus, on prend les poids (qui suposent l’apparentement nul) :

• l’estimateur est symétrisé  : moyenne de et xyr yxr

Page 11: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Méthode de Lynch et Li• Sxy = nombre moyen de gènes de X qui

sont identiques à un gène de Y et vice-versa– Sxy = 1 si X=ii et Y=ii ou X=ij et Y=ij– Sxy = 0.75 si X=ii et Y=ij– Sxy = 0.5 si X=ij et Y=ik– Sxy = 0 si X = ij et Y = kl

X Y

a b c d

• E(Sxy) = rxy + (1 – rxy) S0 où

• d’où

• moyenné sur les locus.

n

i ii ppS1

20 )2(

0

0

S

SSr xyxy

Page 12: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Comparaison de la variance des estimateurs de r

• 10 locus dialléliques

• En moyenne le leur marche mieux…

Page 13: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Comparaison de la variance des estimateurs de r

• Lynch et Ritland et Lynch et Li font mieux que les deux autres en cas de distribution triangulaire des fréquences alléliques.

QuellerRitlandL et RL et L

Page 14: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

QuellerRitlandL et RL et L

Comparaison de la variance des estimateurs de r

• Lynch et Li font en général mieux, suivi de Lynch et Ritland,sauf si beaucoup d’allèles en triangulaire..

Page 15: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Comparaison de la variance des estimateurs de

• Leur estimateur est meilleur pour de forts apparentements et une distribution triangulaire.

Page 16: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Conclusions à ce niveau-là

• Estimateurs non biaisés.• La variance est intrinsèquement élevée mais

leur méthode(s) permet de limiter ça.• La façon de pondérer les différents locus n’est

pas idéale, mais ils n’ont pas trouvé mieux.

mieux vaut chercher des locus très polymorphes que beaucoup de locus.

2

1)ˆvar(et

1)ˆvar(

LnLnr

Page 17: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Une étude comparative(van de Casteele et al., 2001)

• Etude comparative à partir de 3 jeux de données de types microsatellites par simulation.

• Sur les estimateurs suivants  :

Estimateur de Queller et Goodnight avec des poids aux différents loci estimés grâce aux variances calculées par Lynch et Ritland

Estimateur de Lynch et Li avec des poids aux différents loci estimés grâce aux variances calculées par Lynch et Ritland

Page 18: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Comparaison à niveau de parenté donné

Page 19: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Comparaison pour des populations mélangées

Page 20: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Comparaison à niveau de parenté donné

Page 21: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Comparaison pour des populations mélangées

Page 22: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Comparaison à niveau de parenté donné

Page 23: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Comparaison pour des populations mélangées

Page 24: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Conclusions sur cette étude comparative

• Selon le jeu de données, çà n’est pas le même estimateur qui marche le mieux

• Ceci diffère des résultats de Lynch et Ritland– Fréquences alléliques particulières et identiques à tous les

locus.– Estimateur de Queller et Goodnight dans sa version minimale– Effet de la composition de la population non pris en compte.

• Recommandation  : pour un jeu de données, faire comme eux des simulations pour voir quel est le meilleur estimateur.

Page 25: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Méthode de Wang (1/2)

• Pour un locus, les estimateurs sont donnés par  :

• On classe les individus en 4 catégories à chaque locus– 1  : X=ii et Y=ii ou X=ij et Y=ij– 2  : X=ii et Y=ij– 3  : X=ij et Y=ik– 4  : X = ij et Y = kl

• Soit Pi la probabilité pour une paire d’individu d’être dans une classe donnée

X Y

a b c d

Page 26: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Méthode de Wang (2/2)

• Méthode de correction de biais d’après Crow et Kimura  :

• où

• Pour un estimateur multilocus  : wl = 1/(U ul)

– avec ul = 2a2 – a3 est le niveau de similarité attendue pour 2 individus pris au hasard.

n

i

kik pa

1

l

luU /1

Page 27: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Comparaison à fréquences alléliques connues(triangulaires)

Page 28: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Comparaison à fréquences alléliques connues(Dirichlet)

Page 29: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Biais et variance lié à l’estimation des fréquences alléliques (individus non-apparentés)

Page 30: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Biais et variance lié à l’estimation des fréquences alléliques (parents - enfants)

Page 31: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Biais et variance lié à l’estimation des fréquences alléliques (parents - enfants)

Page 32: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

Biais lié à la présence de pleins frères pour l’estimation des fréquences (relation parent-enfant)

Page 33: Méthode d’estimation de la parenté en population naturelle (revue bibliographique)

En conclusion…

• Des sources inévitables de variance.– variance dans l’IBD entre les loci par ex. pour r, elle est nulle pour une relation parent-descendant, elle

vaut 1/8 pour une relation pleins-frères.– variation dans le niveau d’identité par état.

• Certains estimateurs (Ritland, Lynch & Ritland) se comportent très mal en cas de mauvaises estimations des fréquences alléliques.

• Son estimateur marche d’autant mieux pour les niveaux d’apparentement élevé.

• Dans un cas particulier donné, une étude par simulation utilisant les fréquences alléliques observées paraît toujours souhaitable…