544
Documents de travail de la Mission Biométrie du CIRAD N° 1-94 — Janvier 1994 Aspects statistiques de la cartographie des marqueurs moléculaires Mathias Lorieux Unité de recherche BIOTROP

Aspects statistiques de la cartographie des marqueurs moléculaires

Embed Size (px)

DESCRIPTION

Auteur : Mathias LorieuxEditions CiradCe document aborde un certain nombre de problèmes statistiques rencontrés en cartographie génétique. Plusieurs points sont discutés :• Les méthodes de détection et d’estimation de la liaison entre marqueurs (tests du , du LOD score, méthode du maximum de vraisemblance).• L’ordonnancement des marqueurs par analyse multipoint, avec présentation de quelques logiciels de cartographie qui utilisent des algorithmes différents (Cprop, G-Mendel, Joinmap, Linkage, Liped, Mapmaker).• Les fonctions de cartographie de Haldane et de Kosambi, qui ont pour but de transformer des fréquences de recombinaison en distances de carte additives.• Les intérêts particuliers de différents types de populations en ségrégation (backcross, F2, lignées recombinantes, haploïdes doublés) pour la cartographie ; ces populations sont comparées en termes de précision d’estimation des fréquences de recombinaison entre marqueurs. Pour les populations F2, l’influence du mode de ségrégation des marqueurs (dominants — codominants) sur la précision de la carte est examinée. Il ressort qu’une F2 est très intéressante lorsque les marqueurs sont codominants, mais qu’un backcross offre plus de précision avec des marqueurs dominants. Les RIL sont plus informatives qu’un backcross pour les courtes distances (• L’influence de la taille des populations utilisées. • L’estimation du nombre de marqueurs à utiliser pour que la carte soit saturée (i.e., qu’il n’y ait pas d’espace sans marqueur de plus de x centimorgans) avec une probabilité donnée.• L’estimation de la taille du génome en centimorgans (méthode de Hulbert et al., 1988).

Citation preview

Page 1: Aspects statistiques de la cartographie des marqueurs moléculaires

Documents de travail de la Mission Biométrie du CIRADN° 1-94 — Janvier 1994

Aspects statistiquesde la cartographiedes marqueurs moléculaires

Mathias LorieuxUnité de recherche BIOTROP

Page 2: Aspects statistiques de la cartographie des marqueurs moléculaires

Centre de coopération internationaleen recherche agronomique pour le développement

2

Page 3: Aspects statistiques de la cartographie des marqueurs moléculaires

PRÉFACE

Mathias Lorieux a présenté sa thèse de Docteur en Biostatistiques, spécialité "mathématiques appliquées et applications des mathématiques", le 30 novembre 1993. Le sujet de son travail était : "cartographie des marqueurs moléculaires et distorsions de ségrégation : modèles mathématiques", et traitait des problèmes de non respect de l’hypothèse de ségrégation mendélienne des marqueurs. Cette hypothèse, nécessaire pour l’ensemble des outils mathématiques habituellement utilisés en cartographie, n’est pas acceptable pour un certain nombre d’espèces et des solutions alternatives devaient être recherchées.

Ce travail nécessitait une analyse préalable des méthodes classiquement utilisées. Le jury a estimé que cette analyse, qui constitue la première partie de la thèse, pouvait être une aide précieuse pour les chercheurs intéressés par la cartographie du génome. Il est important en particulier que ces chercheurs comprennent qu’une carte du génome est un concept statistique basé sur des hypothèses, que les paramètres proposés sont des estimateurs auxquels sont attachées des variances et que l’interprétation ou l’utilisation correctes de ces paramètres doivent intégrer les notions de précision de ces estimateurs. Le jury a donc recommandé que cette partie fasse l’objet d’une large diffusion. D’où ce document qui est le premier d’une nouvelle collection de "documents de travail" publiée par la mission Biométrie du CIRAD.

Xavier Perrier, Mission Biométrie CIRAD

Page 4: Aspects statistiques de la cartographie des marqueurs moléculaires

SOMMAIRE

PRÉFACE ....................................................................................................... 1

SOMMAIRE ................................................................................................... 1

RÉSUMÉ ........................................................................................................ 2

SUMMARY .................................................................................................... 3

INTRODUCTION ..........................................................................................4

QU’EST-CE QU’UN MARQUEUR ?.............................................................6

ANALYSE DE LA LIAISON .........................................................................8

Détection d’une liaison...............................................................................8

Test du χ 2............................................................................................................... 8

Test du LOD score...............................................................................10

Estimation de la liaison.............................................................................11

FONCTIONS DE CARTOGRAPHIE ...........................................................16

Fonction de Haldane.................................................................................16

Fonction de Kosambi................................................................................17

ANALYSE MULTIPOINT............................................................................19

Les limites de l’analyse en deux points.....................................................20

Détermination de l’ordre de trois locus.....................................................22

Détermination de l’ordre de m locus.........................................................25

INFLUENCE DE LA TAILLE DE LA POPULATION................................26

TYPES DE POPULATIONS À ANALYSER ...............................................29

Comparaison backcross — F2................................................................................................................. 29

Distance minimale, distance maximale.................................................29

Utilisation de l’écart-type de ˆ r ............................................................................................................. 31

Autres populations....................................................................................31

Haploïdes doublés................................................................................31

Lignées recombinantes.........................................................................31

SATURATION DE LA CARTE ...................................................................36

ESTIMATION DE LA TAILLE DU GÉNOME ...........................................39

CONCLUSION ............................................................................................. 41

Page 5: Aspects statistiques de la cartographie des marqueurs moléculaires

RÉFÉRENCES BIBLIOGRAPHIQUES .......................................................42

ANNEXE 1 ................................................................................................... 47

ANNEXE 2 ................................................................................................... 48

2

Page 6: Aspects statistiques de la cartographie des marqueurs moléculaires

RÉSUMÉ

Ce document aborde un certain nombre de problèmes statistiques rencontrés en cartographie génétique. Plusieurs points sont discutés :

• Les méthodes de détection et d’estimation de la liaison entre marqueurs (tests du

3

Page 7: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 24

Page 8: Aspects statistiques de la cartographie des marqueurs moléculaires

, du LOD score, méthode du maximum de vraisemblance).• L’ordonnancement des marqueurs par analyse multipoint, avec présentation de quelques logiciels de cartographie qui utilisent des algorithmes différents (Cprop, G-Mendel, Joinmap, Linkage, Liped, Mapmaker).• Les fonctions de cartographie de Haldane et de Kosambi, qui ont pour but de transformer des fréquences de recombinaison en distances de carte additives.• Les intérêts particuliers de différents types de populations en ségrégation (backcross, F2, lignées recombinantes, haploïdes doublés) pour la cartographie ; ces populations sont comparées en termes de précision d’estimation des fréquences de recombinaison entre marqueurs. Pour les populations F2, l’influence du mode de ségrégation des marqueurs (dominants — codominants) sur la précision de la carte est examinée. Il ressort qu’une F2 est très intéressante lorsque les marqueurs sont codominants, mais qu’un backcross offre plus de précision avec des marqueurs dominants. Les RIL sont plus informatives qu’un backcross pour les courtes distances (< 15 centimorgans), mais deviennent inefficaces pour des distances plus importantes.• L’influence de la taille des populations utilisées. • L’estimation du nombre de marqueurs à utiliser pour que la carte soit saturée ( i.e., qu’il n’y ait pas d’espace sans marqueur de plus de x centimorgans) avec une probabilité donnée.• L’estimation de la taille du génome en centimorgans (méthode de Hulbert et al., 1988).

Mots-clés : maximum de vraisemblance, cartes génétiques, marqueurs moléculaires, backcross, F2, haploïdes doublés, lignées recombinantes.

5

Page 9: Aspects statistiques de la cartographie des marqueurs moléculaires

SUMMARY

Statistical methods for mapping molecular markers

This paper touchs on several statisticals problems encountered in genetic mapping. Several points are discussed:

• The methods of detection and estimation of linkage between markers (

6

Page 10: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

7

Page 11: Aspects statistiques de la cartographie des marqueurs moléculaires

tests, LOD score, maximum likelihood method).• The methods for ordering markers on linkage groups by multipoint analysis, with presentation of softwares based on different algorithms (Cprop, G-Mendel, Joinmap, Linkage, Liped, Mapmaker).• Mapping functions (Haldane - Kosambi), which translate recombination fractions into additive map distances.• The interests of different populations types (backcross, F2, recombinant inbred lines or RIL, doubled haploid or DH) for genetic mapping. These populations are compared for the precision of the estimation of the recombination frequencies between markers. For F2 populations, the influence of the type of the segregation (dominant - codominant) of the markers on the precision of the map is examined. An F2 is very informative for codominant markers, but a backcross is better for dominant markers. RILs are more informative than backcrosses for small distances (< 15 centimorgans), but become uninformative for greater distances.• The influence of population size.• The estimation of the number of markers to be used in order to obtain a saturated map (i.e., there is no "gap" of more than x centimorgans).• The estimation of the genome size (method of Hulbert et al., 1988).

Keywords : maximum likelihood, genetic maps, molecular markers, backcross, F2, doubled haploids, recombinant inbred lines.

8

Page 12: Aspects statistiques de la cartographie des marqueurs moléculaires

INTRODUCTION

Une part importante de l’effort de la génétique moderne est consacrée à la cartographie du génome d’un grand nombre d’espèces. Ces cartes sont des instruments précieux pour l’amélioration des races ou des variétés cultivées et pour la compréhension de l’organisation génétique des espèces.

Une carte génétique est une représentation du génome d’une espèce, sur laquelle sont placés des repères, ou marqueurs, dont on connaît les positions relatives sur les groupes de liaison représentant les chromosomes. Ces positions sont déterminées en analysant la façon dont les marqueurs ségrègent parmi les descendants d’un croisement ou de familles.

Un des intérêts principaux de construire une carte génétique d’une espèce réside dans la possibilité de localiser des gènes qui interviennent dans la constitution de caractères intéressants au sens agronomique chez les individus de cette espèce (Beckmann et Soller, 1986 ; Lander et Botstein, 1989 ; Lefort-Buson et al., 1990). Les marqueurs liés à ces gènes, étant des zones que l’on sait repérer dans le génome, peuvent ainsi être utilisés comme critères précoces de choix de géniteurs dans des schémas de sélection (de Vienne, 1984 ; Stuber, 1989 ; Lande et Thompson, 1990 ; Cantet et Smith, 1991). Une autre application envisagée des marqueurs liés à des gènes intéressants, est qu’ils sont des points d’ancrage sur le génome, à partir desquels il est possible de retrouver ces gènes puis de déterminer leur séquence nucléotidique (Ganal et al., 1991 ; Funke et al., 1993).

Ce document est consacré aux méthodes statistiques utilisées pour traiter les données de cartographie, essentiellement dans le domaine végétal.

La cartographie génétique est basée sur l’étude de croisements, naturels ou dirigés. Les divers types de croisement donnent des descendances présentant chacune des intérêts et des inconvénients, qui seront étudiés plus loin.

Chacun des deux parents et des individus de la descendance a un génotype connu. C’est en comparant les génotypes des descendant à ceux des parents que l’on peut établir la carte génétique de l’espèce ou du genre étudié. En effet, au cours de la méiose qui donne lieu aux gamètes mâles et femelles des parents, se produisent des recombinaisons entre les chromosomes ; les fréquences de recombinaison permettent de déterminer les distances entre marqueurs sur les chromosomes. Lors de la phase réductionnelle de la méiose, les chromosomes homologues s’apparient. Il se produit alors des chiasma, puis les chromosomes se séparent, emportant une partie de la chromatide homologue ; c’est le phénomène du crossing-over, que l’on peut illustrer de façon schématique (Fig. 1).

On dit qu’il y a eu recombinaison entre les locus1 A et B ; notons que ce phénomène est

1Le terme locus (pluriel locus en français, loci en anglais) signifie un endroit précis du génome. Ce peut être, par exemple, l'emplacement d'un gène, ou d'un marqueur.

9

Page 13: Aspects statistiques de la cartographie des marqueurs moléculaires

linéaire, c’est-à-dire que la représentation de la Fig. 1 en deux dimensions est suffisante pour comprendre ce qui se passe physiquement sur les chromosomes lors d’un crossing-over. Il apparaît, en vertu de cette linéarité des recombinaisons, que la fréquence de recombinaison entre deux locus sera d’autant plus grande que ces locus seront éloignés l’un de l’autre sur le chromosome. Cette fréquence peut être assimilée à une distance entre A et B. Elle est calculée à partir de l’étude de la ségrégation conjointe des deux locus, i.e. de la façon dont ils se répartissent l’un par rapport à l’autre dans la descendance. On montre que la valeur de la fréquence de recombinaison, r, entre deux locus A et B est, en principe, comprise entre 0 et 0,5 ;

• si r = 0, il n’y a jamais de "coupure" entre les deux locus ; on les trouvera totalement liés, il n’y aura aucun gamète de type recombiné ;

• si 0 < r < 0,5, la proportion de gamètes de type recombiné sera de r, celle des gamètes de type parental sera de (1-r) ; la valeur de r mesure la liaison (ou linkage) entre A et B ;

• si r = 0,5, les locus ne sont pas liés et ségrègent de façon indépendante : ils sont soit sur deux chromosomes non homologues, soit sur le même chromosome mais suffisamment éloignés l’un de l’autre pour qu’il y ait en moyenne au moins une recombinaison entre eux ; il y aura alors autant de gamètes recombinés que de parentaux.

AA

BB

aa

bb

AA

B

Baa

b

b

AA

B

aa b

bB

A

A

a

a b

b

B

B

Chromosomeshomologues

Chiasma entre leslocus A et B

Chromosomesrecombinés

4 gamètes obtenus :2 du type parental (P)2 du type recombiné (R)

P

P

R

R

Fig. 1 — Un exemple de crossing-over ; l’espèce — hypothétique — est diploïde, c’est-à-dire que les chromosomes sont associés par paires de chromosomes homologues (un qui vient du père, et un de la mère) ; ici, le nombre de paires de chromosomes homologues (n) est de 1, le nombre de chromosomes étant de 2n = 2. Les gamètes obtenus ont n chromosomes et sont dits haploïdes. La cellule de départ contient deux chromosomes qui ont des allèles différents pour les locus A et B. Par exemple, les lettres minuscules sont les allèles maternels. Au cours de la recombinaison, il y a échange de chromatides qui conduit à une redistribution des allèles, et certains gamètes produits ont des allèles maternels et paternels. Ce sont des gamètes dits recombinés, par opposition aux gamètes parentaux.Remarque : plus la liaison entre deux locus est forte (i.e., plus r est petit), et plus la probabilité de recombinaison entre ces locus est faible. Physiquement, cela peut signifier généralement que les deux locus sont proches sur le chromosome, mais la relation entre distance de carte (définie à partir du taux de recombinaison) et distance physique varie selon plusieurs facteurs (Hoisington et Coe, 1990). Chez l’homme, par exemple, 1% de recombinaison correspond approximativement à 106 paires de bases (Ott, 1985).

10

Page 14: Aspects statistiques de la cartographie des marqueurs moléculaires

QU’EST-CE QU’UN MARQUEUR ?

La notion de marqueur n’est pas nouvelle. Les marqueurs moléculaires ne représentent qu’un nouveau type de marqueur, dont l’intérêt principal est de pouvoir être réunis en très grand nombre dans un même croisement. Les premiers marqueurs sont des gènes, dont les positions relatives sur les chromosomes peuvent être déduites par l’analyse de la coségrégation de caractères dans une descendance. Une des difficultés rencontrées pour cartographier les gènes est que souvent, un des allèles impliqués est défavorable du point de vue de la vigueur, voire létal. La réunion de plusieurs allèles défavorables au sein d’un même génotype homozygote le rend peu viable2. Un grand nombre de croisements sont donc nécessaires pour cartographier plusieurs gènes. Au contraire, les marqueurs moléculaires, dont les allèles n’ont en général pas d’effet sur la viabilité, peuvent coexister en grand nombre dans un même génotype. La détermination des positions relatives des marqueurs permet d’établir une carte génétique. La ségrégation des marqueurs est analysée de façon analogue à celle des gènes, en raisonnant sur la base du phénomène de recombinaison décrit plus haut. La seule différence est que l’analyse de leur ségrégation implique des calculs souvent énormes du fait de leur grand nombre : si il y a n marqueurs sur un groupe de liaison, il faut choisir un ordre parmi les n!/2 ordres possibles.

En cartographie, on recherche des marqueurs qui soient :

• polymorphes, c’est-à-dire existant sous différentes formes, ou allèles, chez les parents ; cette condition est impérative, sans quoi l’étude de ségrégation est impossible puisqu’on ne saura pas distinguer les individus recombinants des parentaux ;

• nombreux, de façon à augmenter la probabilité de couvrir tout le génome, et à avoir des marqueurs suffisamment proches des gènes que l’on souhaite détecter ;

• mendéliens, c’est à dire entièrement déterminés par les allèles présents à un seul locus ;

• dont les allèles soient si possible codominants, si on utilise une population F2 ; la codominance signifie que les individus de génotype AA, Aa et aa sont tous distingués, par opposition à la dominance, où les individus AA et Aa sont confondus (l’allèle A est dominant par rapport à l’allèle a). Le phénomène de dominance entraîne une perte d’information, donc une estimation moins précise des fréquences de recombinaisons.

Les marqueurs moléculaires répondent souvent à ces critères. Il en existe plusieurs sortes, et notamment :

• les isozymes, très intéressants puisqu’ils correspondent à des gènes, mais en nombre limité (rarement plus d’une dizaine pour un croisement donné) ; leurs allèles sont

2Rappelons quand même que Morgan et al. (1935) ont pu obtenir, chez la drosophile, un croisement impliquant neuf marqueurs morphologiques situés sur le chromosome X.

11

Page 15: Aspects statistiques de la cartographie des marqueurs moléculaires

souvent codominants ;

• les marqueurs RFLP (Restriction Fragment Length Polymorphism), dont le polymorphisme est constitué par la variation de la longueur, selon le génome, des fragments issus du traitement de l’ADN par un enzyme de restriction. Ils sont d’un grand intérêt, notamment du fait :

- de leur polymorphisme entre individus souvent très élevé,

- de leur nombre non limitant,

- de la codominance de leurs allèles,

- qu’ils ne sont apparemment pas soumis à des effets d’épistasie ;

• les RAPD (Random Amplified Polymorphism DNA). L’analyse de leur ségrégation est moins lourde que pour les RFLP, mais leurs allèles sont généralement dominants, donc moins informatifs. Toutefois, ils sont dans certains cas les seuls qui révèlent du polymorphisme entre les parents ;

• les microsatellites, qui présentent les mêmes avantages que les RFLP, et qui sont peut-être encore plus polymorphes (P. Lagoda, comm. pers.) ; leur utilisation est encore peu répandue pour la cartographie du génome des végétaux.

12

Page 16: Aspects statistiques de la cartographie des marqueurs moléculaires

ANALYSE DE LA LIAISON

L’obtention d’une carte des marqueurs consiste successivement :

• à réunir les marqueurs en groupes de liaison,

• à ordonner les marqueurs au sein des groupes,

• à estimer au mieux les distances de recombinaison entre marqueurs.

De nombreux auteurs ont écrit des articles ou des livres sur les fondements statistiques des méthodes d’analyse de liaison. On pourra se référer, notamment, à : Fisher, 1928 ; Fisher, 1937 ; Fisher, 1954 ; Allard, 1956 ; Mather, 1957 ; Bailey, 1961 ; Green, 1963 ; Ritter et al., 1990.

Détection d’une liaison

Si on considère deux marqueurs pris au hasard, ils ont plus de chances d’être sur des chromosomes différents que d’être sur le même chromosome. S’ils sont sur deux chromosomes différents, ces marqueurs auront des ségrégations indépendantes, et il y aura en moyenne autant de gamètes recombinés que de gamètes parentaux. S’ils sont sur le même chromosome, leur coségrégation sera d’autant plus étroite que la distance qui les sépare est faible : la seule façon d’avoir des gamètes recombinés est qu’un crossing-over survienne entre les deux marqueurs, et la probabilité de cet événement est proportionnelle à la distance. On peut donc construire des tests statistiques pour détecter une coségrégation éventuelle entre deux marqueurs. Deux tests sont présentés ici : le

13

Page 17: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

14

Page 18: Aspects statistiques de la cartographie des marqueurs moléculaires

et le LOD score.

Test du χ2

L’existence d’une liaison éventuelle entre deux ou plusieurs locus est souvent testée au moyen d’un test du

15

Page 19: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 216

Page 20: Aspects statistiques de la cartographie des marqueurs moléculaires

, qui permet de comparer les effectifs phénotypiques observées aux effectifs théoriques espérées, calculées sous l’hypothèse de ségrégation indépendante des locus, i.e., r = 0,5 (Mather, 1957).

Considérons un backcross :

Parents :

17

Page 21: Aspects statistiques de la cartographie des marqueurs moléculaires

AB

AB×

abab

18

Page 22: Aspects statistiques de la cartographie des marqueurs moléculaires

F1 :

19

Page 23: Aspects statistiques de la cartographie des marqueurs moléculaires

AB

ab20

Page 24: Aspects statistiques de la cartographie des marqueurs moléculaires

On rétrocroise ensuite la F1 avec le parent double récessif ab/ab. La descendance comportera 4 classes phénotypiques, dont les effectifs seront à peu près égaux en l’absence de liaison, et si ces A et B ne présentent pas, individuellement, de distorsion dans leur ratio de ségrégation (c’est à dire que, statistiquement, il y a autant de A que de a et de B que de b). Le Tableau 1 résume la situation.

Il faut préciser ici les termes de couplage et de répulsion : si la F1 est en couplage ("cis") alors elle est : AB/ab (comme dans l’exemple ci-dessus) ; si elle est en répulsion ("trans"), elle est : Ab/aB. Pour des allèles codominants, la phase n’a pas d’importance car tous les génotypes sont identifiés en backcross et en F2 (sauf les double hétérozygotes dans le cas de la F2). Par contre, si les allèles sont dominants, la phase est très importante : en F2, un croisement en couplage est beaucoup plus informatif qu’un croisement en répulsion. Ceci est dû au fait que les phénotypes les plus informatifs (ab/ab), dont on connaît le génotype avec certitude, ont une fréquence plus grande en couplage.

Le

21

Page 25: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

22

Page 26: Aspects statistiques de la cartographie des marqueurs moléculaires

testant l’ajustement des données aux valeurs théoriques est à trois d.d.l.3 ; il peut se décomposer en une somme de trois

3Degrés de liberté

23

Page 27: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

24

Page 28: Aspects statistiques de la cartographie des marqueurs moléculaires

à un d.d.l. : deux qui testent les ségrégations individuelles des locus et un qui teste le linkage :

Génotypes AaBb Aabb aaBb aabb Totaux

25

Page 29: Aspects statistiques de la cartographie des marqueurs moléculaires

Effectifs théoriques sans linkage (r = 0,5)

n 4n 4n 4n 4n

26

Page 30: Aspects statistiques de la cartographie des marqueurs moléculaires

Effectifs observés

a b c d n

Tableau 1 — Effectifs observés et théoriques d’un backcross en l’absence de liaison et de distorsion de ségrégation.Il y a (a+b) individus de type Aa et (c+d) de type aa. Le

27

Page 31: Aspects statistiques de la cartographie des marqueurs moléculaires

χ12

28

Page 32: Aspects statistiques de la cartographie des marqueurs moléculaires

de ségrégation pour le locus A permet de tester l’hypothèse nulle : il y a autant de A que de a (ratio 1:1) :

29

Page 33: Aspects statistiques de la cartographie des marqueurs moléculaires

χ A2 =

a + b − c − d( )2

n

30

Page 34: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.1)

De même, pour le locus B :

31

Page 35: Aspects statistiques de la cartographie des marqueurs moléculaires

χ B2 =

a − b + c − d( )2

n

32

Page 36: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.2)

Le

33

Page 37: Aspects statistiques de la cartographie des marqueurs moléculaires

χ L2

34

Page 38: Aspects statistiques de la cartographie des marqueurs moléculaires

teste l’indépendance des deux ségrégations :

35

Page 39: Aspects statistiques de la cartographie des marqueurs moléculaires

χ L2 =

a − b − c + d( )2

n

36

Page 40: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.3)

on teste l’hypothèse : il y a autant d’individus recombinants que d’individus parentaux (ratio 1:1).

Ces trois

37

Page 41: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

38

Page 42: Aspects statistiques de la cartographie des marqueurs moléculaires

sont orthogonaux. Si les deux premiers sont nuls, le

39

Page 43: Aspects statistiques de la cartographie des marqueurs moléculaires

χ L2

40

Page 44: Aspects statistiques de la cartographie des marqueurs moléculaires

est alors confondu avec le

41

Page 45: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

42

Page 46: Aspects statistiques de la cartographie des marqueurs moléculaires

classique d’indépendance de deux variables à un d.d.l., chaque classe ayant pour effectif théorique n/4.

Si les locus A et B sont suffisamment proches l’un de l’autre sur le même chromosome, ce

43

Page 47: Aspects statistiques de la cartographie des marqueurs moléculaires

χ L2

44

Page 48: Aspects statistiques de la cartographie des marqueurs moléculaires

sera significatif car les effectifs des individus recombinants, b et c, seront plus faibles que les effectifs des individus de type parental, a et d. Plus A et B seront proches, et plus le

45

Page 49: Aspects statistiques de la cartographie des marqueurs moléculaires

χ L2

46

Page 50: Aspects statistiques de la cartographie des marqueurs moléculaires

sera fort.

Prenons l’exemple des données obtenues par Philp (1934, in Bailey, 1961), pour un backcross impliquant deux allèles dominants P et T. Les observations sont résumées dans le Tableau 2.

S’il n’y a pas de liaison ni de distorsion dans les ségrégations, les ratios théoriques entre les classes sont 1:1:1:1, ce qui donne un effectif théorique dans chaque classe de 116,75. Le

47

Page 51: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

48

Page 52: Aspects statistiques de la cartographie des marqueurs moléculaires

classique est de 221,266 avec trois d.d.l. On peut aussi obtenir ce résultat en additionnant les trois

49

Page 53: Aspects statistiques de la cartographie des marqueurs moléculaires

χ12

50

Page 54: Aspects statistiques de la cartographie des marqueurs moléculaires

donnés par les formules (1.1), (1.2) et (1.3), ce qui donne l’analyse du Tableau 3. Ces résultats font apparaître que le

51

Page 55: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

52

Page 56: Aspects statistiques de la cartographie des marqueurs moléculaires

de linkage rend compte à lui seul de la presque totalité du

53

Page 57: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

54

Page 58: Aspects statistiques de la cartographie des marqueurs moléculaires

général. La conclusion est que les deux caractères sont liés génétiquement, avec une probabilité supérieure à 0,9995.

Phénotypes PT Pt pT pt TotauxEffectifs théoriques sans linkage (r = 0,5)

116,75 116,75 116,75 116,75 467

Effectif observés

191 37 36 203 467

Tableau 2 — Données obtenues par Philp (1934) avec un backcross.

Composantes Valeur du χ 2d.d.l.

Ségrégation de P et p 0,259 1Ségrégation de T et t 0,362 1Linkage 220,645 1

Totaux 221,266 3

Tableau 3 — Analyse du

55

Page 59: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

56

Page 60: Aspects statistiques de la cartographie des marqueurs moléculaires

pour les données du Tableau 2.Il est possible de calculer des

57

Page 61: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

58

Page 62: Aspects statistiques de la cartographie des marqueurs moléculaires

pour un croisement impliquant non plus deux, mais trois locus ou plus, par le moyen d’un jeu de fonctions linéaires orthogonales reliant les observations aux ségrégations et aux liaisons (Mather, 1957 ; Bailey, 1961).

Que se passe-t-il si

59

Page 63: Aspects statistiques de la cartographie des marqueurs moléculaires

χ A2

60

Page 64: Aspects statistiques de la cartographie des marqueurs moléculaires

et/ou

61

Page 65: Aspects statistiques de la cartographie des marqueurs moléculaires

χ B2

62

Page 66: Aspects statistiques de la cartographie des marqueurs moléculaires

sont significatifs ? Bailey (1949) et Mather (1957) suggèrent d’utiliser un

63

Page 67: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

64

Page 68: Aspects statistiques de la cartographie des marqueurs moléculaires

d’indépendance, qui n’est pas affecté par ces distorsions puisque basé sur les fréquences marginales. On trouvera plus de détails sur cette question dans (Lorieux, 1993 ; Lorieux et al, a et b).

Test du LOD score

Une deuxième façon de tester la liaison entre deux locus, est d’utiliser la méthode des rapports de vraisemblances : on calcule un indice traduisant de “combien” l’hypothèse de liaison est plus (ou moins) probable que celle de non liaison. Le "LOD score" (Barnard, 1949 ; Morton, 1955) est égal au logarithme décimal du rapport des vraisemblances (ou ODD) des deux hypothèses :

65

Page 69: Aspects statistiques de la cartographie des marqueurs moléculaires

LODmax =log10eL ˆ r( )eL r0( )

⎝ ⎜

⎠ ⎟

66

Page 70: Aspects statistiques de la cartographie des marqueurs moléculaires

67

Page 71: Aspects statistiques de la cartographie des marqueurs moléculaires

e L ˆ r ( )

68

Page 72: Aspects statistiques de la cartographie des marqueurs moléculaires

est la vraisemblance maximale évaluée à

69

Page 73: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r 70

Page 74: Aspects statistiques de la cartographie des marqueurs moléculaires

, estimateur du maximum de vraisemblance (voir paragraphe suivant), et

71

Page 75: Aspects statistiques de la cartographie des marqueurs moléculaires

e L r0( )

72

Page 76: Aspects statistiques de la cartographie des marqueurs moléculaires

est la vraisemblance évaluée à

73

Page 77: Aspects statistiques de la cartographie des marqueurs moléculaires

r0 =0, 574

Page 78: Aspects statistiques de la cartographie des marqueurs moléculaires

.

On montre que

75

Page 79: Aspects statistiques de la cartographie des marqueurs moléculaires

4,6 ×LODmax

76

Page 80: Aspects statistiques de la cartographie des marqueurs moléculaires

suit asymptotiquement une distribution d’un

77

Page 81: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

78

Page 82: Aspects statistiques de la cartographie des marqueurs moléculaires

à un d.d.l. (Ott, 1985). Le seuil LOD0 à retenir peut donc se calculer à partir de cette relation. Pour une comparaison unique, on peut utiliser un risque de première espèce de = 5%, ce qui correspond à un

79

Page 83: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

80

Page 84: Aspects statistiques de la cartographie des marqueurs moléculaires

de 3,84 (pour 1 d.d.l.), ou à un LOD0 de 3,84/4,6 = 0,83. Pour des comparaisons multiples, il faut utiliser un seuil plus sévère, et on utilise fréquemment un seuil de 3, ce qui correspond à = 0,0002.

Une fois la liaison entre deux locus détectée, il faut ensuite mesurer son intensité ; c’est l’objet du paragraphe suivant. Notons que si c’est le test du LOD score qui est utilisée, les deux étapes sont simultanées, puisque le calcul du LOD nécessite l’estimation de r.

Estimation de la liaison

Si r est le taux de recombinaison entre les deux locus, alors les effectifs théoriques des 4 classes de ségrégation du Tableau 1 sont celles du Tableau 4. Si r = 0,5 (i.e., les deux locus ségrègent indépendamment l’un de l’autre), les effectifs théoriques sont simplement ceux du Tableau 1.

Génotypes AaBb Aabb aaBb aabb

81

Page 85: Aspects statistiques de la cartographie des marqueurs moléculaires

Effectifs théoriques

n 1 −r( ) 2nr 2nr 2n 1 −r( ) 282

Page 86: Aspects statistiques de la cartographie des marqueurs moléculaires

Effectifs observés

a b c d

Tableau 4 — Effectifs observés et théoriques d’un backcross.Pour estimer r, on utilise la méthode du maximum de vraisemblance. Le choix de cette méthode d’estimation est guidé par deux critères. Le premier est qu’elle donne des estimateurs convergents et asymptotiquement sans biais, de la fréquence de recombinaison ; le deuxième est que ces estimateurs sont asymptotiquement efficaces, c’est à dire de variance minimale pour de grandes tailles de population (Fisher, 1922).

Le principe en est le suivant (Allard, 1956 ; Mather, 1957) : on écrit la vraisemblance d’une hypothèse en fonction de r et des données observées et on détermine la valeur de r pour laquelle la vraisemblance est maximale.

Soit r, la fréquence de recombinaison entre les deux locus étudiés, m1 . . . mt, les effectifs théoriques des individus dans les classes de ségrégation 1 . . . t (en backcross, t = 4 ; en F2, t = 9 si les allèles sont codominants et t = 4 si les allèles sont dominants) et a1 . . . at les nombres d’individus observés dans ces classes. Les effectifs théoriques, mi, sont exprimées en fonction de r, le paramètre à estimer.

On suppose que les n individus de la population se répartissent dans les t classes selon une loi polynomiale. La vraisemblance d’obtenir les proportions théoriques, étant données les observations, est alors un des termes du développement de :

83

Page 87: Aspects statistiques de la cartographie des marqueurs moléculaires

m1 + m2+... +mt( )n84

Page 88: Aspects statistiques de la cartographie des marqueurs moléculaires

où n est le nombre total d’individus.

Ce terme, noté eL, est — à une constante multiplicative polynomiale près — égal à :

85

Page 89: Aspects statistiques de la cartographie des marqueurs moléculaires

e L ∝m1a1 m2

a2 ...mtat

86

Page 90: Aspects statistiques de la cartographie des marqueurs moléculaires

La log-vraisemblance est, à une constante additive près :

87

Page 91: Aspects statistiques de la cartographie des marqueurs moléculaires

L =a1 log m1( ) + a2 log m2( )+... +at log mt( )88

Page 92: Aspects statistiques de la cartographie des marqueurs moléculaires

Il s’agit de maximiser cette expression par rapport à r, c’est à dire d’annuler sa dérivée par rapport à r. On obtient ainsi l’équation d’estimation de r, ou équation de vraisemblance :

89

Page 93: Aspects statistiques de la cartographie des marqueurs moléculaires

∂L

∂r= a1

∂log m1( )

∂r+ a2

∂log m2( )

∂r+... +at

∂log mt( )

∂r= 0

90

Page 94: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.4)

Une des solutions de cette équation est la valeur de r recherchée. Il n’y a en principe pas de doute quant à la valeur de r à retenir, puisque les autres solutions conduisent à des fréquences de recombinaison qui ne correspondent pas à la réalité biologique (i.e.,

91

Page 95: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r

92

Page 96: Aspects statistiques de la cartographie des marqueurs moléculaires

< 0 ou

93

Page 97: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r

94

Page 98: Aspects statistiques de la cartographie des marqueurs moléculaires

> 0,5). La résolution de (1.4) n’est pas toujours possible analytiquement. Il faut alors recourir à une méthode itérative, comme la méthode de Newton-Raphson (voir l’Annexe 1 et Edwards, 1972), ou l’algorithme EM (Expectation - Maximization) de Dempster et al. (1977). Le principe de cet algorithme est exposé en Annexe 2.

En backcross (voir Tableau 4), la résolution de cette équation donne comme estimateur de r :

95

Page 99: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r =b+c

n96

Page 100: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.5)

La variance asymptotique

97

Page 101: Aspects statistiques de la cartographie des marqueurs moléculaires

V ˆ r

98

Page 102: Aspects statistiques de la cartographie des marqueurs moléculaires

de

99

Page 103: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r

100

Page 104: Aspects statistiques de la cartographie des marqueurs moléculaires

est, pour un backcross :

101

Page 105: Aspects statistiques de la cartographie des marqueurs moléculaires

V ˆ r =r 1−r( )

n102

Page 106: Aspects statistiques de la cartographie des marqueurs moléculaires

Ici, r est le seul paramètre à estimer ; comme l’a montré Fisher (1922), l’estimateur du maximum de vraisemblance est convergent et efficace. Dans ces conditions, sa variance asymptotique est exactement égale à l’inverse de l’information espérée de Fisher, Ir

(Fisher, 1937 ; Edwards, 1972) :

103

Page 107: Aspects statistiques de la cartographie des marqueurs moléculaires

Vˆ r =1I ˆ r

104

Page 108: Aspects statistiques de la cartographie des marqueurs moléculaires

avec  :

105

Page 109: Aspects statistiques de la cartographie des marqueurs moléculaires

Iˆ r =−E∂2L∂r2 ⎛

⎝ ⎜

⎠ ⎟=− mn

∂2 log m( )∂r2

⎝ ⎜

⎠ ⎟

j=1

t

∑ =n1m

∂m∂r ⎛ ⎝ ⎜ ⎞

⎠ ⎟2 ⎛

⎝ ⎜

⎠ ⎟

j=1

t

∑106

Page 110: Aspects statistiques de la cartographie des marqueurs moléculaires

Avec m = effectif théorique d’une classe phénotypique donnée, n = taille de la population, r = fréquence de recombinaison et t = nombre de classes phénotypiques.

107

Page 111: Aspects statistiques de la cartographie des marqueurs moléculaires

Iˆ r

108

Page 112: Aspects statistiques de la cartographie des marqueurs moléculaires

est égale à la somme des informations individuelles. L’information apportée par un individu,

109

Page 113: Aspects statistiques de la cartographie des marqueurs moléculaires

iˆ r 110

Page 114: Aspects statistiques de la cartographie des marqueurs moléculaires

, est :

111

Page 115: Aspects statistiques de la cartographie des marqueurs moléculaires

iˆ r =1m

∂m∂r ⎛ ⎝ ⎜ ⎞

⎠ ⎟2 ⎛

⎝ ⎜

⎠ ⎟

j=1

t

∑112

Page 116: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.6)

Une approche tout à fait similaire à celle adoptée pour le backcross peut être réalisée pour l’analyse d’une population F2 :

• Si les allèles sont dominants, et que la F1 est en couplage, alors les effectifs théoriques des classes A-B-, A-bb, aaB-, et aabb sont

113

Page 117: Aspects statistiques de la cartographie des marqueurs moléculaires

n 3 −2r + r2( ) 4114

Page 118: Aspects statistiques de la cartographie des marqueurs moléculaires

,

115

Page 119: Aspects statistiques de la cartographie des marqueurs moléculaires

n 2r −r2( ) 4116

Page 120: Aspects statistiques de la cartographie des marqueurs moléculaires

,

117

Page 121: Aspects statistiques de la cartographie des marqueurs moléculaires

n 2r −r2( ) 4118

Page 122: Aspects statistiques de la cartographie des marqueurs moléculaires

, et

119

Page 123: Aspects statistiques de la cartographie des marqueurs moléculaires

n 1 −r( )2 4120

Page 124: Aspects statistiques de la cartographie des marqueurs moléculaires

, et les effectifs observés sont a, b, c, d. Le signe "-" signifie que l’allèle est soit dominant (A), soit récessif (a).

Si on applique la méthode du maximum de vraisemblance, on obtient l’équation d’estimation :

121

Page 125: Aspects statistiques de la cartographie des marqueurs moléculaires

∂L

∂r= a

2r − 2( )

3 − 2r + r 2 + b + c( )2 − 2r( )

2r − r2 + d2

r − 1= 0

122

Page 126: Aspects statistiques de la cartographie des marqueurs moléculaires

La résolution de cette équation donne l’estimateur de r :

123

Page 127: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r C =1−d+3a2n

+ 1 +d−3a

n+

d+3a( )2

4n2−1

124

Page 128: Aspects statistiques de la cartographie des marqueurs moléculaires

La variance asymptotique

125

Page 129: Aspects statistiques de la cartographie des marqueurs moléculaires

V ˆ r

126

Page 130: Aspects statistiques de la cartographie des marqueurs moléculaires

est alors :

127

Page 131: Aspects statistiques de la cartographie des marqueurs moléculaires

V ˆ r =r r−2( ) 3 −2r + r2( )

n 8r−4r2 −6( )

128

Page 132: Aspects statistiques de la cartographie des marqueurs moléculaires

Si la F1 est en répulsion, il faut remplacer r par 1-r dans les effectifs théoriques et l’équation d’estimation, et changer le signe de celle-ci, ce qui donne l’estimateur :

129

Page 133: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r R =d+3a2n

+ 1+d−3a

n+

d+ 3a( )2

4n2−1

130

Page 134: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r R

131

Page 135: Aspects statistiques de la cartographie des marqueurs moléculaires

a comme variance :

132

Page 136: Aspects statistiques de la cartographie des marqueurs moléculaires

V ˆ r =2 + r2( ) 1−r2( )

2n 1+ 2r2( )

133

Page 137: Aspects statistiques de la cartographie des marqueurs moléculaires

On a bien sûr

134

Page 138: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r R =1−ˆ rC135

Page 139: Aspects statistiques de la cartographie des marqueurs moléculaires

.

• Si les allèles sont codominants, on aboutit à une équation du troisième degré, que l’on peut résoudre, par exemple, par la méthode de Newton-Raphson (Annexe 1), ou par un algorithme EM :

Soient A et B des allèles codominants existant sous la forme 1 ou 2. La fréquence de recombinaison entre A et B est r. Soit le croisement de deux parents : A1A1B1B1 6 A2A2B2B2. La F1 est hétérozygote (A1A2B1B2) et son autofécondation donne en F2 les génotypes indiqués par le Tableau 5. Ce tableau indique aussi les fréquences théoriques de chaque case. On peut écrire les fréquences théoriques (les mi) des 9 génotypes qui serviront à estimer r (Tableau 5bis).

On n’aboutit pas, dans ce cas, à un estimateur simple comme pour le backcross. La raison est qu’on ne peut pas distinguer les individus double recombinants (les

136

Page 140: Aspects statistiques de la cartographie des marqueurs moléculaires

A1B2

A2B1

137

Page 141: Aspects statistiques de la cartographie des marqueurs moléculaires

) des non recombinants (les

138

Page 142: Aspects statistiques de la cartographie des marqueurs moléculaires

A1B1

A2B2

139

Page 143: Aspects statistiques de la cartographie des marqueurs moléculaires

) dans la classe e. Si on fait l’hypothèse que les fréquences de recombinaison mâle et femelle sont égales, on obtient l’estimation de r en résolvant l’équation :

140

Page 144: Aspects statistiques de la cartographie des marqueurs moléculaires

141

Page 145: Aspects statistiques de la cartographie des marqueurs moléculaires

∂L

∂r= a + i( )

2

r − 1+ b + d + f + h( )

1− 2r

r 1− r( )+ c + g( )

2

r+ e

4r − 2

1+ 2r 2 − 2r= 0,

142

Page 146: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.7)a à i étant les fréquences observées.

La variance asymptotique

143

Page 147: Aspects statistiques de la cartographie des marqueurs moléculaires

V ˆ r

144

Page 148: Aspects statistiques de la cartographie des marqueurs moléculaires

est alors :

145

Page 149: Aspects statistiques de la cartographie des marqueurs moléculaires

V ˆ r =r 1−r( ) 1−2r + 2r2( )

2n 1−3r + 3r2( )

146

Page 150: Aspects statistiques de la cartographie des marqueurs moléculaires

Mangin (1991) souligne que résoudre (1.7) revient à résoudre l’équation du troisième degré :

147

Page 151: Aspects statistiques de la cartographie des marqueurs moléculaires

2 c + g( ) + b+ d+ f +h( )−2 ˆ rn+ 2ˆ r2

1−ˆ r( )2 + ˆ r2e=0

148

Page 152: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.7bis)où n est le nombre total d’individus.

De cette équation, l’auteur déduit l’algorithme itératif suivant :

A1B1 A1B2 A2B1 A2B2

149

Page 153: Aspects statistiques de la cartographie des marqueurs moléculaires

1−r( ) 2r 2r 21−r( ) 2150

Page 154: Aspects statistiques de la cartographie des marqueurs moléculaires

A1B1 A1A1B1B1 A1A1B1B2 A1A2B1B1 A1A2B1B2

151

Page 155: Aspects statistiques de la cartographie des marqueurs moléculaires

1−r( ) 21−r( )2 4r −r2( ) 4r −r2( ) 41−r( )2 4152

Page 156: Aspects statistiques de la cartographie des marqueurs moléculaires

(1) (2) (4) (5)

A1B2 A1A1B1B2 A1A1B2B2 A1A2B1B2 A1A2B2B2

153

Page 157: Aspects statistiques de la cartographie des marqueurs moléculaires

r 2r −r2( ) 4r 2 4r 2 4r −r2( ) 4154

Page 158: Aspects statistiques de la cartographie des marqueurs moléculaires

(2) (3) (5) (6)

A2B1 A1A2B1B1 A1A2B1B2 A2A2B1B1 A2A2B1B2

155

Page 159: Aspects statistiques de la cartographie des marqueurs moléculaires

r 2r −r2( ) 4r 2 4r 2 4r −r2( ) 4156

Page 160: Aspects statistiques de la cartographie des marqueurs moléculaires

(4) (5) (7) (8)

A2B2 A1A2B1B2 A1A2B2B2 A2A2B1B2 A2A2B2B2

157

Page 161: Aspects statistiques de la cartographie des marqueurs moléculaires

1−r( ) 21−r( )2 4r −r2( ) 4r −r2( ) 41−r( )2 4158

Page 162: Aspects statistiques de la cartographie des marqueurs moléculaires

(5) (6) (8) (9)

Tableau 5 — Tableau de croisement d’une F1. Marqueurs codominants (ex : RFLP) ; on reconnaît 9 génotypes différents, identifiables par le chiffre entre parenthèses. Les fréquences théoriques de chaque case sont indiquées sous le génotype. Les génotypes des gamètes de la F1 sont en italique.

Génotypes Fréq. théoriques Fréq. observées

159

Page 163: Aspects statistiques de la cartographie des marqueurs moléculaires

A1A1B1B1 (1)

1−r( )2 4a

160

Page 164: Aspects statistiques de la cartographie des marqueurs moléculaires

A1A1B1B2 (2)

r −r2( ) 2b

161

Page 165: Aspects statistiques de la cartographie des marqueurs moléculaires

A1A1B2B2 (3)

r 2 4c

162

Page 166: Aspects statistiques de la cartographie des marqueurs moléculaires

A1A2B1B1 (4)

r −r2( ) 2d

163

Page 167: Aspects statistiques de la cartographie des marqueurs moléculaires

A1A2B1B2 (5)

1−2r +2r2( ) 2e

164

Page 168: Aspects statistiques de la cartographie des marqueurs moléculaires

A1A2B2B2 (6)

r −r2( ) 2f

165

Page 169: Aspects statistiques de la cartographie des marqueurs moléculaires

A2A2B1B1 (7)

r 2 4g

166

Page 170: Aspects statistiques de la cartographie des marqueurs moléculaires

A2A2B1B2 (8)

r −r2( ) 2h

167

Page 171: Aspects statistiques de la cartographie des marqueurs moléculaires

A2A2B2B2 (9)

1−r( )2 4i

168

Page 172: Aspects statistiques de la cartographie des marqueurs moléculaires

Tableau 5bis — Fréquences théoriques des 9 génotypes d’une F2 avec 2 marqueurs codominants.

169

Page 173: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r =2 c+ g( ) + b+d+ f + h( ) + 2ˆ te

2n

ˆ t =ˆ r2

1−ˆ r( )2 + ˆ r2

170

Page 174: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.8)

qui est un algorithme EM, où

171

Page 175: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ t

172

Page 176: Aspects statistiques de la cartographie des marqueurs moléculaires

estime le taux de double recombinants dans la classe e.

Il est possible d’utiliser un algorithme similaire pour estimer la liaison entre un marqueur dominant et un marqueur codominant (Lorieux, 1993).

• Dans un cas plus général où plusieurs paramètres sont à estimer, il faut résoudre le système d’équations de vraisemblance constitué par les dérivées partielles de la log-vraisemblance par rapport à chacun des paramètres. Le calcul de la variance asymptotique des paramètres nécessite l’inversion de la matrice d’information espérée, I. Si k paramètres

173

Page 177: Aspects statistiques de la cartographie des marqueurs moléculaires

θ1, ..., θ k

174

Page 178: Aspects statistiques de la cartographie des marqueurs moléculaires

sont estimés, I est égale à

175

Page 179: Aspects statistiques de la cartographie des marqueurs moléculaires

I =

θ1 θi θk

θ1 I ˆ θ 1, ˆ θ 1 I ˆ θ 1, ˆ θ i I ˆ θ 1, ˆ θ kθ i I ˆ θ i , ˆ θ i I ˆ θ i , ˆ θ kθk I ˆ θ k, ˆ θ k

176

Page 180: Aspects statistiques de la cartographie des marqueurs moléculaires

177

Page 181: Aspects statistiques de la cartographie des marqueurs moléculaires

I ˆ θ i , ˆ θ j=n

1m

∂m∂θi

⎝ ⎜

⎠ ⎟∂m∂θ j

⎝ ⎜

⎠ ⎟

⎝ ⎜ ⎜

⎠ ⎟ ⎟

t∑

178

Page 182: Aspects statistiques de la cartographie des marqueurs moléculaires

Par exemple, la variance asymptotique de

179

Page 183: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ θ 1

180

Page 184: Aspects statistiques de la cartographie des marqueurs moléculaires

est la valeur de la cellule de

181

Page 185: Aspects statistiques de la cartographie des marqueurs moléculaires

I−1

182

Page 186: Aspects statistiques de la cartographie des marqueurs moléculaires

qui correspond à

183

Page 187: Aspects statistiques de la cartographie des marqueurs moléculaires

I ˆ θ 1, ˆ θ 1

184

Page 188: Aspects statistiques de la cartographie des marqueurs moléculaires

dans I. À noter que si les informations, donc les covariances entre les différents paramètres sont nulles, alors la variance asymptotique de chaque paramètre est simplement l’inverse de l’information pour ce paramètre.

Remarque : si le système d’équations de vraisemblance n’a pas de solution, alors I est singulière et n’a pas d’inverse.

185

Page 189: Aspects statistiques de la cartographie des marqueurs moléculaires

FONCTIONS DE CARTOGRAPHIE

Jusqu’ici, nous avons uniquement envisagé l’aspect de base de la cartographie, qui est le calcul des fréquences de recombinaison entre les différents locus. Mais ces fréquences ne sont qu’une mesure indirecte des événements de disjonction des chromosomes hétérologues et de recombinaison — les crossing over — qui surviennent entre les chromosomes homologues. Si l’on pouvait compter et repérer tous les crossing over survenus pendant les méioses qui ont conduit à la formation des gamètes qui ont donné la population étudiée, on aurait alors une mesure directe de la distance de carte entre les locus. La fréquence de recombinaison entre deux locus ne fait apparaître que les recombinaisons "impaires" (simples, triples, etc.) ; elle masque les recombinaisons "paires" (doubles, quadruples, etc.). Il faut transformer cette mesure par le moyen d’une formule qui tient compte des recombinaisons "paires" qui ont dû avoir lieu. Une définition de la distance de carte entre deux locus est le nombre moyen de points d'échange (par chromatide) survenus entre ces deux locus.

Fonction de Haldane

Dans un premier temps, partons de l’hypothèse d’absence d’interférence génétique (Bailey, 1961), c’est à dire que la probabilité d’occurrence d’un crossing-over dans un segment quelconque est indépendante de l’occurrence d’un crossing-over dans un autre segment, même très proche du premier.

Supposons que trois locus, A, B et C, liés entre eux, soient dans l’ordre ABC ; soient r1, r2 et r1+2, les fréquences de recombinaison de chacune des paires de locus constituées par les trois locus, avec r1 = rAB, r2 = rBC et r1+2 = rAC. Si on considère la possibilité de doubles recombinaisons (c’est à dire qu’il y a recombinaison dans les deux segments à la fois), il vient :

186

Page 190: Aspects statistiques de la cartographie des marqueurs moléculaires

r1+2 =r1 1 −r2( ) +r2 1−r1( )187

Page 191: Aspects statistiques de la cartographie des marqueurs moléculaires

188

Page 192: Aspects statistiques de la cartographie des marqueurs moléculaires

⇒ r1+2 = r1 + r2 − 2r1r2189

Page 193: Aspects statistiques de la cartographie des marqueurs moléculaires

Si r1 et r2 sont assez faibles (i.e., inférieures à 10%), alors le pourcentage de doubles recombinaisons (2r1r2) sera très faible, et on peut faire l’approximation suivante :

190

Page 194: Aspects statistiques de la cartographie des marqueurs moléculaires

r1+2 ≈r1 + r2191

Page 195: Aspects statistiques de la cartographie des marqueurs moléculaires

Cette approximation n’est plus valable pour des fréquences de recombinaison plus grandes ; on cherche à trouver une fonction de la fréquence de recombinaison qui soit strictement additive, i.e., la distance de carte : soit la relation suivante :

192

Page 196: Aspects statistiques de la cartographie des marqueurs moléculaires

x r( ) =−12

ln 1−2r( )193

Page 197: Aspects statistiques de la cartographie des marqueurs moléculaires

la fonction inverse étant

194

Page 198: Aspects statistiques de la cartographie des marqueurs moléculaires

r x( ) =121−e−2x( )

195

Page 199: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.9)

C’est la fonction de Haldane (1919). La valeur x est la distance de carte entre deux locus entre lesquels la fréquence de recombinaison est r, sous l’hypothèse de non interférence ; elle possède la propriété d’additivité requise. x est exprimée en cM (centimorgans). Pour les faibles distances, x correspond approximativement à r, la fréquence de recombinaison.

Une autre façon, plus "biologique", de calculer la fonction de Haldane est la suivante : si la distance entre A et B est x, alors l’hypothèse que les chiasma sont formés au hasard signifie que le nombre de chiasma survenant entre A et B pour une méiose unique suit une distribution de Poisson de paramètre x. La probabilité d’avoir exactement s chiasma est donc :

196

Page 200: Aspects statistiques de la cartographie des marqueurs moléculaires

Ps x( ) =xse−x

s!197

Page 201: Aspects statistiques de la cartographie des marqueurs moléculaires

avec s = 0, 1, 2,…

On n’observe de recombinaison que lorsque le nombre de chiasma entre les deux locus est impair ; il vient alors :

198

Page 202: Aspects statistiques de la cartographie des marqueurs moléculaires

r = P2s+1 x( ) =e−x x2s+1

2s+1( )!=12

s=0

∑s=0

∑ 1 −e−2 x( )199

Page 203: Aspects statistiques de la cartographie des marqueurs moléculaires

Remarque : lorsqu’on a estimé une fréquence de recombinaison entre deux locus, on peut calculer son écart-type à partir de la formule (1.6). Mais quand on convertit cette fréquence r exprimée en pourcentage, en une distance x en cM, quel est alors l’écart-type sx de x ? Puisque x est une fonction de r, on peut utiliser la formule :

200

Page 204: Aspects statistiques de la cartographie des marqueurs moléculaires

s x ≈sr∂x∂r

201

Page 205: Aspects statistiques de la cartographie des marqueurs moléculaires

, c’est à dire

202

Page 206: Aspects statistiques de la cartographie des marqueurs moléculaires

s x ≈sr

1−2r203

Page 207: Aspects statistiques de la cartographie des marqueurs moléculaires

.

Fonction de Kosambi

Considérons maintenant la prise en compte de l’interférence, c’est à dire que la probabilité d’occurrence d’un crossing-over dans un segment quelconque est dépendante de l’occurrence d’un crossing-over dans un autre segment ; pour cela, nous devons introduire le concept de coïncidence : le coefficient de coïncidence, c, est le rapport du nombre réel de crossing-over sur le nombre théorique de crossing-over calculé sous l’hypothèse d’absence d’interférence. En fait, la fonction de cartographie de Haldane peut être déduite de la formule suivante (Crow, 1990) :

204

Page 208: Aspects statistiques de la cartographie des marqueurs moléculaires

∂r

∂x= 1 − 2cr

205

Page 209: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.10)

Quand c = 0, i.e., quand l’interférence est totale, l’occurrence d’une recombinaison en empêche une autre dans son voisinage, alors r = x puisqu’il n’y a pas de double recombinaison possible. Un groupe de liaison ne peut alors pas être plus grand que 50 cM.

Quand c = 1, i.e., quand il n’y a pas d’interférence, on obtient la fonction de Haldane.

Il est intéressant de considérer la valeur du coefficient de coïncidence comme une fonction de r. C’est ce que Kosambi (1944) a fait, en posant c = 2r ; cette relation permet de modéliser une interférence nulle (c = 1) pour r = 0,5. La formule (1.10) devient alors la fonction de cartographie de Kosambi :

206

Page 210: Aspects statistiques de la cartographie des marqueurs moléculaires

∂r

∂x= 1 − 4r 2207

Page 211: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.11)

L’intégration de (1.11) donne alors :

208

Page 212: Aspects statistiques de la cartographie des marqueurs moléculaires

r =12

tanh2x( )

x=ln1+ 2r1−2r ⎛ ⎝ ⎜ ⎞

⎠ ⎟ 4

209

Page 213: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.12)

et :

210

Page 214: Aspects statistiques de la cartographie des marqueurs moléculaires

s x ≈sr

1−4r2211

Page 215: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.15)

On déduit de la première formule de (1.12), la formule d’addition de Kosambi :

212

Page 216: Aspects statistiques de la cartographie des marqueurs moléculaires

r1+2 =r1 + r21+ 4r1r2

213

Page 217: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.16)

Selon plusieurs auteurs, le modèle de Kosambi s’ajuste souvent mieux aux données que celui de Haldane (Crow, 1990). Toutefois, aucune fonction de cartographie n’est universelle car la répartition de l’interférence le long du chromosome n’est pas simple.

La Fig. 2 représente la fréquence de recombinaison entre deux locus, en fonction de la distance de carte "réelle", calculée avec les deux fonctions de cartographie précitées.

0 40 80 120 160 200

0

0.1

0.2

0.3

0.4

0.5

Distance en cM

Fréquence de recombinaison

Haldane

Kosambi

Fig. 2 — Relation entre la fréquence de recombinaison et la distance de carte, calculée avec deux fonctions de cartographie très utilisées : celles de Haldane et de Kosambi. La fonction de Kosambi donne une carte plus "compacte" que celle de Haldane.Ajoutons que d’autres fonctions de cartographie ont été proposées, notamment par Felsenstein (1979), Carter et Falconer (1951), Rao et al. (1977), Pascoe et Morton (1987).

L'utilisation de plus en plus courante de l’analyse multipoint, impliquant le développement de logiciels puissants comme MAPMAKER (Lander et Green, 1987) ou LINKAGE (Lathrop et Lalouel, 1988), réactualise la question des fonctions de cartographie (voir paragraphe suivant). La formulation d’équations de vraisemblance nécessite l’émission d’hypothèses concernant l’interférence, surtout en génétique humaine. La formule simple basée sur la relation c = 4r2 "a donné de bons résultats, à chaque fois que les données ont permis de le vérifier" (Crow, 1990).

214

Page 218: Aspects statistiques de la cartographie des marqueurs moléculaires

ANALYSE MULTIPOINT

L’analyse de la ségrégation de deux locus constitue seulement le point de départ de l’analyse des liaisons entre locus : les ordres que l’on attribue aux locus par cette méthode sur les groupes de liaison peuvent être incorrects, et les estimations des fréquences de recombinaison n’ont pas toujours la précision maximale. Pour pallier ce problème, on a recours à l’analyse multipoint.

Par exemple, en génétique humaine, on étudie des ségrégations sur deux ou trois générations ; en effet, les distances estimées par la méthode d’analyse en deux points sont approximatives, du fait du nombre limité de méioses co-informatives étudiées. Quand la plupart des locus sont informatifs (i.e., hétérozygotes) dans la plupart des méioses, des croisements en 3 ou 4 points suffisent pour déterminer leur ordre correctement (Lathrop et al., 1985). Quand les locus sont non informatifs (i.e., homozygotes) dans un nombre important de méioses, il est souhaitable d’analyser simultanément 5 à 10 marqueurs : ceci assure que les marqueurs adjacents informatifs sont présents dans chaque méiose pour laquelle une recombinaison survient entre les marqueurs intéressants. Cette méthode demande une somme considérable de calculs, inimaginables sans l’appui de l’informatique.

Pour ce qui est des populations de type backcross, RIL 4, HD5, où on peut compter directement les recombinants, l’analyse multipoint n’apporte de précision supplémentaire à la cartographie que dans la mesure où elle permet d’établir l’ordre globalement le plus probable : les recombinaisons multiples sont prises en compte.

La méthode utilisée est toujours celle du maximum de vraisemblance ; pour chaque carte possible, on peut calculer la probabilité que cette carte conduise aux données observées ; cette probabilité est appelée la vraisemblance de la carte, la "meilleure" carte étant celle qui a la plus forte vraisemblance. Quand il est possible de compter les recombinants, la carte résultante est en fait la solution de vraisemblance maximale ; ainsi, la méthode du maximum de vraisemblance est une généralisation du comptage de recombinants. Le rapport des vraisemblances de deux cartes traduit le meilleur ajustement aux données d’une des deux cartes (d’après Lander et al., 1987).

Le premier algorithme de calcul de vraisemblance d’une carte a été écrit par Elston et Stewart (1971). Sur la base de cet algorithme, de nombreuses méthodes de cartographie multipoint ont été proposées (Lathrop et al., 1984 ; Lathrop et Lalouel, 1984 ; Morton et MacLean, 1984 ; Lathrop et al., 1985 ; Morton et al., 1985 ; Lander et al., 1987 ; Lander et Green, 1987 ; Pascoe et Morton, 1987 ; Lathrop et Lalouel, 1988 ; Lincoln et Lander, 1992), et trois logiciels ont été développés :

• LIPED (Ott, 1976), calcule les fréquences de recombinaison en deux points mais ne fait pas d’analyse multipoint ;

4Recombinant Inbred Lines, en français lignées recombinantes. cf. le § “Types de populations à analyser”.5Haploïdes doublés. cf. le § “Types de populations à analyser”.

215

Page 219: Aspects statistiques de la cartographie des marqueurs moléculaires

• LINKAGE (Lathrop et Lalouel, 1984), analyse multipoint ;

• MAPMAKER (Lander et al, 1987), utilise l’algorithme EM (Dempster et al., 1977). Les auteurs remarquent que les génotypes non déterminés peuvent être considérés comme des données manquantes, et que l’on peut utiliser l’algorithme EM pour estimer des fréquences de recombinaison avec des données multipoint. L’étape "Expectation" a pour but de déterminer la probabilité qu’a un individu d’avoir tel génotype à tel locus, en fonction des génotypes des locus qui lui sont liés. Cette étape, appelée par les auteurs "étape de reconstruction", peut être résolue, par exemple, en utilisant l’algorithme d’Elston et Stewart, ou un autre algorithme basé sur les chaînes de Markov. En backcross, cette étape de "reconstruction" n’a que peu d’intérêt puisqu’on reconnaît le génotype de chaque individu. En F2, par contre, et en particulier pour des allèles dominants, plusieurs génotypes peuvent avoir le même phénotype, et la "reconstruction" peut donner lieu à des estimations un peu différentes des estimations en deux points.

Il semble que les deux derniers logiciels cités produisent des résultats assez comparables, bien que MAPMAKER demande des temps de calcul plus faibles que LINKAGE (J. Beckmann, comm. pers. ; Lander et al, 1987). Par contre, LINKAGE et LIPED sont des programmes plus généraux que MAPMAKER, dont les possibilités d’utilisations sont limitées à la construction de cartes génétiques à partir de deux sources d’information : (i) des caractères dominants, codominants ou récessifs dans des populations F2, backcross, haploïdes doublés ou lignées recombinantes ; et (ii) des caractères codominants dans des pedigrees de type CEPH6.

A titre d’exemple, citons les travaux de Lathrop et al. (1985) en génétique humaine, qui ont comparé les efficacités relatives de l’analyse en deux points et de l’analyse en trois points. Selon les hypothèses de départ (existence ou non d’interférence7 ; connaissance a priori ou non de la fréquence de recombinaison entre deux des trois locus), l’analyse en trois points se révèle être entre 1,12 et 10 fois plus efficace que l’analyse en deux points. Ces auteurs ont aussi analysé les données RFLP obtenues par Antonarakis et al. (1983), au moyen du logiciel LINKAGE, afin de montrer l’intérêt de l’analyse en trois points. Ils concluent que l’analyse multipoint, a fortiori, est prometteuse pour l’analyse précise du linkage. Son intérêt principal, outre celui de fournir des estimations précises des fréquences de recombinaison entre locus, réside dans le fait qu’elle permet d’établir avec une forte probabilité l’ordre des locus. Une telle différence de précision entre l’analyse en trois points et l’analyse en deux points est due au fait qu’en génétique humaine, une grande partie des méioses sont non informatives, ce qui n’est pas le cas en population structurée.

Signalons qu’il existe d’autres algorithmes que ceux précités, comme le "Simulating Annealing Algorithm" : celui-ci est utilisé dans le logiciel G-MENDEL 2.0 (B.-H. Liu, comm. pers. ; Echt et al., 1992), pour déterminer l’ordre le plus probable de m locus. L’estimation multipoint des fréquences de recombinaison utilise aussi l’algorithme EM.

Enfin, certains logiciels comme CPROP (S. Letovsky, comm. pers.) ou JOINMAP (P. Stam, comm. pers.) permettent de combiner plusieurs cartes déjà établies, et de

6Centre d’Etudes du Polymorphisme Humain7cf. le § “Fonctions de cartographie”

216

Page 220: Aspects statistiques de la cartographie des marqueurs moléculaires

rechercher l’ordre le plus probable.

Les limites de l’analyse en deux points

Il est important de connaître avec une grande certitude l’ordre des marqueurs sur les chromosomes, ainsi que les distances précises entre les locus. Par exemple, il est très intéressant de savoir qu’un gène important est situé à un endroit précis entre deux marqueurs. Les distances entre marqueurs sont toutefois moins importantes que l’ordre car celles-ci varient plus d’un croisement à un autre, et selon le sexe (Cornu et al, 1989 ; de Vicente et Tanksley, 1991 ; Fatmi et al, 1993).

Dans l’exemple du paragraphe précédent, la ségrégation de deux marqueurs est étudiée. Nous allons voir que ce type de croisement conduit à une détermination approximative de l’ordre des marqueurs sur les groupes de liaison. C’est pourquoi, vers les années 20, on a commencé à faire des croisements impliquant au moins trois caractères, et souvent beaucoup plus : jusqu’à 9, sur la drosophile (Morgan et al., 1935, in Pascoe et Morton, 1987). Aujourd’hui, les marqueurs moléculaires permettent d’obtenir des croisements en m points, m pouvant être supérieur à 1000. Il ne s’agit plus seulement, comme dans le paragraphe précédent, d’estimer les taux de recombinaison entre toutes les

217

Page 221: Aspects statistiques de la cartographie des marqueurs moléculaires

Cm2

218

Page 222: Aspects statistiques de la cartographie des marqueurs moléculaires

paires possibles de marqueurs, mais aussi de déterminer l’ordre relatif de ces locus sur les chromosomes.

Considérons un backcross impliquant trois marqueurs, A, B et C, et supposons que les tests du

219

Page 223: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

220

Page 224: Aspects statistiques de la cartographie des marqueurs moléculaires

aient permis de conclure que ces trois marqueurs sont liés. Supposons aussi que l’ordre vrai soit ABC. Appelons r1, la fréquence de recombinaison entre A et B, r2, la fréquence de recombinaison entre B et C et r3, la fréquence de recombinaison entre A et C. Les effectifs théoriques des génotypes de la descendance sont donnés par le Tableau 6.

Génotypes

A1B1C1

A2B2C2

etA2B2C2

A2B2C2

A2B1C1

A2B2C2

etA1B2C2

A2B2C2

A1B1C2

A2B2C2

etA2B2C1

A2B2C2

A2B1C2

A2B2C2

etA1B2C1

A2B2C2

221

Page 225: Aspects statistiques de la cartographie des marqueurs moléculaires

Effectifs théoriques

n 1 −r1( ) 1−r2( )nr1 1−r2( )n 1 −r1( )r2nr1r 2222

Page 226: Aspects statistiques de la cartographie des marqueurs moléculaires

Effectifs observés

a b c d

Tableau 6 — Effectifs observés et théoriques des différentes classes engendrées par la ségrégation conjointe de trois locus (population backcross).les estimateurs du maximum de vraisemblance de l’analyse en deux points sont alors :

223

Page 227: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r 1 =b+ d

n etVˆ r1 =

r1 1−r1( )n

224

Page 228: Aspects statistiques de la cartographie des marqueurs moléculaires

(on ignore C)

225

Page 229: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r 2 =c+ d

n etV ˆ r2 =

r2 1 −r2( )n

226

Page 230: Aspects statistiques de la cartographie des marqueurs moléculaires

(on ignore A)

227

Page 231: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r 3 =b+c

n etV ˆ r3 =

r3 1−r3( )n

228

Page 232: Aspects statistiques de la cartographie des marqueurs moléculaires

(on ignore B)

On remarque que r3 < r1 + r2, sauf pour d = 0.

Ces estimateurs en deux points vont permettre d’ordonner approximativement les trois marqueurs : si on trouve r3 > r1 et r3 > r2, alors on peut conclure provisoirement que l’ordre est ABC. Le problème est que dans l’estimation de r3, on n’a pas pris en compte les individus double recombinants de la classe d’effectif d (puisqu’on ne peut pas les voir, du fait que l’on ne regarde que les locus A et B), ce qui conduit à une sous-estimation de r3. De plus, les variances des estimateurs sont souvent grandes par rapport aux valeurs des estimateurs eux-mêmes, notamment quand ceux-ci sont proches de 0, et quand la taille de la population, n, est faible. La Fig. 3 illustre ce fait pour un backcross. Les ordres ainsi déduits des fréquences de recombinaison estimées par l’analyse en deux points ont souvent une faible probabilité d’être vrais.

Si on analyse simultanément la ségrégation des trois locus, l’estimateur de r3, si l’ordre est ABC, est alors :

229

Page 233: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r 3 =b+c+2d

n230

Page 234: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.17)

On compte deux fois l’effectif d puisque cette classe contient les individus double recombinants. On a maintenant r3 = r1 + r2.

L’analyse en trois points nous apporte une information supplémentaire, puisqu’elle permet de voir et de prendre en compte les doubles recombinaisons.

0

0.3

0.6

0.9

sr/r

1.2

1.5

0 0.1 0.2 0.3 0.4r

n=50n=100

0.5

Fig. 3 — Rapport de l’écart-type de r sur r. Pour les faibles valeurs de r, ce rapport est très grand (n = 100). Il augmente encore quand la taille n de la population diminue (n = 50).Remarque : Plus il y aura de marqueurs entre deux locus A et B, et plus la fréquence de recombinaison observée entre A et B augmentera en se rapprochant de leur "distance réelle".

Il est clair que si l’ordre présumé n’est plus ABC, mais, par exemple, ACB, l’estimation de la fréquence de recombinaison entre les deux marqueurs extrêmes sera différente, puisqu’on considère alors que l’effectif de la classe des individus double recombinants n’est pas d mais c. Il est important de déterminer d’abord l’ordre des marqueurs : c’est le sujet du paragraphe suivant.

Détermination de l’ordre de trois locus

Reprenons l’exemple du paragraphe précédent, et supposons que l’ordre vrai soit ABC. Les individus de génotypes

231

Page 235: Aspects statistiques de la cartographie des marqueurs moléculaires

A 2B1C2 A2B2C2

232

Page 236: Aspects statistiques de la cartographie des marqueurs moléculaires

et

233

Page 237: Aspects statistiques de la cartographie des marqueurs moléculaires

A1B2C1 A2B2C2234

Page 238: Aspects statistiques de la cartographie des marqueurs moléculaires

, donc ceux de la classe d’effectif d, sont issus d’une double recombinaison : une entre A et B et une entre B et C. La probabilité d’avoir un individu double recombinant est la fréquence théorique de la classe d’effectif d, c’est à dire rABrBC. Pour des r faibles, c’est à dire quand il y a une forte incertitude sur l’ordre, cette probabilité est très inférieure à celle des trois autres classes. Si on observe que la classe d’effectif d est la moins nombreuse, cela signifie que l’ordre est probablement ABC. Par contre, si l’ordre vrai est ACB, ce sont les individus de la classe d’effectif c qui seront les moins probables, les individus double recombinants étant de génotypes

235

Page 239: Aspects statistiques de la cartographie des marqueurs moléculaires

A1B1C2 A2B2C2

236

Page 240: Aspects statistiques de la cartographie des marqueurs moléculaires

et

237

Page 241: Aspects statistiques de la cartographie des marqueurs moléculaires

A 2B2C1 A2B2C2238

Page 242: Aspects statistiques de la cartographie des marqueurs moléculaires

. On raisonne de la même façon pour l’ordre CAB ; les individus de la classe d’effectif b seront alors les moins probables.

On calcule, comme pour la détection d’une liaison entre deux locus, un LOD score, qui est le logarithme décimal du rapport des vraisemblances de deux ordres.

Exemple. On a observé, dans la descendance d’un backcross, les effectifs du Tableau 6bis. Les conditions sont les mêmes que dans le § "Analyse de la liaison".

Génotypes

A1B1C1

A2B2C2

etA2B2C2

A2B2C2

A2B1C1

A2B2C2

etA1B2C2

A2B2C2

A1B1C2

A2B2C2

etA2B2C1

A2B2C2

A2B1C2

A2B2C2

etA1B2C1

A2B2C2

Total

Effectifs "observés"

a = 67 b = 9 c = 10 d = 8 n = 94

Tableau 6bis — Exemple imaginaire de données obtenues en backcross pour la ségrégation conjointe de trois locus.On veut comparer les hypothèses suivantes : (i) l’ordre est ABC (ou CBA)

(ii) l’ordre est ACB (ou BCA)

(iii) l’ordre est CAB (ou BAC)

• sous l’hypothèse (i), la vraisemblance maximale de l’ordre ABC, notée eL, est :

239

Page 243: Aspects statistiques de la cartographie des marqueurs moléculaires

eABCL = 1−ˆ rAB( ) 1−ˆ rBC( )[ ]

a ˆ rAB 1−ˆ rBC( )[ ]b1 −ˆ rAB( )ˆ rBC[ ]

c ˆ rABˆ rBC[ ]d

240

Page 244: Aspects statistiques de la cartographie des marqueurs moléculaires

d étant l’effectif de la classe des double recombinants.

• sous l’hypothèse (ii), la vraisemblance maximale de l’ordre ACB est :

241

Page 245: Aspects statistiques de la cartographie des marqueurs moléculaires

eACBL = 1−ˆ rAC( ) 1−ˆ rBC( )[ ]

a ˆ rAC 1−ˆ rBC( )[ ]b1 −ˆ rAC( )ˆ rBC[ ]

d ˆ rACˆ rBC[ ]c

242

Page 246: Aspects statistiques de la cartographie des marqueurs moléculaires

c étant l’effectif de la classe des double recombinants.

• sous l’hypothèse (iii), la vraisemblance maximale de l’ordre CAB est :

243

Page 247: Aspects statistiques de la cartographie des marqueurs moléculaires

eCABL = 1−ˆ rAC( ) 1 −ˆ rAB( )[ ]

a ˆ rAC 1−ˆ rAB( )[ ]c1 −ˆ rAC( )ˆ rAB[ ]

d ˆ rAC ˆ rAB[ ]b

244

Page 248: Aspects statistiques de la cartographie des marqueurs moléculaires

b étant l’effectif de la classe des double recombinants.

On a maintenant tous les éléments pour calculer les LOD score. Le LOD score entre les ordres ABC et ACB est :

245

Page 249: Aspects statistiques de la cartographie des marqueurs moléculaires

LODABC / ACB =log eABCL eACB

L( )=log eABCL( )−log eACB

L( )246

Page 250: Aspects statistiques de la cartographie des marqueurs moléculaires

247

Page 251: Aspects statistiques de la cartographie des marqueurs moléculaires

= log 5,8361.10−40( ) − log 3, 2705.10−41

( ) = 1, 2515248

Page 252: Aspects statistiques de la cartographie des marqueurs moléculaires

De même :

249

Page 253: Aspects statistiques de la cartographie des marqueurs moléculaires

LODABC / CAB = logeCABL( )−logeCAB

L( ) =0, 6108250

Page 254: Aspects statistiques de la cartographie des marqueurs moléculaires

251

Page 255: Aspects statistiques de la cartographie des marqueurs moléculaires

LODACB /CAB =log eACBL( )−log eCAB

L( )=−0. 6407252

Page 256: Aspects statistiques de la cartographie des marqueurs moléculaires

Au vu de ces résultats issus de données imaginées pour la circonstance, on ne peut pas conclure franchement en faveur d’une hypothèse. Morton (1955) préconise de ne conclure à la supériorité d’une hypothèse sur une autre que lorsque le LOD score est supérieur ou égal à 3, mais il s’agit pour cet auteur de savoir si oui ou non il y a liaison entre deux locus. La situation, ici, est différente, et il faudrait redéfinir la valeur du LOD score à retenir comme seuil (cf. Darvasi et Weller, 1992).

Pour des locus très rapprochés, les fréquences théoriques des doubles recombinants sont presque nulles. On a donc peu de chances d’en observer, et il en résulte que la puissance du test en trois points est très faible.

Les algorithmes d’ordonnancement sont en réalité plus complexes que la méthode présentée plus haut. Au lieu d’utiliser directement les fréquences de recombinaison, ils calculent les probabilités des crossing over multiples, au moyen d’une fonction de cartographie choisie a priori, selon que l’on veuille inclure un modèle d’interférence ou non (voir le paragraphe précédent). Par exemple, le logiciel MAPMAKER présenté plus haut, utilise l’algorithme EM (Expectation-Maximization) pour calculer ces probabilités (Dempster et al., 1977 ; Lander et al, 1987).

Plus il y aura de marqueurs sur la carte, et plus ils seront proches les uns des autres. On n’a pas intérêt à placer trop de marqueurs, mais plutôt à essayer d’en placer à intervalles réguliers, suffisamment petits pour pouvoir, par exemple, localiser précisément des QTL, et suffisamment grands pour que l’ordre des marqueurs soit très sûr. Mangin (1991) calcule la "probabilité de ne pas se tromper", lorsqu’on a à choisir entre les ordres ABC ou ACB, dans le cas d’un backcross (Fig. 4). Cette figure montre que l’ordre des marqueurs est établi avec moins de certitude pour des distance faibles.

253

Page 257: Aspects statistiques de la cartographie des marqueurs moléculaires

0,0 0,2 0,4 0,6 0,8 1,0

0,6

0,7

0,8

0,9

1,0

R

r

Probabilité

de

ne

pas

se

tromper

R - rr

{n = 300

{n = 50

r = 20%

r = 10%r = 20%

r = 10%

A B C

Fig. 4 — "Probabilité de ne pas se tromper" dans l’ordonnancement de trois marqueurs (d'après Mangin, 1991).

Détermination de l’ordre de m locus

La méthode présentée au paragraphe précédent pour un backcross peut être étendue à m locus. Nous ne sommes pas rentrés dans les détails de l’estimation multipoint des fréquences de recombinaison, telle qu’elle est faite par exemple par le logiciel MAPMAKER, puisqu’en backcross, si l’ordre est connu, cette méthode n’apporte pas de précision supplémentaire par rapport à la méthode d’estimation en deux points. En F2, par contre, la méthode d’estimation multipoint peut apporter une précision supplémentaire, car les fréquences des génotypes non distingués sont estimées pour un locus à partir des locus voisins. On s’intéresse ici uniquement à la question de l’ordonnancement des marqueurs.

254

Page 258: Aspects statistiques de la cartographie des marqueurs moléculaires

Pour 4 locus, on cherchera à déterminer quels sont les double et triple recombinants. Il est évident que le nombre de classes de ségrégation augmente rapidement avec le nombre de marqueurs étudiés simultanément : pour m marqueurs, il y a m!/2 ordres possibles ; 2m classes sont distinguées en backcross, et 3m en F2 (marqueurs codominants). Il faut adopter une véritable stratégie de cartographie, afin d’éliminer le plus possible de calculs inutiles. Par exemple, on peut procéder de la façon suivante :

1. Établissement des groupes de liaison.

Il s’agit de regrouper tous les marqueurs qui sont sur le même groupe de liaison. Si il y a suffisamment de marqueurs, il y aura autant de groupes de liaison que de chromosomes. Nous avons vu au § "Détection d’une liaison", que les tests du

255

Page 259: Aspects statistiques de la cartographie des marqueurs moléculaires

χ 2

256

Page 260: Aspects statistiques de la cartographie des marqueurs moléculaires

ou du LOD score permettent de déterminer si deux marqueurs ségrègent de façon indépendante (i.e., r = 0,5) ou s’ils sont liés (i.e., r < 0,5) avec une probabilité donnée. On peut aussi estimer la fréquence de recombinaison et décider, en fonction de son écart-type, si celle-ci est statistiquement inférieure à 0,5 ou non. L’information sur les ségrégations individuelles est alors perdue, mais le test de liaison est valable pour des ségrégations individuelles mendéliennes (Mather, 1957).

On peut donc établir des groupes de marqueurs liés deux à deux. On a alors une "pré-carte" dans laquelle les marqueurs ne sont pas ordonnés sur les groupes de liaison.

2. Ordonnancement des marqueurs sur les groupes de liaison

Une fois les groupes de liaison établis, il s’agit d’établir avec soin l’ordre des marqueurs. Si il y a un nombre important de marqueurs par groupe, entamer directement des calculs de vraisemblance maximale pour toutes les permutations possibles serait extrêmement long et fastidieux, même avec des ordinateurs puissants : pour 5 marqueurs, il y a 60 ordres possibles, pour 6 marqueurs, 360 ordres, pour 7 marqueurs, 2520 ordres. Or, il est courant d’avoir beaucoup plus de 7 marqueurs sur un groupe de liaison. Dans un premier temps, on peut utiliser l’analyse en trois points décrite au § "Détermination de l’ordre de trois locus", pour éliminer tous les triplets improbables. On peut alors commencer l’analyse multipoint, sur la base des ordres les plus probables obtenus par l’analyse en trois points. Un grand nombre de calculs est ainsi économisé. Un ou plusieurs ordres pourront finalement être retenus, selon les valeurs des LOD score obtenues.

3. Fonctions de cartographie.

On applique ensuite sur les fréquences de recombinaison de la carte la plus probable une fonction de cartographie, dont le principe est de transformer les fréquences de recombinaison (exprimées en %) en distances de carte exprimées en cM, qui sont additives. Les fonctions les plus communément utilisées sont celles de Haldane et de Kosambi (cf. le § "fonctions de cartographie").

257

Page 261: Aspects statistiques de la cartographie des marqueurs moléculaires

INFLUENCE DE LA TAILLE DE LA POPULATION SUR LA PRÉCISION DE LA CARTOGRAPHIE

Il est important d’essayer de déterminer le nombre minimal d’individus à utiliser pour obtenir une précision d’estimation des fréquences de recombinaison permettant de construire une carte fiable : en dessous de ce nombre, la carte obtenue présentera des distances incertaines entre locus et l’ordre vrai des marqueurs aura moins de chances d’être trouvé.

Plusieurs articles et ouvrages traitent des méthodes d’estimation des fréquences de recombinaison, et permettent de déterminer la précision de ces estimations (Allard, 1956 ; Mather, 1957 ; Bailey, 1961). Nous avons utilisé ici les formules données par Allard (1956), qui ont constitué et constituent encore une base de raisonnement et de calcul pour de nombreux auteurs (un extrait des tables de Allard est donné dans le Tableau 7) : si on estime la fréquence de recombinaison, r, entre deux locus par la méthode du maximum de vraisemblance décrite au § "Estimation de la liaison", on peut alors déterminer la quantité d’information, ir, que chaque individu apporte à l’estimation (Fisher, 1937 ; équation 1.6). Rappelons que cette information est une mesure de la précision de l’estimation de la fréquence de recombinaison (cf. § "Estimation de la liaison") ; elle est liée à la variance de

258

Page 262: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r 259

Page 263: Aspects statistiques de la cartographie des marqueurs moléculaires

:

260

Page 264: Aspects statistiques de la cartographie des marqueurs moléculaires

V ˆ r =1ni r

261

Page 265: Aspects statistiques de la cartographie des marqueurs moléculaires

avec n = nombre d’individus

l’écart-type

262

Page 266: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r

263

Page 267: Aspects statistiques de la cartographie des marqueurs moléculaires

de l’estimation est alors :

264

Page 268: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r =1

niˆ r

265

Page 269: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.18)

r F2 cc backcross F2 2 codo F2

2domRF2

2domC0.01 202.02 101.01 199.98 1.0002 99.8310.02 102.04 51.02 99.959 1.001 49.8290.05 42.105 21.053 39.895 1.0063 19.8240.1 22.222 11.111 19.783 1.0252 9.81460.2 12.5 6.25 9.5588 1.1029 4.7980.3 9.5238 4.7619 6.0755 1.2409 3.11840.4 8.3333 4.1667 4.4872 1.455 2.27750.5 8 4 4 1.7778 1.7778

Tableau 7 — Extrait de la table donnant les valeurs de ir en fonction de r, du type de population utilisée et du mode de ségrégation des marqueurs. r est la fréquence de recombinaison ; F2 cc = F2 complètement classée (on peut distinguer les deux types de double hétérozygotes) ; BC = backcross, marqueurs dominants ou codominants ; F2 2 codo = F2, marqueurs codominants ; F2 2domR = F2, marqueurs dominants, la F1 étant en répulsion (repulsion); F2 2domC = F2, marqueurs dominants, la F1 étant en couplage (coupling). La définition des termes ‘répulsion’ et ‘couplage’ est dans le texte qui suit ce tableau (d’après Allard, 1956).Il est possible, au moyen de ces formules, de représenter l’écart-type

266

Page 270: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r

267

Page 271: Aspects statistiques de la cartographie des marqueurs moléculaires

de la fréquence de recombinaison estimée entre deux locus en fonction du nombre d’individus, n, utilisés pour la cartographie, et ceci pour une valeur donnée de la fréquence de recombinaison r. La Fig. 5 représente

268

Page 272: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r

269

Page 273: Aspects statistiques de la cartographie des marqueurs moléculaires

pour n variant de 1 à 300, dans le cas d’une F2 classique (marqueurs codominants).

Il apparaît clairement sur cette figure que, pour des valeurs faibles de r, les écarts-types décroissent très rapidement en fonction de la taille de la population, pour atteindre un "plateau" qui ne décroît que très lentement avec l’augmentation de n. L’écart-type pour une valeur de r égale à 0,1000 est, selon la courbe correspondante, d’environ 0,031 pour une population de 50 individus (plusieurs auteurs pensent que c’est un nombre suffisant pour obtenir une carte "précise" en F2; Helentjaris et al., 1986 ; Kochert, 1989). Si les estimations de r sont distribuées selon une loi normale, il y a donc environ 68 % de chances que l'estimation de r soit comprise entre (0,1000 - 0,031) et (0,1000 + 0,031). L'écart-type obtenu dans les mêmes conditions, mais pour une population de 100 individus, est de 0,022, le gain étant seulement de 0,009.

Il vient immédiatement la question suivante : pour un type de population donné, avec un espacement moyen x entre les marqueurs, quel est la taille de population qui permet d’obtenir une carte dont l’ordre des locus ait une forte probabilité d’être le bon ?

0

0.02

0.04

0.06

0.08

0.1

0 50 100 150 200 250 300n

sr

0,01

0,05

0,1

0,2

0,3

0,4

0,5

r

Fig. 5 — Représentation de la valeur de l’écart type de la fréquence de recombinaison r entre deux marqueurs codominants, en fonction de la taille de la population n (ici, une F2) et de r.Considérons trois locus dans l’ordre ABC. Si l’écart-type de rAB est grand par rapport à (1/2)rAB, et que l’écart-type de rBC est grand par rapport à (1/2)rBC, alors l’ordre ABC ne pourra pas être considéré avec certitude comme étant le bon. Il s'agit donc d'utiliser une taille de population qui, pour une fréquence de recombinaison moyenne donnée

270

Page 274: Aspects statistiques de la cartographie des marqueurs moléculaires

r 271

Page 275: Aspects statistiques de la cartographie des marqueurs moléculaires

, permette d'obtenir une valeur de

272

Page 276: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r

273

Page 277: Aspects statistiques de la cartographie des marqueurs moléculaires

"suffisamment faible" par rapport à

274

Page 278: Aspects statistiques de la cartographie des marqueurs moléculaires

r 275

Page 279: Aspects statistiques de la cartographie des marqueurs moléculaires

. Par exemple, si on veut que, en moyenne, les intervalles de confiance à 95% autour des estimations des fréquences de recombinaison ne se chevauchent pas, il faut choisir une taille de population telle que

276

Page 280: Aspects statistiques de la cartographie des marqueurs moléculaires

1,96 ×sˆ r ≤ r 2277

Page 281: Aspects statistiques de la cartographie des marqueurs moléculaires

. En backcross, on a

278

Page 282: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r = r 1−r( ) n279

Page 283: Aspects statistiques de la cartographie des marqueurs moléculaires

; pour

280

Page 284: Aspects statistiques de la cartographie des marqueurs moléculaires

r

281

Page 285: Aspects statistiques de la cartographie des marqueurs moléculaires

= 0,1, on a donc

282

Page 286: Aspects statistiques de la cartographie des marqueurs moléculaires

n ≥3, 922 × 1− r( ) r =139283

Page 287: Aspects statistiques de la cartographie des marqueurs moléculaires

.

On peut aussi répondre à cette question en calculant la "probabilité de ne pas se tromper dans l'ordonnancement de trois marqueurs" (Fig. 4 ; Mangin, 1991). Bien que ce calcul ne fasse pas directement intervenir

284

Page 288: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r 285

Page 289: Aspects statistiques de la cartographie des marqueurs moléculaires

, on peut montrer que cette probabilité en dépend étroitement.

Par ailleurs, on lira avec intérêt Elsen (1993, pp. 21-23) qui donne des indications sur la taille de population à utiliser pour détecter une liaison. Notamment, il présente la méthode de James (1991), qui permet de calculer la taille de population n nécessaire pour avoir une puissance de test 1 - au seuil , pour un backcross : sous H1,

286

Page 290: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r

287

Page 291: Aspects statistiques de la cartographie des marqueurs moléculaires

a une distribution N

288

Page 292: Aspects statistiques de la cartographie des marqueurs moléculaires

r, r 1 −r( ) n( )289

Page 293: Aspects statistiques de la cartographie des marqueurs moléculaires

. James montre que n est donnée par

290

Page 294: Aspects statistiques de la cartographie des marqueurs moléculaires

n =x r 1 −r( ) −x 2

1 2 −r

⎝ ⎜ ⎜

⎠ ⎟ ⎟

2291

Page 295: Aspects statistiques de la cartographie des marqueurs moléculaires

où r est la vraie valeur de la fréquence de recombinaison, x est la variable aléatoire de distribution N (0, 1), et sont les risques de première et de deuxième espèce.

Nous avons vu précédemment que la méthode d’analyse en deux points n’est pas optimale pour établir l’ordre des locus. L’utilisation de

292

Page 296: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r

293

Page 297: Aspects statistiques de la cartographie des marqueurs moléculaires

comme critère de choix de la taille de population à analyser est toutefois complémentaire à l’analyse multipoint : en effet, même pour un ordre donné établi par l’analyse multipoint, il restera des locus très rapprochés pour lesquels l’écart-type pourra être un bon indicateur de la confiance que l’on peut avoir en la carte obtenue.

294

Page 298: Aspects statistiques de la cartographie des marqueurs moléculaires

TYPES DE POPULATIONS À ANALYSER

Comparaison backcross — F2

Distance minimale, distance maximale

Pour des marqueurs codominants, on peut montrer que les populations F2 sont plus informatives que les backcross. Cette comparaison est basée sur l’estimation de deux paramètres :

• la fréquence de recombinaison maximale dmax au dessus de laquelle on ne sait plus si deux locus sont liés ou indépendants,

• la distance minimale dmin au dessous de laquelle on ne peut plus détecter de recombinaison entre deux marqueurs (d’après Tanksley et al., 1988).

Les formules d’estimations des fréquences de recombinaison et des écarts-types qui s’y rattachent sont tirées de l’article de Allard (1956). L’intervalle de confiance pour l’estimation d’une fréquence de recombinaison particulière est obtenu en multipliant son écart-type par la statistique t de Student pour un nombre d’individus et un seuil de confiance donnés. Silver (1985) remarque que, dans le cas des lignées recombinantes, de tels intervalles de confiance présentent l’inconvénient d’être symétriques et d’aboutir souvent à des fréquences de recombinaison négatives, ce qui n’a aucune signification biologique. Il utilise une distribution binomiale pour obtenir des intervalles de confiance plus réalistes pour r.

• la fréquence de recombinaison maximale dmax pour laquelle on peut détecter une liaison représente la plus grande distance r pour laquelle :

295

Page 299: Aspects statistiques de la cartographie des marqueurs moléculaires

r +sˆ r ×t0.01,n−2 < 0, 5296

Page 300: Aspects statistiques de la cartographie des marqueurs moléculaires

où t est la variable de Student

• la distance minimale dmin qui permet de détecter une recombinaison représente la plus petite distance pour laquelle la probabilité binomiale qu’il n’y ait aucun recombinant est inférieure à un seuil donné. Les individus double recombinants que l’on ne peut distinguer des non recombinants sont considérés comme non recombinants, puisqu’ils ne sont pas informatifs par cette approche ; toutefois, ces individus seront rares en raison des faibles valeurs de r associées à ce paramètre.

Probabilité des recombinants (p) :

backcross :

297

Page 301: Aspects statistiques de la cartographie des marqueurs moléculaires

p =r298

Page 302: Aspects statistiques de la cartographie des marqueurs moléculaires

299

Page 303: Aspects statistiques de la cartographie des marqueurs moléculaires

F2 :

300

Page 304: Aspects statistiques de la cartographie des marqueurs moléculaires

p =1− 1−r( )2 +12

r2 ⎡ ⎣ ⎢

⎤ ⎦ ⎥=2r−

32

r2301

Page 305: Aspects statistiques de la cartographie des marqueurs moléculaires

avec r = fréquence de recombinaison entre les locus.

Probabilité binomiale qu’il n’y ait aucun recombinant parmi n individus :

302

Page 306: Aspects statistiques de la cartographie des marqueurs moléculaires

n!

0! n −0( )!p0qn =qn = 1−p( )n303

Page 307: Aspects statistiques de la cartographie des marqueurs moléculaires

A un seuil donné, on a dans le cas d’un backcross :

304

Page 308: Aspects statistiques de la cartographie des marqueurs moléculaires

1−p( )n < 305

Page 309: Aspects statistiques de la cartographie des marqueurs moléculaires

306

Page 310: Aspects statistiques de la cartographie des marqueurs moléculaires

⇔ 1− r( )n < α307

Page 311: Aspects statistiques de la cartographie des marqueurs moléculaires

308

Page 312: Aspects statistiques de la cartographie des marqueurs moléculaires

⇔ n log 1− r( ) < log α( )309

Page 313: Aspects statistiques de la cartographie des marqueurs moléculaires

310

Page 314: Aspects statistiques de la cartographie des marqueurs moléculaires

⇔ 1 − r < 10logα( ) n

311

Page 315: Aspects statistiques de la cartographie des marqueurs moléculaires

d’où :

312

Page 316: Aspects statistiques de la cartographie des marqueurs moléculaires

dmin =1−10 log( )/n313

Page 317: Aspects statistiques de la cartographie des marqueurs moléculaires

de même, dans le cas d’une F2 (marqueurs codominants) :

314

Page 318: Aspects statistiques de la cartographie des marqueurs moléculaires

1 −p=32

r2 −2r +1315

Page 319: Aspects statistiques de la cartographie des marqueurs moléculaires

donc

316

Page 320: Aspects statistiques de la cartographie des marqueurs moléculaires

1−p( )n < 317

Page 321: Aspects statistiques de la cartographie des marqueurs moléculaires

⇔3

2r2 − 2r +1

⎛ ⎝ ⎜ ⎞

⎠ ⎟n

< α318

Page 322: Aspects statistiques de la cartographie des marqueurs moléculaires

319

Page 323: Aspects statistiques de la cartographie des marqueurs moléculaires

⇔3

2r2 − 2r +1 −10

log α( ) n< 0

320

Page 324: Aspects statistiques de la cartographie des marqueurs moléculaires

et :

321

Page 325: Aspects statistiques de la cartographie des marqueurs moléculaires

dmin =2 − 4−6 1−10 log n( )

3

322

Page 326: Aspects statistiques de la cartographie des marqueurs moléculaires

0

10

20

30

40

50

0 30 60 90

% de recombinaison

120 150

n

dmin

dmax (BC)dmax (F2 2codo)dmin (BC)dmin (F2 2codo)

dmax

= 0.01

Fig. 6 — Représentation de dmin et dmax (en % de recombinaison) en fonction de la taille de la population n, dans le cas d’un BC et d’une F2 avec des marqueurs codominants (d'après Tanksley et al., 1988).La Fig. 6 donne les valeurs de dmin et dmax en fonction de la taille de population utilisée. Les populations F2, dans le cas des RFLP, permettent la détection de liaisons plus étroites que ne le permettent les backcross, puisqu’on peut estimer les recombinaisons à partir des méioses du microgamétophyte et du macrogamétophyte (c’est-à-dire, du mâle et de la femelle) ; l’inconvénient est que l’on ne peut alors distinguer la fréquence de recombinaison mâle de la fréquence de recombinaison femelle. Dans le cas d’un backcross, la recombinaison chez un seul des gamétophytes peut être estimée (ce qui peut être un avantage, si le but est d’estimer séparément les fréquences de recombinaison chez le mâle et la femelle).

Dans le cas de marqueurs dominants, comme les RAPD (Random Amplified Polymorphism DNA), la situation est inversée, car on ne distingue en F2 que 4 phénotypes, alors qu’il y a 9 génotypes distincts ; une population F2 est alors moins informative qu’un backcross, surtout si la F1 est en répulsion. Remarquons que l’information — au sens de la variance de l’estimateur de r — apportée par un backcross est la même dans le cas de marqueurs dominants ou codominants. Par contre, pour les marqueurs dominants, certaines conformations ne sont pas informatives en backcross. Par exemple, si on effectue le croisement

323

Page 327: Aspects statistiques de la cartographie des marqueurs moléculaires

Ab

Ab×

aBaB

324

Page 328: Aspects statistiques de la cartographie des marqueurs moléculaires

, la F1 sera

325

Page 329: Aspects statistiques de la cartographie des marqueurs moléculaires

Ab

aB326

Page 330: Aspects statistiques de la cartographie des marqueurs moléculaires

, et le rétrocroisement de la F1 par un des deux parents donnera quatre génotypes :

327

Page 331: Aspects statistiques de la cartographie des marqueurs moléculaires

aB

aB,

Ab

aB,

ab

aB,

AB

aB,

328

Page 332: Aspects statistiques de la cartographie des marqueurs moléculaires

distinguables uniquement si les marqueurs sont codominants.

329

Page 333: Aspects statistiques de la cartographie des marqueurs moléculaires

Utilisation de l’écart-type de

330

Page 334: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r 331

Page 335: Aspects statistiques de la cartographie des marqueurs moléculaires

Une façon complémentaire de comparer l’utilité des populations, consiste à analyser les valeurs de l’écart-type d’une estimation de la fréquence de recombinaison présumée entre deux locus, exprimées en fonction du type et de la taille de la population. On a alors une comparaison directe de la puissance de résolution offerte par chacune des populations. Les Fig. 7 et 8 représentent la comparaison d’une F2 et d’un backcross, dans le cas où les deux marqueurs sont codominants (e.g., marqueurs RFLP), ou dominants (e.g., marqueurs RAPD), pour deux tailles de population. Le cas où un marqueur est dominant et l’autre codominant est aussi intéressant, puisqu’on sera de plus en plus souvent amené à placer sur une même carte des marqueurs RFLP et RAPD.

Comme avec la méthode de Tanksley, il apparaît que, dans le cas de marqueurs codominants (RFLP), la F2 est plus informative que le backcross, alors que c’est le contraire avec des marqueurs dominants (RAPD). Dans les deux cas, la différence d’information entre populations varie avec la fréquence de recombinaison (Fig. 9). Remarquons que l’efficacité relative de deux populations, qui est le rapport des variances de

332

Page 336: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r 333

Page 337: Aspects statistiques de la cartographie des marqueurs moléculaires

, n’est pas influencée par la taille de la population.

On pourra consulter aussi un article donnant quelques lignes directrices concernant le choix du type et de la taille de population, en fonction des objectifs à atteindre (Lorieux et González de León, 1993).

Autres populations

Haploïdes doublés (HD)

L’analyse des gamètes de la F1 conduit à la reconnaissance de 4 génotypes, tous identifiables ; la méthode d’estimation des fréquences de recombinaison est donc la même qu’en backcross, ainsi que la précision des estimations (Snape, 1988 ; Luo et Kearsey, 1991).

Lignées recombinantes (RIL)

Les lignées recombinantes (ou RIL, pour Recombinant Inbred Lines) sont obtenues par une série d’autofécondations successives (ou de croisements entre apparentés pour les animaux, souvent entre frères et sœurs), des individus d’une F2 ; elles présentent plusieurs avantages : (i) on obtient des populations qui ont, après 6 à 8 générations, près de 100% d’homozygotie. On peut donc les conserver

0

0.05

0.1

0.15

0 0.1 0.2 0.3 0.4 0.5

r

BC 1:1:1:1F2 2 codoF2 1co,1dom

F2 2 dom RF2 2 dom C

n = 50

sr

334

Page 338: Aspects statistiques de la cartographie des marqueurs moléculaires

Fig. 7 — Valeur de l'écart-type de la fréquence de recombinaison (sr) en fonction de r, pour 50 individus. BC 1:1:1:1 : Backcross ; F2 2 codo : F2, marqueurs codominants ; F2 1co, 1dom : F2, un marqueur codominant et un marqueur dominant ; F2 2 dom R et F2 2 dom C : F2, marqueurs dominants, répulsion et couplage.

0

0.05

0.1

0.15

0 0.1 0.2

sr

0.3 0.4 0.5

n=100

BC 1:1:1:1

r

F2 2 codo

F2 1co,1dom

F2 2 dom R

F2 2 dom C

Fig. 8 — Même légende que pour la Fig. 7, mais pour n=100.

0

0.2

0.4

0.6

0.8

1

E

1.2

0 0.1 0.2 0.3 0.4 0.5r

BCF2 2 codoF2 1dom1codo

F2 2dom RF2 2dom C

335

Page 339: Aspects statistiques de la cartographie des marqueurs moléculaires

Fig. 9 — Efficacité de l’estimation de r pour différents types de populations, par rapport à une F2, marqueurs codominants. BC : Backcross ; F2 2 codo : F2, marqueurs codominants ; F2 1dom 1codo : F2, un marqueur codominant et un marqueur dominant ; F2 2 dom R et F2 2 dom C : F2, marqueurs dominants, répulsion et couplage.

indéfiniment par autofécondation. (ii) Un autre avantage est la mesure des caractères quantitatifs : en F2, on a une seule mesure par plante. Avec les RIL, on a un grand nombre de mesures, ce qui permet de réduire considérablement l’effet environnemental dans une analyse quantitative. D’autre part, la probabilité qu’une recombinaison ait lieu entre deux locus est plus grande pour les RIL que pour une F2. Ce dernier point est utilisé par certains auteurs pour dire que les RIL donnent des cartes plus précises que les F2 (Burr et al., 1988 ; Burr et Burr, 1991). Nous verrons que ce n’est pas toujours exact (Silver, 1985 ; Silver et Buckler, 1986 ; Blake et al., 1991).

On calcule

336

Page 340: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r

337

Page 341: Aspects statistiques de la cartographie des marqueurs moléculaires

entre deux locus de la façon suivante : d’une façon analogue à un backcross, on compte les lignées (et non plus les individus) qui sont recombinantes entre les deux locus. On obtient alors, en divisant ce nombre par le nombre total de lignées, un pourcentage R de lignées qui sont recombinantes. Haldane et Waddington (1931) ont montré que, pour des lignées recombinantes issues de croisements frères-sœurs (sib-mating), la valeur de la fréquence de recombinaison moyenne r est alors obtenue par la relation :

338

Page 342: Aspects statistiques de la cartographie des marqueurs moléculaires

r =R

4 −6R

339

Page 343: Aspects statistiques de la cartographie des marqueurs moléculaires

et

340

Page 344: Aspects statistiques de la cartographie des marqueurs moléculaires

R =4r

1+ 6r341

Page 345: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.19)

Pour des lignées obtenues par autofécondations, r est obtenue par la relation :

342

Page 346: Aspects statistiques de la cartographie des marqueurs moléculaires

r =R

2 −2R

343

Page 347: Aspects statistiques de la cartographie des marqueurs moléculaires

et

344

Page 348: Aspects statistiques de la cartographie des marqueurs moléculaires

R =2r

1+ 2r345

Page 349: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.20)

On peut construire les courbes R = f(r) pour les deux types de lignées (Fig. 10).

0

10

20

30

40

50

0 10 20 30 40 50

RIL obtenues par autofécondations

r = fréquence de recombinaison moyenne (en %)

R=2r/(1+2r)

0

10

20

30

40

50

0 10 20 30 40 50

RIL obtenues par croisements frères-sœurs

r = fréquence de recombinaison moyenne (en %)

R=4r/(1+6r)

Fig. 10 — Relation entre r et R pour deux types de lignées recombinantes.

Silver (1985) calcule l’écart-type de

346

Page 350: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r 347

Page 351: Aspects statistiques de la cartographie des marqueurs moléculaires

,

348

Page 352: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r 349

Page 353: Aspects statistiques de la cartographie des marqueurs moléculaires

, pour des lignées recombinantes issues de croisements frères-sœurs (sib-mating ; Haldane et Waddington, 1931). Il procède de la façon suivante :

si la probabilité qu’une RIL soit recombinante entre 2 locus est égale à R, alors la probabilité que i RIL parmi N soient recombinantes est donnée par la probabilité binomiale :

350

Page 354: Aspects statistiques de la cartographie des marqueurs moléculaires

Pi =CNi Ri 1−R( )N−i

351

Page 355: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.21)

Puisque Pi est aussi la probabilité d’obtenir une estimation égale à R (R = i/N), les estimations (

352

Page 356: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ R 353

Page 357: Aspects statistiques de la cartographie des marqueurs moléculaires

) suivent une loi binomiale d’écart-type

354

Page 358: Aspects statistiques de la cartographie des marqueurs moléculaires

R 1−R( )[ ]1 2

355

Page 359: Aspects statistiques de la cartographie des marqueurs moléculaires

. L’écart-type

356

Page 360: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r

357

Page 361: Aspects statistiques de la cartographie des marqueurs moléculaires

des estimations (

358

Page 362: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r 359

Page 363: Aspects statistiques de la cartographie des marqueurs moléculaires

) peut être approché en utilisant la formule :

360

Page 364: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r ≈ ∂r ∂R( )×sˆ R361

Page 365: Aspects statistiques de la cartographie des marqueurs moléculaires

. En calculant

362

Page 366: Aspects statistiques de la cartographie des marqueurs moléculaires

∂r ∂R( )

363

Page 367: Aspects statistiques de la cartographie des marqueurs moléculaires

à partir de (1.19), en remplaçant

364

Page 368: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ R

365

Page 369: Aspects statistiques de la cartographie des marqueurs moléculaires

par

366

Page 370: Aspects statistiques de la cartographie des marqueurs moléculaires

R 1−R( )[ ]1 2

367

Page 371: Aspects statistiques de la cartographie des marqueurs moléculaires

, et en exprimant le résultat en fonction de r, on obtient :

368

Page 372: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r ≈1 +6r2

r 1+ 2r( )N

369

Page 373: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.22)

En effet :

370

Page 374: Aspects statistiques de la cartographie des marqueurs moléculaires

∂r

∂R=

∂ R 4 − 6R( )[ ]

∂R=

4

4 − 6R( )2 =1 + 6r

2 ⎛ ⎝ ⎜ ⎞

⎠ ⎟2

371

Page 375: Aspects statistiques de la cartographie des marqueurs moléculaires

et

372

Page 376: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ R =

R 1 −R( )N

=2

1+ 6rr 1 +2r( )

N

373

Page 377: Aspects statistiques de la cartographie des marqueurs moléculaires

d’où

374

Page 378: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r ≈1 +6r2

⎛ ⎝ ⎜ ⎞

⎠ ⎟2 21 +6r

r 1+ 2r( )N

=1+ 6r2

r 1+ 2r( )N

375

Page 379: Aspects statistiques de la cartographie des marqueurs moléculaires

Si on adopte le même raisonnement pour les RIL obtenues par autofécondation (selfing), la relation entre R et r devient :

376

Page 380: Aspects statistiques de la cartographie des marqueurs moléculaires

r =R

2 −2R377

Page 381: Aspects statistiques de la cartographie des marqueurs moléculaires

et

378

Page 382: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r ≈1 +2r

2rN

379

Page 383: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.23)

A partir de l’expression de

380

Page 384: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r 381

Page 385: Aspects statistiques de la cartographie des marqueurs moléculaires

, on peut obtenir celle de ir, qui est l’information par lignée ; nous avons vu précédemment que 

382

Page 386: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r = 1 Niˆ r383

Page 387: Aspects statistiques de la cartographie des marqueurs moléculaires

; donc

384

Page 388: Aspects statistiques de la cartographie des marqueurs moléculaires

iˆ r ≈2 r 1+2r( )2385

Page 389: Aspects statistiques de la cartographie des marqueurs moléculaires

. Cette formule est confirmée par Melchinger (1990).

L’utilisation de ces formules signifie que l’on fait l’hypothèse d’une distribution normale des estimations (

386

Page 390: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r 387

Page 391: Aspects statistiques de la cartographie des marqueurs moléculaires

), ce qui est incorrect si le nombre de lignées est faible. Silver (1985) affirme que l’hypothèse d’une loi binomiale plutôt qu’une loi normale permet d’obtenir des intervalles de confiance des estimations (

388

Page 392: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ r 389

Page 393: Aspects statistiques de la cartographie des marqueurs moléculaires

) plus précis et plus pertinents. Toutefois, lorsqu’on travaille sur des plantes, les effectifs des populations sont souvent assez grands pour pouvoir utiliser l’approximation normale.

0

0.05

0.1

0.15

0 0.1 0.2

sr

0.3 0.4 0.5

BC 1:1:1:1

F2 2 codo

n=100

RIL Self.

r

RIL S.-M.

Fig. 11 — Ecart-type de r en fonction de r, pour n=100. RIL Self. : RIL obtenues par autofécondation ; RIL S.-M. : RIL obtenues par croisements frères-sœurs ; BC 1:1:1:1 : Backcross ; F2 2 codo : F2, marqueurs codominants.Quant à l’intérêt d’utiliser des RIL, on peut se demander si les cartes obtenues sont plus précises qu’avec d’autres populations. S’il est vrai que la probabilité de détecter une recombinaison entre deux locus est plus grande dans le cas des RIL du fait du grand nombre de méioses observées, on peut se demander ce qu’il en est de l’écart-type des fréquences de recombinaison estimées. Nous avons représenté, comme pour les Fig. 7 et 8,

390

Page 394: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r

391

Page 395: Aspects statistiques de la cartographie des marqueurs moléculaires

en fonction de r, afin de comparer les RIL aux autres populations (Fig. 11). Il apparaît sur ce graphique, que, pour des fréquences de recombinaison comprises entre 0 et 0,15, les lignées issues d’autofécondations permettent d’obtenir des estimations plus précises qu’avec un backcross ; mais dès que r dépasse 0,15,

392

Page 396: Aspects statistiques de la cartographie des marqueurs moléculaires

s ˆ r

393

Page 397: Aspects statistiques de la cartographie des marqueurs moléculaires

augmente très rapidement ; ce phénomène est encore accentué pour les RIL issues de croisements frères-sœurs. Pour les RIL issues d’autofécondations, les estimations sont toujours moins précises qu’en F2. Les RIL sont utiles pour des cartes comportant un grand nombre de marqueurs, mais se révèlent être peu intéressantes pour les cartes non saturées.

394

Page 398: Aspects statistiques de la cartographie des marqueurs moléculaires

SATURATION DE LA CARTE

Il est important d’obtenir une carte génétique saturée, c’est à dire qu’aucun gène ne soit éloigné de plus de c cM d’un marqueur sur un génome de taille k cM ; ceci signifie que les marqueurs ne doivent pas être éloignés de plus de 2c cM.

Si on était certain que les marqueurs se répartissent à intervalles réguliers sur le génome, il faudrait seulement k/2c marqueurs. Mais ce n’est bien sûr pas le cas, puisque, même si les marqueurs se répartissent au hasard, il y aura toujours des zones mieux couvertes du simple fait de l’effet statistique ; Lange et Boehnke (1982) ont étudié ce problème : on peut déterminer le nombre m de marqueurs nécessaires pour qu’en moyenne, un pourcentage P donné d’un génome circulaire ne comporte pas de "trou" plus grand que 2c cM. Le choix d’un génome circulaire permet de négliger les effets des fins de chromosomes8 ; Soit k, la longueur totale du génome en cM ; on suppose que les m marqueurs sont disposés au hasard sur le génome ; selon Beckmann et Soller (1983), on aboutit à l’expression suivante :

8Un marqueur situé à l'extrémité d'un chromosome couvre une zone inférieure à 2c cM.

395

Page 399: Aspects statistiques de la cartographie des marqueurs moléculaires

m =log1 −P( )

log 1−2ck

⎛ ⎝ ⎜ ⎞

⎠ ⎟

396

Page 400: Aspects statistiques de la cartographie des marqueurs moléculaires

(1.24)

Démontrons cette formule :

397

Page 401: Aspects statistiques de la cartographie des marqueurs moléculaires

1 −2 c k

398

Page 402: Aspects statistiques de la cartographie des marqueurs moléculaires

représente la probabilité qu’un marqueur tombe au delà de la distance minimale,

399

Page 403: Aspects statistiques de la cartographie des marqueurs moléculaires

1−2c k( )m

400

Page 404: Aspects statistiques de la cartographie des marqueurs moléculaires

représente la probabilité que m marqueurs tombent au delà de la distance minimale,

401

Page 405: Aspects statistiques de la cartographie des marqueurs moléculaires

1 − 1−2c k( )m

402

Page 406: Aspects statistiques de la cartographie des marqueurs moléculaires

représente la probabilité que m marqueurs tombent dans la distance minimale, i.e., P.Si on écrit :

403

Page 407: Aspects statistiques de la cartographie des marqueurs moléculaires

P =1− 1−2 c k( )m404

Page 408: Aspects statistiques de la cartographie des marqueurs moléculaires

, on arrive bien à (1.24).

Pour

405

Page 409: Aspects statistiques de la cartographie des marqueurs moléculaires

m =k 2c406

Page 410: Aspects statistiques de la cartographie des marqueurs moléculaires

, on espère qu’une proportion approximative

407

Page 411: Aspects statistiques de la cartographie des marqueurs moléculaires

e−k

408

Page 412: Aspects statistiques de la cartographie des marqueurs moléculaires

du génome ne soit pas recouverte.

Selon Beckmann et Soller (1983), si l’objectif est l’analyse des liaisons génétiques entre QTL (Quantitative Trait Loci) et marqueurs, ils ne doivent pas être éloignés de plus de 20 cM (centimorgans) l’un de l’autre (marqueurs espacés de 40 cM ; c = 20 cM) ; si, par contre, on veut faire de l’introgression de gènes, les marqueurs ne devront pas être espacés de plus de 20 cM (c = 10 cM) ; les résultats acquis depuis en RFLP permettent d’espérer obtenir des cartes beaucoup plus denses, avec des distances entre marqueurs de 10 cM, et beaucoup moins pour certaines espèces. Le Tableau 8 donne les valeurs de m pour différentes valeurs de P, calculées à partir de (1.24), en fonction de l’espacement c et de la longueur totale du génome k.

Lange et Boehnke (1982) ont montré, au moyen d’une simulation par ordinateur, que les effets des fins de chromosomes engendrent une augmentation de m de 20 à 30% pour la gamme de valeurs de c considérée dans le Tableau 8. Il convient donc de multiplier les valeurs de m trouvées par 1,2 à 1,3 selon le c désiré.

• Ces auteurs proposent une autre approche, qui consiste à déterminer le nombre de marqueurs à utiliser pour qu’il n’y ait pas de "trou" (i.e., de zone dépourvue de marqueur) d’une longueur supérieure à 2d. Ce n’est donc plus P, mais m qui est alors une variable aléatoire. Flatto et Konheim (1962) ont montré que la valeur moyenne de m est

0

10

20

30

40

50

0 500 1000 1500 2000 2500

dmoy

dmax

m

Fig. 12 — Distance maximale et distance moyenne théoriques entre deux marqueurs sur une carte génétique, en fonction du nombre de marqueurs utilisés, m, pour une taille du génome de 1200 cM (12 chromosomes de 100 cM chacun) ; la courbe de distance maximale est donnée pour un seuil de 99%.

409

Page 413: Aspects statistiques de la cartographie des marqueurs moléculaires

E m( )=1+ −1( ) j−1 1−2dj( ) j−1

2dj( ) j+1j=1

2d( )−1[ ]

∑410

Page 414: Aspects statistiques de la cartographie des marqueurs moléculaires

, (1.25)

où [(2d)-1] est la partie entière de (2d)-1. La sous-estimation de m due aux effets des fins de chromosomes est valable aussi pour cette formule.

• Une approche très semblable du problème est effectuée par Tanksley et al. (1988), qui calculent la distance maximale, dmax, que l’on peut trouver entre deux marqueurs en fonction du nombre de marqueurs m, à un seuil de probabilité approprié, étant donnée une taille définie du génome. La probabilité de trouver des "trous" supérieurs à cette distance est inférieure à (1-. Cette variable mesure le degré auquel toutes les régions du génome sont recouvertes. Les estimations de dmax sont basées sur la distribution de Poisson, et sur l’hypothèse que les valeurs des fréquences de

recombinaison sont additives (Fig. 12) ; on voit sur cette figure que, si la taille du génome étudié est de 1200 cM (12 chromosomes de 100 cM chacun), il faudra utiliser 500 marqueurs pour obtenir une carte pour laquelle la probabilité d’avoir un "trou" de plus de 10 cM est inférieure à 1% ; la distance moyenne entre marqueurs est alors de 2,4 cM.

Remarquons que ces calculs ne sont réellement valables que si la répartition des sites de restriction des enzymes utilisés est aléatoire ; en effet, si pour une raison quelconque, les sites de restriction avaient tendance à se regrouper sur certaines zones du génome, la probabilité de trouver des trous d’une taille donnée dans la carte serait modifiée. D’autre part, si on effectue un croisement intraspécifique, des régions entières du génome peuvent être monomorphes ; c’est le cas chez le riz (Oryza sativa sp.), par exemple.

On trouvera d’autres méthodes similaires pour déterminer le nombre de marqueurs nécessaires dans Elsen (1993).

411

Proportion de

Taille du génome (k) et espacement (c), en cM

recouvrement

k = 1000 k = 2000 k = 3000

du génome c = 10 c = 20 c = 10 c = 20 c = 10 c = 200,50 41 22 83 45 124 670,60 54 29 109 59 164 890,70 71 38 144 77 215 1170,80 96 51 192 104 287 1560,90 137 73 275 148 411 2240,95 178 95 358 193 535 291

Tableau 8 — Nombre de marqueurs nécessaires pour obtenir une proportion de recouvrement (P) du génome, en fonction de la taille du génome (k) et de l’espacement maximal (c), en cM, entre les marqueurs. Afin de prendre en compte les effets des fins de chromosomes, les valeurs du tableau sont celles données par l’expression (I.21), multipliées par 1,2 et 1,3 pour c = 10 et c = 20 respectivement. Voir le texte pour les détails (d’après Beckmann et Soller, 1983).

Page 415: Aspects statistiques de la cartographie des marqueurs moléculaires

ESTIMATION DE LA TAILLE DU GÉNOME

La taille du génome est définie ici par la somme des tailles des groupes de liaison (en cM). Lorsque la carte n’est que partiellement saturée du fait d'un nombre de marqueurs insuffisant, cette somme est inférieure à celle que l’on obtiendrait si elle était saturée. L'estimation de la taille du génome peut alors servir à calculer le nombre de marqueurs qu’il faudrait ajouter à la carte en cours de réalisation pour obtenir une carte saturée à un niveau donné (voir paragraphe précédent). Elle peut servir aussi à établir une relation entre distance de carte (en cM) et distance physique (en nombre de paires de bases nucléotidiques).

Hulbert et al. (1988) et Chakravarti et al. (1991) proposent des méthodes différentes pour estimer la taille du génome à partir d’une carte peu dense ; nous présentons ici la première. Les auteurs considèrent le cas d’un backcross.

Soient :

G : longueur du génome en cMP(T,G) : probabilité que le LOD score d’une paire de marqueurs prise au hasard soit supérieur ou égal à Tm : nombre de marqueurs placés sur la carten : nombre de méioses informatives (pour un backcross, c'est le nombre d'individus).

Le principe de la méthode est basé sur le fait que P(T,G) dépend directement de G. En connaissant la relation entre G et P(T,G), et en estimant P(T,G), on peut obtenir une estimation de G.

Le nombre espéré de paires de marqueurs ayant un LOD ≥ T est

412

Page 416: Aspects statistiques de la cartographie des marqueurs moléculaires

1

2m m −1( )P T,G( )413

Page 417: Aspects statistiques de la cartographie des marqueurs moléculaires

. Si le nombre réel de telles paires est K, alors un estimateur de P(T,G) est donné par l’équation

414

Page 418: Aspects statistiques de la cartographie des marqueurs moléculaires

P T, G( ) =K12

mm−1( ) ⎛ ⎝ ⎜ ⎞

⎠ ⎟415

Page 419: Aspects statistiques de la cartographie des marqueurs moléculaires

, qui égale la probabilité des paires de marqueurs ayant un LOD ≥ T à leur fréquence observée. Il reste à déterminer la fonction P(T,G), ce qui demande une double intégration, d’abord sur X, la distance entre les marqueurs, puis sur la probabilité que le LOD soit supérieur à T sachant X. On montre qu’une approximation du premier ordre est donnée par

416

Page 420: Aspects statistiques de la cartographie des marqueurs moléculaires

P T, G( ) =2XG

417

Page 421: Aspects statistiques de la cartographie des marqueurs moléculaires

, où X = X(T) est la distance entre deux marqueurs pour laquelle la valeur espérée du LOD est T. G est alors donnée par :

418

Page 422: Aspects statistiques de la cartographie des marqueurs moléculaires

G =m m−1( )XK

419

Page 423: Aspects statistiques de la cartographie des marqueurs moléculaires

où X et K dépendent du LOD et du seuil T. Différents seuils peuvent être essayés pour obtenir plusieurs estimations de G.

Il faut déterminer X = X(T). Pour une méiose unique, le LOD score espéré (Lander et al., 1986) pour une paire de marqueurs liés à une distance X est :

420

Page 424: Aspects statistiques de la cartographie des marqueurs moléculaires

ELOD X( ) =θ log 2θ( ) + 1 −θ( ) log 2 −2θ( )421

Page 425: Aspects statistiques de la cartographie des marqueurs moléculaires

,

où θ est la fréquence de recombinaison qui correspond à la distance X. Pour un nombre n de méioses, la valeur de X est donnée par l’équation T = n 

422

Page 426: Aspects statistiques de la cartographie des marqueurs moléculaires

×423

Page 427: Aspects statistiques de la cartographie des marqueurs moléculaires

ELOD(X).

Prenons l'exemple de la cartographie du génome des agrumes (Luro, 1993 ; Lorieux, 1993). À partir d'un croisement assimilable à un test-cross, 104 marqueurs ont été cartographiés en douze groupes de liaison (pour 2n = 2x = 18), dont la somme des longueurs est de 1291 cM (fonction de Haldane). Le nombre d'individus (n) est de 52. La constitution des groupes a été réalisée avec un LOD ≥ 3. Pour estimer la taille du génome que l'on aurait obtenue avec un nombre de marqueurs suffisant pour saturer le génome, on a besoin des deux paramètres suivants : K et X. K est facilement obtenu grâce au logiciel MapMaker (version 2.0 pour Macintosh), au moyen de la commmande "TwoPoint/LODs...", qui donne la liste de toutes les paires de marqueurs pour lesquelles LOD ≥ T. Pour T = 3, qui est le seuil utilisé pour constituer les groupes, on obtient K = 218 paires de marqueurs (remarque : il convient de diviser par 2 le nombre de paires comptées dans la liste donnée par MapMaker, car pour deux marqueurs A et B, la liste donne les paires A-B et B-A). Pour n  = 52 et T = 3, X est obtenue en résolvant l'équation

424

Page 428: Aspects statistiques de la cartographie des marqueurs moléculaires

θ log 2θ( ) + 1− θ( )log 2 − 2θ( ) = 3 / 52425

Page 429: Aspects statistiques de la cartographie des marqueurs moléculaires

, puis en convertissant la fréquence de recombinaison θ en distance de carte au moyen de la fonction de Haldane. On obtient θ = 24,8 % et X = 34,3 cM. L'estimation de la taille du génome est alors donnée par :

426

Page 430: Aspects statistiques de la cartographie des marqueurs moléculaires

G =m m−1( )XK

=104 ×103 ×34, 3218

=1685 cM427

Page 431: Aspects statistiques de la cartographie des marqueurs moléculaires

,

ce qui est nettement supérieur à la valeur obtenue en additionnant les tailles des groupes. De même, pour T = 2, on obtient G = 1562 cM, et pour T = 4, on obtient G = 1830 cM.

L’avantage de cette méthode est qu’elle ne nécessite pas de connaître le nombre de chromosomes. Mais il n’est pas possible de déterminer de façon simple l’écart-type de l’estimateur de G, ce qui oblige à prendre beaucoup de précautions quand à l'interprétation des résultats obtenus. D'autre part, les résultats obtenus dépendent du seuil de LOD retenu.

La méthode de Chakravarti (Chakravarti et al., 1991) donne un estimateur MLE de variance connue, mais à condition de supposer que les chromosomes ont tous la même longueur, et qu’il n’y a pas d’interférence. Dans cette méthode, une équation de vraisemblance est déterminée à partir de la distribution théorique de la fréquence de recombinaison entre deux marqueurs sur un génome de taille donnée. Selon les auteurs, l’estimation est plus précise que la méthode des moments donnée par Hulbert et al., sauf si les données sont complètes et si les chromosomes sont d’égales longueurs.

428

Page 432: Aspects statistiques de la cartographie des marqueurs moléculaires

CONCLUSION

On peut faire plusieurs remarques quant à la validité des cartes obtenues en utilisant les diverses méthodes de cartographie existantes.

Le "niveau de confiance" que l’on peut accorder à une carte est déterminé par le type et la taille de la population utilisée, par les hypothèses émises sur la génétique de la plante, par le nombre et le type de marqueurs utilisés, et finalement par les algorithmes utilisés pour déterminer l’ordre des marqueurs et leurs distances respectives. Il est important de respecter les limites de précision imposées d’une part, par la taille et le type de la population, et d’autre part, par le mode de ségrégation des marqueurs (dominant — codominant).

En F2, les marqueurs dominants ne sont à utiliser que lorsque les marqueurs codominants sont indisponibles. D’une part, ils sont trop peu informatifs, et conduisent à des estimations peu précises des fréquences de recombinaison, donc à des cartes peu fiables. D’autre part, ils ne permettent pas toujours de distinguer les individus recombinants des non recombinants, par exemple dans un croisement entre parents hétérozygotes (Ritter et al., 1990).

La question des fonctions de cartographie se pose à chaque nouvelle construction de carte ; aucune fonction n’est universelle, et de ce fait le choix d’une fonction est un peu arbitraire, même si la fonction de Kosambi semble, en général, mieux s’ajuster aux données que celle de Haldane. Cet embarras se retrouve dans les publications : les auteurs n’indiquent généralement pas la raison pour laquelle ils ont choisi une fonction. Il pourrait être intéressant de mesurer l’interférence pour chaque cartographie, et de rechercher une éventuelle liaison entre la fréquence de recombinaison et le coefficient de coïncidence, afin d’en déduire une fonction de cartographie propre au croisement étudié, et d’en tenir compte dans l’analyse multipoint et dans la conversion des fréquences de recombinaison en distances de carte. Toutefois, de grandes tailles de populations seraient nécessaires pour une analyse fine de l’interférence.

Selon le but poursuivi, on aura besoin d’une carte plus ou moins dense : carte moyennement dense (i.e., un marqueur tous les 40 cM en moyenne) pour la recherche de QTL, plus dense (i.e., un marqueur tous les 20 cM en moyenne) pour l’introgression de gènes (Beckmann et Soller, 1983) ; dans les deux cas, la question est de savoir s’il est préférable de cartographier un très grand nombre de marqueurs, avec tous les problèmes de détermination de l’ordre de locus très liés, ou bien d’utiliser moins de marqueurs, mais en étant finalement en possession d’une carte très fiable au niveau de l’ordre des locus.

Ajoutons que la carte obtenue est celle du croisement utilisé, et non celle de l’espèce en général : plusieurs données bibliographiques montrent qu’au sein d’une même espèce, ou d’une même variété cultivée, les fréquences de recombinaison varient beaucoup selon le croisement, cette variation étant bien supérieure à l’écart-type attendu (voir,

429

Page 433: Aspects statistiques de la cartographie des marqueurs moléculaires

par exemple, Cornu et al., 1989 ; Fatmi et al., 1993). Pour une même espèce, on peut donc construire plusieurs cartes à partir de différents croisements, que l’on espère complémentaires entre elles.

Tous les algorithmes de cartographie actuellement développés sont construits sur l’hypothèse que les marqueurs ont une ségrégation mendélienne, c’est à dire conforme à la ségrégation attendue. Cette hypothèse peut conduire à des erreurs. Il faut donc chercher des méthodes possibles de cartographie lorsque la ségrégation des marqueurs n’est pas mendélienne, c’est à dire, lorsqu’il y a des distorsions de ségrégation (Lorieux, 1993 ; Lorieux et al, a et b).

430

Page 434: Aspects statistiques de la cartographie des marqueurs moléculaires

RÉFÉRENCES BIBLIOGRAPHIQUES

Allard R.W. 1956. Formulas and tables to facilitate the calculation of recombination values in heredity. Hilgardia 24: 235-278.

Antonarakis S.E., J.A. Phillips, R. Malloney et collaborateurs. 1983. ß-Globin locus is linked to the parathyroid hormone (PTH) locus and lies between the insulin and PTH loci in man. Proc. Natl. Acad. Sci. USA 80: 6615-6619.

Bailey N.T.J. 1949. The estimation of linkage with differential viability, II and III. Heredity 3: 220-228.

Bailey N.T.J. 1961. Introduction to the Mathematical Theory of Genetic Linkage. Clarendon Press, Oxford, 298 pp.

Barnard G.A. 1949. Statistical inference. J. Roy. Stat. Soc. B11: 115-135.

Beckmann J.S. et M. Soller. 1983. Restriction fragment length polymorphisms in genetic improvement : methodologies, mapping and costs. Theor. Appl. Genet. 67: 35-43.

Beckmann J.S. et M. Soller. 1986. Restriction fragment length polymorphisms in plant genetic improvement. Oxford Surveys of Plant Molecular and Cell Biology 3: 196-250.

Blake T., N. Lybeck et P. Hayes. 1991. Good, bad and untested ideas in RFLP and QTL analyses. Plant Breeding Abstracts 61: 1-7.

Burr B., F.A. Burr, K.H. Thompson, M.C. Albertson et C.W. Stuber. 1988. Gene mapping with recombinant inbreds in maize. Genetics 118: 519-526.

Burr B. et F.A. Burr. 1991. Recombinant inbreds for molecular mapping in maize : theoretical and practical considerations. Trends Genet. 7: 55-60.

Cantet R.J.C. et C. Smith. 1991. Reduced animal model for marker assisted selection using best linear unbiased prediction. Génét. Sél. Evol. 23: 221-233.

Carter T.C. et D.C. Falconer. 1951. Stocks for detecting linkage in the mouse and the theory of their design. J. Genet. 50: 307-323.

Chakravarti A., L.K. Lasher et J.E. Reefer. 1991. A maximum likelihood method for estimating genome length using genetic linkage data. Genetics 128: 175-182.

Cornu A., E. Farcy et C. Mousset. 1989. A genetic basis for the variations in meiotic recombination in Petunia hybrida. Genome 32: 46-53.

Crow J.F. 1990. Mapping functions. Genetics 125: 669-671.

431

Page 435: Aspects statistiques de la cartographie des marqueurs moléculaires

Darvasi A. et J.I. Weller. 1992. On the use of the moments method of estimation to obtain approximate maximum likelihood estimates of linkage between a genetic marker and a quantitative locus. Heredity 68: 43-46.

de Vicente M.C. et S.D. Tanksley. 1991. Genome-wide reduction in recombination of backcross progeny derived from male versus femele gametes in an interspecific cross of tomato. Theor. Appl. Genet. 83: 173-178.

de Vienne D. 1984. Limites et perspectives des marqueurs moléculaires. Le sélectionneur français 33: 35-46.

Dempster A.P., N.M. Laird et D.B. Rubin. 1977. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society 39: 1-38.

Echt C., S. Knapp et B.-H. Liu. 1992. Genome mapping with non-inbred crosses using GMendel 2.0. In: Maize Genetics Corporation Newsletter 66 , p. 27-29

Edwards. 1972. Likelihood. The John Hopkins University Press, Baltimore, 275 pp.

Elsen J.M. 1993. Detection and use of marker genes in farm animals. In: Liège, Belgique, 12-16 juillet 1993, INRA-SAGA, 31326 Castanet Tolosan, France, p. 1-117.

Elston R.C. et J. Stewart. 1971. A general model for the analysis of pedigree data. Human Heredity 21: 523-542.

Fatmi A., C.G. Poneleit et T.W. Pfeiffer. 1993. Variability of recombination frequencies in the Iowa Stiff Stalk Synthetic (Zea mays L.). Theor. Appl. Genet. 86: 859-866.

Felsenstein J. 1979. A mathematically tractable family of genetic mapping functions with different amounts of interference. Genetics 91: 769-775.

Fisher R.A. 1922. On the mathematical foundations of theoretical statistics. Phil. Trans. Roy. Soc. A 222: 309-368. Reprinted in Fisher (1950).

Fisher R.A. et B. Balmukand. 1928. The estimation of linkage from the offspring of selfed heterozygotes. J. Genet. 20: 79-92.

Fisher R.A. 1937. The design of experiments. 2nde édition. Oliver and Boyd, Edinburgh ; London, 260 pp.

Fisher R.A. 1954. Statistical methods for research workers. Oliver and Boyd, Edinburgh, 351 pp.

Flatto L. et A.G. Konheim. 1962. The random division of an interval and the random covering of a circle. Siam. Rev. 4: 211-222.

Funke R.P., A. Kolchinsky et P.M. Gresshoff. 1993. Physical mapping of a region in the soybean (Glycine max) genome containing duplicated sequences. Plant Mol. Biol. 22: 437-446.

432

Page 436: Aspects statistiques de la cartographie des marqueurs moléculaires

Ganal M.W., M.W. Bonierbale, M.S. Roeder, W.D. Park et S.D. Tanksley. 1991. Genetic and physical mapping of the patatin genes in potato and tomato. Mol. Gen. Genet. 225: 501-509.

Green M.C. 1963. Methods for testing linkage. In: Methodology in Mammalian Genetics , Burdette, p. 56-82

Haldane J.B.S. 1919. The combination of linkage values, and the calculation of distance between the loci of linked factors. J. Genet. 8: 299-309.

Haldane J.B.S. et C. Waddington. 1931. Inbreeding and linkage. Genetics 16: 357-374.

Helentjaris T., M. Slocum, S. Wright, A. Schaefer et J. Nienhuis. 1986. Construction of genetic linkage maps in maize and tomato using restriction fragment length polymorphisms. Theor. Appl. Genet. 72: 761-769.

Hoisington D.A. et E.H. Coe. 1990. Mapping in maize using RFLPs. In: Gene Manipulation in Plant Improvement II , Plenum Press, J.P. Gustafson, New York, p. 331-352

Hulbert S.H., T.W. Ilott, E.J. Legg, S.E. Lincoln, E.S. Lander et R.W. Michelmore. 1988. Genetic analysis of the fungus, Bremia lactucae, using restriction fragment length polymorphisms. Genetics 120: 947-958.

James J. 1991. Estimation of relations between genetic markers and quantitative traits. Erasmus course, Wageningen, 2-6 septembre 1991

Kochert G. 1989. Introduction to RFLP mapping and plant breeding applications. Rockfeller Foundation.

Kosambi D.D. 1944. The estimation of map distance from recombination values. Ann. Eug. 12: 172-175.

Lande R. et R. Thompson. 1990. Efficiency of marker-assisted selection in the improvement of quantitative traits. Genetics 124: 743-756.

Lander E.S. et D. Botstein. 1986. Strategies for studying heterogeneous genetic traits in humans by using a linkage map of restriction fragment length polymorphisms. Proc. Natl. Acad. Sci. USA 83: 7353-7357.

Lander E.S. et P. Green. 1987. Construction of multilocus genetic linkage maps in humans. Proc. Natl. Acad. Sci. USA 84: 2363-2367.

Lander E.S., P. Green, J. Abrahamson, A. Barlow, M.J. Daly, S.E. Lincoln et L. Newburg. 1987. Mapmaker : an interactive computer package for constructing primary genetic linkage maps of experimental and natural populations. Genomics 1: 174-181.

Lander E.S. et D. Botstein. 1989. Mapping mendelian factors underlying quantitative traits using RFLP linkage maps. Genetics 121: 185-199.

Lange K. et M. Boehnke. 1982. How many polymorphic marker genes will it take to span the human genome ? Am. J. Hum. Genet. 34: 842-845.

433

Page 437: Aspects statistiques de la cartographie des marqueurs moléculaires

Lathrop G.M. et J.M. Lalouel. 1984. Easy calculation of lod scores and genetic risks on small computers. Am. J. Hum. Genet. 36: 460-465.

Lathrop G.M., J.M. Lalouel, C. Julier et J. Ott. 1984. Strategies for multilocus linkage analysis in humans. Proc. Natl. Acad. Sci. USA 81: 3443-3446.

Lathrop G.M., J.M. Lalouel, C. Julier et J. Ott. 1985. Multilocus linkage analysis in humans : detection of linkage and estimation of recombination. Am. J. Hum. Genet. 37: 482-498.

Lathrop G.M. et J.-M. Lalouel. 1988. Efficient computations in multilocus linkage analysis. Am. J. Hum. Genet. 42: 498-505.

Lefort-Buson M., F. Rodolphe et A. Charcosset. 1990. De nouvelles perspectives pour l'analyse génétique des caractères quantitatifs (1ère partie). Biofutur 30-37.

Lincoln S.E. et E.S. Lander. 1992. Systematic detection of errors in genetic linkage data. Genomics 14: 604-610.

Lorieux M., B. Goffinet, X. Perrier, D. González de León et C. Lanaud. a. Maximum likelihood models for mapping genetic markers showing segregation distortions. 1. Backcross populations. Soumis pour publication.

Lorieux M., X. Perrier, B. Goffinet, C. Lanaud et D. González de León. b. Maximum likelihood models for mapping genetic markers showing segregation distortions. 2. F2

populations. Soumis pour publication.

Lorieux M. 1993. Cartographie des Marqueurs Moléculaires et Distorsions de Ségrégation : Modèles Mathématiques. Thèse de Doctorat. Université de Montpellier II, Sciences et Techniques du Languedoc.

Lorieux M. et D. González de León. 1993. Mapping populations : a few guidelines for prospective developers. In: Proc. of INIBAP Workshop on Biotechnology for Banana and Plantain, San Jose, Costa Rica, p. 46-51.

Luo Z.W. et M.J. Kearsey. 1991. Maximum likelihood estimation of linkage between a marker gene and a quantitative locus. II. Application to backcross and doubled haploid populations. Heredity 66: 117-124.

Luro F. 1993. Utilisation des marqueurs moléculaires pour la cartographie du génome et les études génétiques chez les agrumes. Thèse de Doctorat. Bordeaux II.

Mangin B. 1991. Construction de cartes génétiques : quelques méthodes. In: Méribel 91, Méribel, France, p. 1-4.

Mather K. 1957. The measurement of linkage in heredity. Methuen & Co., London, 149 pp.

Melchinger A.E. 1990. Use of molecular markers in breeding for oligogenic disease resistance. Plant Breeding 104: 1-19.

434

Page 438: Aspects statistiques de la cartographie des marqueurs moléculaires

Meng X.-L. et D.B. Rubin. 1993. Maximum likelihood estimation via the ECM algorithm: A general framework. Biometrika 80: 267-278.

Morgan T.H., C.B. Bridges et J. Schultz. 1935. Report of investigations on the constitution of the germinal material in relation to heredity. Carnegie Inst. Washington Yearbook 34: 284-291.

Morton N. 1955. Sequential tests for the detection of linkage. Am. J. Hum. Genet. 7: 277-318.

Morton N.E. et C.J. MacLean. 1984. Multilocus recombination frequencies. Genet. Res., Camb. 44: 99-108.

Morton N.E., C.J. MacLean et R. Lew. 1985. Tests of hypotheses on recombination frequencies. Genet. Res., Camb. 45: 279-280.

Ott J. 1976. A computer program for linkage analysis of general human pedigrees. Am. J. Hum. Genet. 28: 528-529.

Ott J. 1985. Analysis of human genetic linkage. MD John Hopkins Press, Baltimore, 302 pp.

Pascoe L. et N.E. Morton. 1987. The use of map functions in multipoint mapping. Am. J. Hum. Genet. 40: 174-183.

Rai S.N. et D.E. Matthews. 1993. Improving the EM algorithm. Biometrics 49: 587-591.

Rao D.C., N.E. Morton, J. Lindsten, M. Hulten et S. Yee. 1977. A mapping function for man. Human Heredity 27: 99-104.

Ritter E., C. Gebhardt et F. Salamini. 1990. Estimation of recombination frequencies and construction of RFLP linkage maps in plants from crosses between heterozygous parents. Genetics 125: 645-654.

Saporta G. 1990. Probabilités, analyse des données et statistiques. Editions Technip, 27 rue Ginoux 75737 Paris Cedex 15, 484 pp.

Silver J. 1985. Confidence limits for estimates of gene linkage based on analysis of recombinant inbred strains. The Journal of Heredity 76: 436-440.

Silver J.S. et C.E. Buckler. 1986. Statistical considerations for linkage analysis using recombinant inbred strains and backcrosses. Proc. Natl. Acad. Sci. USA 83: 1423-1427.

Snape J.W. 1988. The detection and estimation of linkage using doubled haploid or single seed descent populations. Theor. Appl. Genet. 76: 125-128.

Stuber C.W. 1989. Marker Based Selection for Quantitative Traits. Vorträge für Pflanzenzüchtung 16: 31-49.

435

Page 439: Aspects statistiques de la cartographie des marqueurs moléculaires

Tanksley S.D., J. Miller, A. Paterson et R. Bernatsky. 1988. Molecular Mapping of Plant Chromosomes. In: Chromosome Structure and Function: impact of new concepts , Plenum Press, J.P. Gustafson et R. Appels, New York, p. 157-173

Wu C.J. 1983. On the convergence properties of the EM algorithm. The Annals of Statistics 11: 95-103.

436

Page 440: Aspects statistiques de la cartographie des marqueurs moléculaires

ANNEXE 1

Algorithme de Newton-Raphson appliqué à la résolution d’une équation de vraisemblance.

(Voir Edwards, 1972.)

Un paramètre à estimer

Le problème est de trouver la valeur du paramètre

437

Page 441: Aspects statistiques de la cartographie des marqueurs moléculaires

θ

438

Page 442: Aspects statistiques de la cartographie des marqueurs moléculaires

qui maximise la log-vraisemblance (L), ou qui annule sa dérivée

439

Page 443: Aspects statistiques de la cartographie des marqueurs moléculaires

∂L ∂θ440

Page 444: Aspects statistiques de la cartographie des marqueurs moléculaires

. Notons que la solution la plus simple est de construire la courbe de

441

Page 445: Aspects statistiques de la cartographie des marqueurs moléculaires

∂L ∂θ

442

Page 446: Aspects statistiques de la cartographie des marqueurs moléculaires

en fonction de

443

Page 447: Aspects statistiques de la cartographie des marqueurs moléculaires

θ444

Page 448: Aspects statistiques de la cartographie des marqueurs moléculaires

, et de voir où se fait l’intersection entre la courbe et l’axe des

445

Page 449: Aspects statistiques de la cartographie des marqueurs moléculaires

θ446

Page 450: Aspects statistiques de la cartographie des marqueurs moléculaires

Cette solution est très lourde à employer quand un grand nombre de valeurs doivent être estimées. De plus, elle n’est pas généralisable à l’estimation de plusieurs paramètres.

Donnons une valeur initiale

447

Page 451: Aspects statistiques de la cartographie des marqueurs moléculaires

′ θ

448

Page 452: Aspects statistiques de la cartographie des marqueurs moléculaires

à l’estimateur. Soit

449

Page 453: Aspects statistiques de la cartographie des marqueurs moléculaires

T θ( )=∂L ∂θ450

Page 454: Aspects statistiques de la cartographie des marqueurs moléculaires

. Le théorème de Taylor nous donne

451

Page 455: Aspects statistiques de la cartographie des marqueurs moléculaires

T ˆ θ ( )=0=T ′ θ ( ) + ˆ θ − ′ θ ( )∂T∂θ

+…452

Page 456: Aspects statistiques de la cartographie des marqueurs moléculaires

453

Page 457: Aspects statistiques de la cartographie des marqueurs moléculaires

∂T ∂θ = ∂ 2 L ∂θ 2

454

Page 458: Aspects statistiques de la cartographie des marqueurs moléculaires

est l’opposée de l’information observée calculée à

455

Page 459: Aspects statistiques de la cartographie des marqueurs moléculaires

′ θ 456

Page 460: Aspects statistiques de la cartographie des marqueurs moléculaires

. La résolution de cette équation donne une valeur approchée de

457

Page 461: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ θ 458

Page 462: Aspects statistiques de la cartographie des marqueurs moléculaires

, appelée

459

Page 463: Aspects statistiques de la cartographie des marqueurs moléculaires

′ ′ θ 460

Page 464: Aspects statistiques de la cartographie des marqueurs moléculaires

:

461

Page 465: Aspects statistiques de la cartographie des marqueurs moléculaires

′ ′ θ = ′ θ −T ′ θ ( )∂T

∂θ= ′ θ −

∂L

∂θ

∂ 2L

∂θ 2

462

Page 466: Aspects statistiques de la cartographie des marqueurs moléculaires

où les dérivées sont calculées à

463

Page 467: Aspects statistiques de la cartographie des marqueurs moléculaires

θ = ′ θ 464

Page 468: Aspects statistiques de la cartographie des marqueurs moléculaires

. Une valeur corrigée est donc obtenue en ajoutant à l’ancienne valeur, le produit de la variance observée par la dérivée partielle de L par rapport à

465

Page 469: Aspects statistiques de la cartographie des marqueurs moléculaires

′ θ 466

Page 470: Aspects statistiques de la cartographie des marqueurs moléculaires

.

Des itérations selon cette formule conduisent, sous des conditions assez générales, à

467

Page 471: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ θ 468

Page 472: Aspects statistiques de la cartographie des marqueurs moléculaires

. On montre que si la courbe

469

Page 473: Aspects statistiques de la cartographie des marqueurs moléculaires

∂L ∂θ = f θ( )

470

Page 474: Aspects statistiques de la cartographie des marqueurs moléculaires

est une parabole parfaite,

471

Page 475: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ θ

472

Page 476: Aspects statistiques de la cartographie des marqueurs moléculaires

est atteinte en une seule itération. Dans ce cas, la maximisation analytique serait d’ailleurs possible.

Plusieurs paramètres à estimer

L’expansion de Taylor autour des estimateurs du maximum de vraisemblance des paramètres donne

473

Page 477: Aspects statistiques de la cartographie des marqueurs moléculaires

T ˆ θ ( )=0=T ′ θ ( )−B ˆ θ − ′ θ ( )+…474

Page 478: Aspects statistiques de la cartographie des marqueurs moléculaires

où B la matrice d’information observée. Si on néglige les termes d’ordre supérieur, on obtient un vecteur approximatif des

475

Page 479: Aspects statistiques de la cartographie des marqueurs moléculaires

ˆ θ 476

Page 480: Aspects statistiques de la cartographie des marqueurs moléculaires

,

477

Page 481: Aspects statistiques de la cartographie des marqueurs moléculaires

′ ′ θ 478

Page 482: Aspects statistiques de la cartographie des marqueurs moléculaires

479

Page 483: Aspects statistiques de la cartographie des marqueurs moléculaires

B ˆ θ − ′ θ ( ) =T ′ θ ( ),

′ ′ θ = ′ θ + B−1T ′ θ ( )

480

Page 484: Aspects statistiques de la cartographie des marqueurs moléculaires

Un vecteur corrigé est donc obtenu en ajoutant à l’ancien vecteur, le produit de la matrice observée des variances-covariances par le vecteur des dérivées partielles de L par rapport aux paramètres.

481

Page 485: Aspects statistiques de la cartographie des marqueurs moléculaires

ANNEXE 2

Algorithme EM.

L’algorithme EM a été développé par Dempster et al. (1977) pour calculer des estimateurs du maximum de vraisemblance dans le cas où les données sont "incomplètes". Les auteurs ont montré le comportement monotone de la vraisemblance et la convergence de l’algorithme. Chaque itération comprend une étape d’estimation et une étape de maximisation, d’où l’expression EM (pour Expectation — Maximization). Le terme "données incomplètes" ne signifie pas qu’il y a des données manquantes, mais que les données sont incomplètement informatives. Prenons l’exemple de l’analyse de la coségrégation de deux marqueurs, A et B, dans une population F2. Si ces marqueurs sont dominants, alors il n’y aura que quatre classes phénotypiques (AB, Ab, aB et ab). Ces données sont incomplètes, au sens où chacune des classes AB, Ab et aB correspond à l’expression de plusieurs génotypes. Soit r, la fréquence de recombinaison entre A et B, et

482

Page 486: Aspects statistiques de la cartographie des marqueurs moléculaires

θ = 1 − r( )2483

Page 487: Aspects statistiques de la cartographie des marqueurs moléculaires

. Les fréquences théoriques respectives des quatre classes sont alors

484

Page 488: Aspects statistiques de la cartographie des marqueurs moléculaires

1 2 + θ 4485

Page 489: Aspects statistiques de la cartographie des marqueurs moléculaires

,

486

Page 490: Aspects statistiques de la cartographie des marqueurs moléculaires

1−θ( ) 4487

Page 491: Aspects statistiques de la cartographie des marqueurs moléculaires

,

488

Page 492: Aspects statistiques de la cartographie des marqueurs moléculaires

1−θ( ) 4

489

Page 493: Aspects statistiques de la cartographie des marqueurs moléculaires

et

490

Page 494: Aspects statistiques de la cartographie des marqueurs moléculaires

θ 4491

Page 495: Aspects statistiques de la cartographie des marqueurs moléculaires

, avec

492

Page 496: Aspects statistiques de la cartographie des marqueurs moléculaires

0 ≤θ ≤1493

Page 497: Aspects statistiques de la cartographie des marqueurs moléculaires

. Appelons les effectifs observés correspondants a, b, c et d. La vraisemblance s’écrit alors, à une constante polynomiale près

494

Page 498: Aspects statistiques de la cartographie des marqueurs moléculaires

e L = 1 2 +θ 4( )a 1 4 −θ 4( )b 1 4 −θ 4( )c θ 4( )d495

Page 499: Aspects statistiques de la cartographie des marqueurs moléculaires

Pour illustrer l’algorithme EM, considérons que les données incomplètes observées proviennent d’une population polynomiale divisée en cinq catégories de fréquences théoriques

496

Page 500: Aspects statistiques de la cartographie des marqueurs moléculaires

1 2497

Page 501: Aspects statistiques de la cartographie des marqueurs moléculaires

,

498

Page 502: Aspects statistiques de la cartographie des marqueurs moléculaires

θ 4499

Page 503: Aspects statistiques de la cartographie des marqueurs moléculaires

,

500

Page 504: Aspects statistiques de la cartographie des marqueurs moléculaires

1−θ( ) 4501

Page 505: Aspects statistiques de la cartographie des marqueurs moléculaires

,

502

Page 506: Aspects statistiques de la cartographie des marqueurs moléculaires

1−θ( ) 4

503

Page 507: Aspects statistiques de la cartographie des marqueurs moléculaires

et

504

Page 508: Aspects statistiques de la cartographie des marqueurs moléculaires

θ 4505

Page 509: Aspects statistiques de la cartographie des marqueurs moléculaires

, l’idée étant de scinder la première des quatre classes originales. Les données "complètes" sont alors a1, a2, b, c et d, où a1 + a2 = a. La vraisemblance s’écrit alors

506

Page 510: Aspects statistiques de la cartographie des marqueurs moléculaires

e L = 1 2( )a1 θ 4( )a2 1 4 −θ 4( )b 1 4 −θ 4( )c θ 4( )d507

Page 511: Aspects statistiques de la cartographie des marqueurs moléculaires

Les effectifs b, c et d étant connus, seuls a1 et a2 doivent être estimés à chaque itération. En fait, seul est intéressant puisqu’il correspond à la fréquence des individus recombinants. Les estimateurs de a1 et a2 (espérances conditionnelles) à l’itération p sont ici les estimateurs classiques

508

Page 512: Aspects statistiques de la cartographie des marqueurs moléculaires

a1p =a

0, 50,5 + 0, 25θ0

509

Page 513: Aspects statistiques de la cartographie des marqueurs moléculaires

et

510

Page 514: Aspects statistiques de la cartographie des marqueurs moléculaires

a2p =a

0, 25θ0

0,5 + 0, 25θ0 .511

Page 515: Aspects statistiques de la cartographie des marqueurs moléculaires

512

Page 516: Aspects statistiques de la cartographie des marqueurs moléculaires

θ 0

513

Page 517: Aspects statistiques de la cartographie des marqueurs moléculaires

est une valeur de départ arbitraire de

514

Page 518: Aspects statistiques de la cartographie des marqueurs moléculaires

θ515

Page 519: Aspects statistiques de la cartographie des marqueurs moléculaires

. Le calcul de ces estimateurs correspond à l’étape d’estimation. L’étape de maximisation consiste à calculer

516

Page 520: Aspects statistiques de la cartographie des marqueurs moléculaires

θ p

517

Page 521: Aspects statistiques de la cartographie des marqueurs moléculaires

à partir de la valeur de a2 trouvées à l’itération p

518

Page 522: Aspects statistiques de la cartographie des marqueurs moléculaires

θ p =a2

p + d

a2p + b + c + d

.519

Page 523: Aspects statistiques de la cartographie des marqueurs moléculaires

θ p

520

Page 524: Aspects statistiques de la cartographie des marqueurs moléculaires

est alors utilisé pour calculer les estimateurs à l’itération suivante

521

Page 525: Aspects statistiques de la cartographie des marqueurs moléculaires

a1p+1 =a

0, 50, 5 +0,25θ p

522

Page 526: Aspects statistiques de la cartographie des marqueurs moléculaires

et

523

Page 527: Aspects statistiques de la cartographie des marqueurs moléculaires

a2p+1 =a

0, 25θ p

0, 5 +0,25θ p .524

Page 528: Aspects statistiques de la cartographie des marqueurs moléculaires

et on obtient une nouvelle valeur de

525

Page 529: Aspects statistiques de la cartographie des marqueurs moléculaires

θ526

Page 530: Aspects statistiques de la cartographie des marqueurs moléculaires

:

527

Page 531: Aspects statistiques de la cartographie des marqueurs moléculaires

θ p +1 =a2

p+1 + d

a2p+1 + b + c + d

.528

Page 532: Aspects statistiques de la cartographie des marqueurs moléculaires

Les itérations se poursuivent jusqu’à ce qu’on juge qu’une itération supplémentaire n’apporte qu’une amélioration négligeable de la précision d’estimation de

529

Page 533: Aspects statistiques de la cartographie des marqueurs moléculaires

θ530

Page 534: Aspects statistiques de la cartographie des marqueurs moléculaires

.

Un algorithme similaire a été utilisé pour analyser le biais du MLE classique de la fréquence de recombinaison entre un marqueur dominant et un codominant, en cas de distorsion de ségrégation (voir Lorieux 1993, chapitre II, § 2.2.2.1, formule 2.37). Pour le cas de deux marqueurs codominants, l’algorithme de Mangin (1991) a été utilisé (voir § "Estimation de la liaison").

Dempster et al (1977) et Wu (1983) ont montré la convergence des estimateurs fournis par l’algorithme EM. Celle-ci aurait des propriétés opposées à celle de l’algorithme de Newton : l’algorithme EM convergerait plus rapidement dans les premières itérations, un algorithme de type Newton étant plus rapide dans les itérations finales (Lander et Green, 1987). Notons que plusieurs auteurs ont cherché à améliorer la vitesse de convergence de cet algorithme. Par exemple, on peut citer l’algorithme ECM (Expectation/Conditional Maximization) de Meng et Rubin (1993) et l’algorithme EM1 de Rai et Matthews (1993).

L’algorithme EM est, comme celui de Newton, généralisable à plusieurs paramètres.

531