9
Revue de Pneumologie clinique (2009) 65, 377—385 ENSEIGNEMENT PRATIQUE Biostatistiques avec les feuilles de calcul Excel © ou équivalent Biostatistics with Excel © software or similar S. Couraud a,,b a Service de pneumologie, centre hospitalier Lyon-Sud, 165, chemin du Grand-Revoyet, 69495 Pierre-Bénite cedex, France b Université Claude Bernard Lyon 1, France Disponible sur Internet le 31 octobre 2009 MOTS CLÉS Biostatistiques ; Excel © ; Méthodologie ; Épidémiologie ; Recherche clinique Résumé Pour de nombreux praticiens et notamment pour les plus jeunes, les analyses bio- statistiques sont difficiles et hermétiques. Il existe pourtant un logiciel familier permettant de réaliser la plupart des calculs statistiques nécessaires en pratique courante : les feuilles de calculs Excel © et équivalents. Cet article propose de guider le lecteur pas à pas dans le pro- gramme pour l’aider à réaliser ses calculs. Bien que ces conseils ne dispensent en aucun cas d’un avis spécialisé, ils permettront aux lecteurs de se familiariser avec des notions de bases de statistiques. © 2009 Elsevier Masson SAS. Tous droits réservés. KEYWORDS Statistics; Excel software © ; Methodology; Epidemiology; Clinical trials Summary Many practitioners, especially young ones, find biostatistical analysis fastidious. However, there is a very usual tool for most basic calculations: Excel © and similar software. This article proposes to help the reader, step by step, carry out many statistical functions. Although this paper does not avoid the advice of a specialist, it lets the reader become familiar with the rules of basic statistics and calculus. © 2009 Elsevier Masson SAS. All rights reserved. Introduction Que ce soit pour la rédaction d’une thèse, d’un article scientifique ou encore pour les données d’activités, les statistiques sont inévitables en médecine. Pour beaucoup, cette matière apparaît souvent hermétique et difficile. Il est donc fréquent de voir des praticiens Auteur correspondant. Adresse e-mail : [email protected]. 0761-8417/$ — see front matter © 2009 Elsevier Masson SAS. Tous droits réservés. doi:10.1016/j.pneumo.2009.08.007

Biostatistiques avec les feuilles de calcul Excel© ou équivalent

  • Upload
    s

  • View
    220

  • Download
    6

Embed Size (px)

Citation preview

Page 1: Biostatistiques avec les feuilles de calcul Excel© ou équivalent

Revue de Pneumologie clinique (2009) 65, 377—385

ENSEIGNEMENT PRATIQUE

Biostatistiques avec les feuilles de calcul Excel© ouéquivalent

Biostatistics with Excel© software or similar

S. Courauda,∗,b

a Service de pneumologie, centre hospitalier Lyon-Sud,165, chemin du Grand-Revoyet, 69495 Pierre-Bénite cedex, Franceb Université Claude Bernard Lyon 1, France

Disponible sur Internet le 31 octobre 2009

MOTS CLÉSBiostatistiques ;Excel© ;Méthodologie ;Épidémiologie ;Recherche clinique

Résumé Pour de nombreux praticiens et notamment pour les plus jeunes, les analyses bio-statistiques sont difficiles et hermétiques. Il existe pourtant un logiciel familier permettantde réaliser la plupart des calculs statistiques nécessaires en pratique courante : les feuilles decalculs Excel© et équivalents. Cet article propose de guider le lecteur pas à pas dans le pro-gramme pour l’aider à réaliser ses calculs. Bien que ces conseils ne dispensent en aucun casd’un avis spécialisé, ils permettront aux lecteurs de se familiariser avec des notions de basesde statistiques.© 2009 Elsevier Masson SAS. Tous droits réservés.

KEYWORDSStatistics;Excel software©;Methodology;Epidemiology;Clinical trials

Summary Many practitioners, especially young ones, find biostatistical analysis fastidious.However, there is a very usual tool for most basic calculations: Excel© and similar software.This article proposes to help the reader, step by step, carry out many statistical functions.Although this paper does not avoid the advice of a specialist, it lets the reader become familiarwith the rules of basic statistics and calculus.© 2009 Elsevier Masson SAS. All rights reserved.

Introduction

Que ce soit pour la rédaction d’une thèse, d’un article scientifique ou encore pour lesdonnées d’activités, les statistiques sont inévitables en médecine. Pour beaucoup, cettematière apparaît souvent hermétique et difficile. Il est donc fréquent de voir des praticiens

∗ Auteur correspondant.Adresse e-mail : [email protected].

0761-8417/$ — see front matter © 2009 Elsevier Masson SAS. Tous droits réservés.doi:10.1016/j.pneumo.2009.08.007

Page 2: Biostatistiques avec les feuilles de calcul Excel© ou équivalent

3 S. Couraud

otcrtdpuénumtquplfadpc

m

R

L

Peéi«ouvse

LLfvfedqItaLcnnidmdtm

Fqo

LLdd•

dlé

L

Ladqdceé

78

u des étudiants se décourager devant des calculs sta-istiques de base. Outre des lacunes en termes deonnaissances théoriques, les utilisateurs peuvent êtreebutés par la difficulté de réalisation des calculs statis-iques. Pourtant, en plus des nombreux logiciels spécifiquesisponibles (certains sont mêmes gratuits sur Internet) maisarfois délicats d’utilisation pour les non-initiés, il existen outil familier : les feuilles de calculs Microsoft Excel© etquivalent. Ce logiciel équipe, en effet, la plupart des ordi-ateurs. Il en existe plusieurs versions (le présent articletilise la version 2003, très largement répandue) mais lesodalités et le raisonnement pratique sont toujours iden-

iques d’une mise à jour à l’autre. Par ailleurs, pour ceuxui ne seraient pas équipés, le logiciel gratuit OpenOffice®

tilise des fonctions similaires et pratiquement les mêmesrocédures. Quoi qu’il en soit, le logiciel Excel© est fami-ier, simple d’utilisation et recèle la plupart des grandesonctions utilisées en biostatistiques courantes. Dans cetrticle, le lecteur pourra se familiariser avec les mesurese variables, leurs représentations graphiques et leurs com-araisons. Les concordances, mesures de risque et autresoncepts plus complexes ne sont pas développés ici.

Visite guidée d’un outil biostatistique que bon nombre deédecins utilisent quotidiennement sans le savoir. . .

appels élémentaires

es variables

our étudier une population ou un échantillon de celle-ci, ilst nécessaire de prendre en compte des propriétés de sesléments. Ces propriétés sont appelées des variables. Il estmportant de ne pas confondre variable et la « donnée » ouvaleur observée » qui représentent la valeur de la variablebservée pour un individu. À titre d’exemple, l’âge estne variable et « 87 ans » sera la donnée observée de cetteariable pour un individu. De manière didactique, il est pos-ible de considérer deux types de variables dont l’analyset l’interprétation sont différentes :

es variables qualitativeses variables qualitatives (par exemple, le sexe, le per-ormans status ou encore le statut tabagique) sont desariables qui n’ont pas de sens arithmétique. Elles sont par-ois appelées variables « catégorielles ». Les plus communest faciles d’interprétation sont les variables qualitatives « àeux classes » ou dichotomiques qui ne peuvent prendreue deux modalités (exemple : statut tabagique ; oui/non).l faut noter que dans certains cas, les variables quali-atives peuvent être ordonnées ou ordinales ; c’est-à-direvoir une importance croissante dans un ordre déterminé.’exemple est l’envahissement ganglionnaire dans un can-er bronchique : la variable n peut prendre les valeurs n0,1, n2 ou n3 qui ne sont pas numériques mais bien ordon-ées (la gravité de l’atteinte est croissante). Par ailleurs,l faut bien noter que certaines variables qualitatives ont

es valeurs numériques ! L’exemple typique est le perfor-ans status dont les valeurs vont de 0 à 5. Bien que lesonnées soient des chiffres, ils ne peuvent pas être interpré-és comme une variable quantitative (un performans statusoyen à 1,96 n’aurait que peu de sens).

tqccc

igure 1. Représentation schématique de la loi normale (variableuantitative continue). Les valeurs comprises entre la moyenne plusu moins deux écarts-types englobent 95,44 % de la population.

es variables quantitativeses variables quantitatives (comme l’âge, le taux’hémoglobine ou encore la valeur de la PaO2) sontistinguées selon deux classes :les variables continues peuvent théoriquement prendrecomme valeur n’importe quel nombre d’un intervalle dontles limites sont compatibles avec les lois de la nature. Lavaleur de la PaO2 est un exemple de variable quantitativecontinue. La distribution de ces variables suit habituelle-ment une distribution précise appelée loi normale ou loide « Laplace-Gauss » (Fig. 1) ;les variables discontinues ou discrètes sont définies parun comptage et leur valeur est habituellement un nombreentier (nombre de journées d’hospitalisation ou nombrede cigarette fumée par jour, par exemple). Bien qu’ellepuisse s’en approcher, la distribution de ces variables nesuit pas strictement la loi normale mais d’autres, tellesla loi binomiale ou celle de Poisson.

Avant de débuter l’analyse statistique, voire même avante débuter la saisie des données, il est important que’investigateur définisse avec précision le type de la variabletudiée. Il évitera ainsi bien des erreurs d’interprétation.

’hypothèse nulle et les tests statistiques

e principe de tous les tests statistiques (autrementppelés tests d’hypothèse) est basé sur la formulation’une hypothèse nulle (H0). Cette dernière sous-entendu’il n’existe pas de différence entre les valeurs observéeses éléments à comparer. C’est cette hypothèse que l’onherche à rejeter. En rejetant H0, on accepte alors qu’ilxiste une différence significative entre les populations (ouchantillons) observés.

Pour tester cette hypothèse, il faut utiliser des tests sta-

istiques dont le choix tient compte de plusieurs paramètresui ne sont pas développés dans cet article. Le résultat dees tests est une valeur calculée. Cette valeur est ensuiteomparée à une table statistique standardisée propre àhaque test pour déterminer une valeur p (ou « petit p » ou
Page 3: Biostatistiques avec les feuilles de calcul Excel© ou équivalent

Biostatistiques avec les feuilles de calcul Excel© ou équivalent 379

F

ts•

a

s

A

Lésgpsve

T

Idep•

Figure 2. Copie d’écran de la série exemple sous Microsoft Excel©

2003.

« p value » des anglais). C’est la valeur du p qui importe leplus dans les publications. Par convention, on admet quele p est significatif s’il est inférieur à 0,05. En d’autrestermes, cela indique que la différence observée dans lesdeux groupes testés a moins de 5 % de chance d’être dueau hasard. Bien évidemment, plus le p est « petit », plus lachance que la différence observée soit liée au hasard estténue.

Exemple de série

Pour illustrer cet article, il est nécessaire de disposerd’un exemple de série à analyser (Fig. 2). Dans ce der-nier, l’investigateur a observé l’âge et le sexe des patientsfumeurs et non fumeurs consultant pour toux chronique.Dans cet exemple il existe :• deux populations : les fumeurs et les non-fumeurs ;• deux variables pour chacune d’entre elles : l’âge (variable

quantitative discrète) et le sexe (variable qualitative àdeux classes).

Quelques rappels sur les feuilles de calculs©

Excel et équivalent

Chaque « case » de la feuille de calcul est appelée « cellule ».Chacune de ces cellules correspond à des coordonnéesprécises déterminées par une lettre dans le sens horizon-

igure 3. Tableau après le tri des variables qualitatives.

al et par un chiffre dans le sens vertical. Il est possible deélectionner une ou plusieurs cellules :

sélectionner une seule cellule : clic gauche sur la cellulesouhaitée ;sélectionner plusieurs cellules contiguës : clic gauche puisglisser sur l’ensemble des cellules souhaitées avec la sou-ris ;sélectionner une colonne ou une ligne en entier : clicgauche sur la lettre ou le chiffre symbolisant la ligne oula colonne ;sélectionner plusieurs cellules non contiguës : clic gauchesur la première cellule, puis maintenir la touche « ctrl »enfoncé et sélectionner les autres cellules avec la sourisgrâce à un clic gauche.

Ce qui est inscrit par l’utilisateur dans la cellule estppelé « donnée ».

Pour plus de clarté, la série prise en exemple est repré-entée en « copie d’écran » dans la Fig. 3.

nalyse des variables qualitatives

e calcul des proportions sous forme de pourcentage n’avidemment aucun sens pour l’âge (sauf si l’investigateurouhaite « classer » les éléments de sa population en caté-orie : moins de 20 ans ; 20 — 40 ans ; 40 — 60 ans ; 60 ans etlus par exemple). Il a du sens pour la seconde variable : leexe. Le calcul du pourcentage répondra à la question sui-ante : dans cette série, quelle est la proportion d’hommet de femme ?

rier les données

l est préalablement nécessaire de trier, pour chacune deseux populations, la série de variables qualitatives dont ilxiste ici deux valeurs : M et F. Pour cela, il faut suivre larocédure suivante :sélectionner la population souhaitée (dans ce cas précis :

il faut sélectionner d’abord la population non fumeurs,soit A2 à B17 ; puis les fumeurs) ;cliquer ensuite sur « données » dans la barre de tâche puissur « trier » ;
Page 4: Biostatistiques avec les feuilles de calcul Excel© ou équivalent

3 S. Couraud

a

C

Lm

dope

f•

I

Icm

Tableau 1 Intervalle de confiance d’une proportion.

Non-fumeurs (%) Fumeurs (%)

pnca1ms

td•

coRtd

d

R

Ltd(d

hsmélpd«mgpp

sp(vd

80

le logiciel trie alors les données par ordre alphabétique.Il ne reste plus qu’à comptabiliser le nombre de M et deF dans chaque population :◦ NB : ne pas sélectionner les titres des variables ou

séries,◦ NB 2 : par défaut, le logiciel trie par ordre alpha-

bétique, la colonne située la plus à droite dansla sélection. Au besoin, il est possible de déplacerl’ensemble de la colonne grâce à un « copier-coller »de l’intégralité de celle-ci,

◦ NB 3 : attention à bien laisser les données d’un mêmeindividu (ligne) appariées.

Il faut ensuite recréer un tableau (de préférence sur uneutre page de calcul) pour reprendre les résultats (Fig. 3).

alculer les pourcentages

e pourcentage est une expression d’une proportion. La for-ule du calcul est la suivante :

p1 = n1 × 100n

ans laquelle p1 est la proportion (en %) ; n1 est l’effectifbservé pour la première modalité (Femmes non fumeusesar exemple) ; n est l’effectif complet de la série (hommet femme non fumeurs).

Pour calculer les proportions en pourcentages sur leseuilles de calculs, il est nécessaire de procéder comme suit :

sélectionner la case B5 (total des non-fumeurs) et faireglisser la souris pour sélectionner B3 et B4 ;cliquer ensuite sur « insertion » puis sur « insérer fonc-tion » ou cliquer sur le symbole « fx » dans la barre detâche ;sélectionner « math et trigo » dans le menu déroulant puissélectionner la fonction « SOMME ». Cliquer sur « OK » ;une fenêtre s’ouvre, indiquant les coordonnées desvaleurs à additionner. Cliquer sur « OK » ;le logiciel calcule automatiquement les sommes souhai-tées. En réalisant la même procédure pour les fumeurson obtient les résultats suivants : n1 = 16 non-fumeurs etn2 = 26 fumeurs ;dans la cellule C3, taper «=SOMME(B3/16) » où 16 corres-pond au nombre de patient non fumeurs, soit au 100 %.Taper ensuite sur « entrée » sur le clavier. Faire de mêmeavec les autres cellules en tapant les coordonnées de lacellule à analyser et le 100 % adéquat ;pour voir les chiffres s’afficher en pourcentage, il suf-fit de sélectionner les cellules désirée puis de cliquersur « format » puis « cellules » (ou clic droit puis « formatde cellule ») puis de sélectionner « pourcentage » dans lemenu déroulant de l’onglet « nombre ».

ntervalle de confiance d’une proportion

l est possible de calculer un intervalle de confiance pourhaque proportion en approximant la loi normale. La for-

ule est la suivante :

IC˛ = p ± z˛

√p × q

n

d•

F 50 (25,5—74,5) 61,5 (79,5%—42,5)H 50 (25,5—74,5) 38,4 (47,8—29)

= proportion observée (en chiffre décimal) ; q = 1-p ;= effectif de la population ou de l’échantillon ; z� est unoefficient permettant le calcul d’un intervalle de précisionutour de p. Pour un intervalle à 95 %, la valeur de z� est,96. Pour être valide, cette approximation de la loi nor-ale nécessite que les produits « n × p » et « n × q » soient

upérieurs ou égaux à 5.La procédure est la suivante : dans la cellule souhaitée,

aper la formule suivante « =1,96*RACINE(((R8*(1-R8))/n) »ans laquelle :

« R8 » représente la coordonnée de la cellule dans laquellefigure la proportion p pour laquelle l’investigateur sou-haite calculer l’intervalle de confiance ;et n représente l’effectif de la série.

À titre d’exemple et si l’on se réfère à la Fig. 3, pouralculer l’IC à 95 % de la proportion des femmes fumeuses,n tapera la formule suivante « =1,96*RACINE((E3*(1-8))/26) ». On aura, bien évidemment, calculé la propor-ion souhaitée dans E3 comme expliqué ci-dessus avant’effectuer cette opération.

Après un calcul, on obtient ainsi les valeurs présentéesans le Tableau 1.

eprésentation graphique

a représentation de la répartition d’une variable quan-itative peut faire appel à divers types de graphiques :iagramme en barre, histogramme ou encore en secteursFig. 4). Toutes ces fonctions sont possibles sur les feuillese calculs.

Pour cela, il suffit de sélectionner la ou les séries sou-aitées (en y incluant les noms de catégorie) puis de cliquerur « insertion » dans la barre de tâche puis « graphiques ». Leenu de création du graphique s’affiche alors. La première

tape consiste à choisir le type de graphique désiré. Après’avoir sélectionné et cliqué sur « suivant » le programmeropose de choisir les données sources (par défaut, il s’agite celles sélectionnées ci-dessus) puis, après avoir cliqué sursuivant », il est possible d’avoir accès à certains outils deise en page dans les onglets (titre, légendes. . .). Une fois le

raphique terminé, l’utilisateur pourra modifier la mise enage de n’importe quel élément par un clic droit sur celui-ciuis en sélectionnant les options proposées.

Pour une meilleure représentation graphique, il est pos-ible de représenter les IC, calculés ci-dessus. Celle-ci n’estossible que sur les histogrammes en barres et en colonnesFig. 4). Au préalable, il est nécessaire d’avoir calculé laaleur z� × √

(p × q)/n (ci-dessus) et de l’inscrire dans unees cellules contiguës des résultats des proportions. À partir

e l’histogramme, il faut ensuite :cliquer sur la série souhaitée dans l’histogramme en cli-quant sur l’une des colonnes la représentant (le logicielsélectionnera les deux populations — fumeurs et nonfumeurs — par défaut). Après un clic droit, sélectionner
Page 5: Biostatistiques avec les feuilles de calcul Excel© ou équivalent

Biostatistiques avec les feuilles de calcul Excel© ou équivalent 381

Fd

ctdco

dl

p(1 − p)(1/n1 + 1/n2)

p1 et p2 sont les pourcentages à calculer (p1 = k1/n1 ; p2 =k2/n2) et p le pourcentage moyen (p = (k1 + k2)/(n1 + n2))

Tableau 2 Tableau de contingence.

Effectifs observés Non-fumeurs Fumeurs Total

Figure 4. Différentes représentations graphiques des résultatsobtenus précédemment : histogramme en barres (A), colonnes (B),secteurs (C), variante de colonnes (D).

l’option « format de la série de données » puis l’onglet« barre d’erreur Y » ;

• sélectionner ensuite l’option « personnalisée » ;• cliquer ensuite sur le bouton situé à droite du champ « + » ;• sélectionner par un clic gauche la cellule contenant la

valeur de z� × √(p × q)/n pour la première série (non

fumeur) puis, en maintenant la touche « ctrl » du cla-vier, enfoncée, la cellule de la seconde valeur (fumeurs).Cliquer ensuite sur le bouton à droite du champ ;

• faire de même pour le champ « — » en utilisant les mêmesvaleurs ;

• cliquer sur « OK » : les barres de l’IC apparaissent sur legraphique (Fig. 5).

Comparer deux proportions

Pour comparer deux proportions, on utilise le test du Khi2

(�2). Le calcul de ce test d’indépendance sur les feuilles decalculs Excel© et équivalent demande quelques préambules :

igure 5. Représentation des résultats en incluant les intervallese confiance.

créer un tableau de contingence avec les valeurs obser-vées et les totaux par lignes et colonnes (Tableau 2) ;il faut ensuite calculer les effectifs espérés pour cha-cune des cellules. Pour cela, il est nécessaire de créerun second tableau de contingence, sur la même feuille decalcul. Le calcul des effectifs espérés, pour chaque caté-gorie, se fait en multipliant le total de la ligne par le totalde la colonne correspondante puis en divisant le nombreobtenu par le total général. Par exemple :◦ effectif espéré des « femmes — non fumeurs » = (D × A)/

n = (24 × 16)/42 = 9,14,◦ effectif espéré des « hommes — fumeurs » = (C × B)/

n = (18 × 26)/42 = 11,14,◦ on profite de ces calculs peu fastidieux pour s’assurer

des conditions de validité du test : chaque effectif« espéré » doit être supérieur à 5.

On obtient ainsi deux tableaux de contingence, l’unomprenant les effectifs observés et le second les effec-ifs espérés (attention : dans les deux tableaux, les totauxe lignes et de colonnes doivent être identiques ; dans leas contraire, il existe une erreur de calcul). Les résultatsbtenus sont représentés en Fig. 6, Fig. 7.

Le logiciel Excel© ne calcule pas la valeur du test �2 maisirectement la valeur du p correspondant. Pour mémoire,a valeur du �2 se calcule avec la formule suivante :

X2 = (p1 − p2)2

F 8 16 24 (D)M 8 10 18 (C)Total 16 (A) 26 (B) 42 (n)

Page 6: Biostatistiques avec les feuilles de calcul Excel© ou équivalent

382

Figure 6. Copie d’écran des tableaux de contingences obtenus :effectifs observés en haut et effectifs espérés (calculés) en bas.

Ff

fl•

rdp

vnu

A

Lcp

dmmPe

M

Lvfvp

M

M

dsvmdlptddp

e

E•

• les coordonnées Excel de la série apparaissent dans le

igure 7. Diagramme en boîte de la distribution des âges chez lesumeurs et les non-fumeurs dans la série exemple.

Pour le calculer la valeur du p correspondant au �2, ilaut sélectionner la fonction « TEST.KHIDEUX » puis entreres valeurs dans les champs demandées :

dans le champ « Plage réelle », il faut entrer les coordon-nées des cellules correspondant aux effectifs observés soitles cellules « B3 : C4 » ;dans le champ « Plage-attendue », les coordonnées descellules des effectifs espérés soit « B9 : C10 » ;la valeur du p calculée est 0,46 soit supérieure à 0,05.

Dans cet exemple, on peut donc conclure que la diffé-ence observée dans la proportion d’homme et de femmeans les deux groupes (non-fumeurs versus fumeurs) n’estas statistiquement significative.

Il est évident que si ces calculs sont aisés pour desariables à deux classes, ils deviennent plus ardus lorsque leombre de catégorie des variables augmente. Il faudra alorstiliser un logiciel spécifique.

nalyse des variables quantitatives

’analyse des variables quantitatives fait appel à d’autresoncepts. En effet, une série de données quantitativeseut être résumée par plusieurs variables permettant

S. Couraud

’appréhender la distribution de celle-ci. Il est parfaite-ent aisé de calculer ces valeurs sur le logiciel Excel©, voireême de réaliser une représentation graphique adaptée.

our ce faire, on reprendra l’exemple de la série de la Fig. 2n utilisant les variables « âge ».

oyenne et de la médiane

a moyenne correspond à la somme des valeurs de laariable observée divisée par le nombre de valeur. Il neaut pas la confondre avec la médiane qui correspond à laaleur pour laquelle la moitié des valeurs observées sontlus grandes et la moitié plus petite.

Moyenne = x = 1n

n∑(i=1)

xi

édiane si l’effectif de la série est pair :

x = x((n+1)/2)

édiane si l’effectif de la série est impair :

x = x(n/2) + x((n/2)+1)

2

Ces indicateurs correspondent toutes deux à des valeursites « de centrage » d’une série mais n’ont pas la mêmeignification. En effet, la moyenne est très sensible auxaleurs extrêmes et/ou aberrantes d’une série alors que laédiane n’est pas influencée par ces dernières. La moyenneépend de tous les nombres composant une série tandis quea médiane n’est influencée que par leur ordre. Par ailleurs,our calculer la moyenne, il est nécessaire d’attendre queoutes les mesures soient réalisées. Bien que reflétant touteseux « le centre » d’une série, moyenne et médianes sontonc deux paramètres bien distincts, avec une significationrécise.

NB : Il faut noter que dans la loi normale (Fig. 2), médianet moyenne sont égales.

Pour calculer une moyenne grâce aux feuilles de calculsxcel© et équivalent, la procédure est la suivante :sélectionner une cellule dans laquelle apparaîtra lamoyenne ;dans la barre de tâche, cliquer sur « fx » (ou cliquer sur« Insertion » dans le menu haut puis « fonction » dans lemenu déroulant) ;le menu « insérer une fonction » s’ouvre alors dans unenouvelle fenêtre ;sélectionner « statistiques » dans le menu déroulant de cedernier. L’ensemble des fonctions statistiques disponiblesapparaît ;dans la liste des fonctions, sélectionner « MOYENNE » ; cli-quer sur « OK » ;un menu « arguments de la fonction » s’ouvre. À l’aide dela souris, sélectionner la série sur laquelle sera calculé lamoyenne (sans sélectionner le titre de la colonne) ;

©

menu « arguments de la fonction » dans la case « nombre1 » ; cliquer sur « OK » ;la moyenne apparaît alors ; ici elle est calculée à 43 anspour les non-fumeurs et 50,3 ans pour les fumeurs.

Page 7: Biostatistiques avec les feuilles de calcul Excel© ou équivalent

Biostatistiques avec les feuilles de calcul Excel© ou équivalent

Pour la médiane, la procédure est strictement identique.Il est simplement nécessaire de sélectionner la fonction« MEDIANE » dans la liste de choix du menu « insérer unefonction ». Attention, également à sélectionner uniquementla série, sans y intégrer la moyenne précédemment calcu-lée !

Paramètres de dispersion par rapport àla médiane : valeur maximale, minimaleet quartiles

Valeur maximale, valeur minimale et quartiles sont desparamètres qui, associés à la médiane, peuvent aider àrendre compte de la distribution d’une série. Si ces deuxpremiers paramètres sont aisément compréhensibles, lesquartiles sont en général moins connus. Le premier quar-tile correspond à la valeur pour laquelle un quart (25 %)des valeurs observées sont plus petites et trois quarts (75 %)plus grandes. Le troisième quartile correspond à l’inverse :75 % des valeurs observées sont plus petites et 25 % plusgrandes. Pour mémoire, le deuxième quartile correspond. . .

à la médiane. . .

Sur Excel©, il est donc possible de mettre en évidence lesvaleurs maximales et minimales d’une série. La procédureest la même que précédemment pour la moyenne. Il suffitde choisir les fonctions « MAX » et « MIN »de la liste.

Il est également possible de calculer les quartiles de lasérie. Il faut alors suivre la procédure ci-dessus en sélec-tionnant la fonction « QUARTILE ». Après avoir entré lescoordonnées de la série étudiée (la colonne des âges desnon-fumeurs, par exemple, en excluant les éventuellescellules à la suite dans lesquelles auraient été calculéesla moyenne, la médiane. . .), il est nécessaire de rentrerune information complémentaire dans le champ intitulé« quart ». Cette valeur est une commande pour le logiciel(elle ne correspond à rien de particulier) :• « 0 » permet de calculer la valeur minimale de la série

(déjà calculée précédemment) ;• « 1 » permet de calculer le premier quartile (Q25) ;• « 2 » permet de calculer la médiane ;• « 3 » permet de calculer le troisième quartile (Q75) ;• « 4 » permet de calculer la valeur maximale.

En entrant la commande « 2 » dans le champ « quart »on obtient donc la valeur du premier quartile. En répé-tant la procédure ci-dessus (en entrant « 3 » dans lechamp « quart ») on obtient la valeur du troisième quartile(Tableau 3).

Bien qu’habituellement peu utilisé, l’intervalle inter-quartile est un paramètre exprimant la dispersion d’une

Tableau 3 Résultats pour les quartiles.

Non-fumeur Fumeur

Moyenne 43,1 50,3Médiane 37,5 56,5Troisième quartile 59,5 61,0Valeur maximale 75,0 85,0Valeur minimale 18,0 18,0Premier quartile 32,5 35,3

sd«

L

IldMqp•

••

ncsl•

dm

qD«

Pl

Ldmmsmdtpéoppsm

383

érie. Il est comprend 25 % des valeurs de part et d’autrese la médiane. Il est bien mis en valeur dans le diagrammeen boîte ».

e diagramme en boîte

l est possible d’obtenir une représentation graphique dea distribution de la série à l’aide des valeurs calculées ci-essus. Il s’agit du diagramme dit box-plot ou « en boîte ».alheureusement, le logiciel ne peut y intégrer la médianeui y figure habituellement. Pour créer ce diagramme, larocédure est la suivante :créer un tableau comme représenté ci-dessus (attention :les lignes doivent être exactement dans le même ordre) ;cliquer sur « Insertion » puis sur « insérer un tableau » ;il faut alors choisir dans la catégorie des graphiquesintitulés « stocks », le modèle « ouverture-max-min-fermeture » ; puis cliquer sur suivant ;sélectionner ensuite les valeurs à entrer en cliquant surle bouton situé à droite du champ « sélectionner lesdonnées » ; il faut alors choisir les valeurs du premierquartile, maximales, minimales et du troisième quartile,dans cet ordre, en une fois, grâce à la souris (cliquer-glisser). Cliquer à nouveau sur le bouton à droite du champpour intégrer les données. Sélectionner ensuite le bouton« ligne » en dessous des données sélectionnées (le bouton« colonne » est coché par défaut).

NB : dans l’onglet « séries », il est possible d’intégrer lesoms des catégories : en bas du formulaire, il existe unhamp « étiquettes de catégories X ». Cliquer sur le boutonitué à droite et sélectionner les noms des catégories danses cellules correspondantes (non-fumeurs et fumeurs).

cliquer sur « suivant » pour insérer le titre du tableau etdes axes ;cliquer sur « terminer ».

NB : La légende des séries apparaissant sur le côté droitu graphique n’a pas de réalité. Il est possible de la suppri-er par un clic droit puis « supprimer ».On obtient ainsi la Fig. 6. Pour ajouter les valeurs, cli-

uer droit sur le graphique puis sur « options du graphique ».ans l’onglet « étiquettes de données », cliquer sur le boutonvaleur » puis « OK ».

aramètre de dispersion par rapport àa moyenne : variance et écart-type

’écart-type (ou déviation standard issue de l’anglais stan-ard deviation) est une variable de dispersion autour de laoyenne d’une série très utilisée en statistique. Ce para-ètre correspond à la racine carrée de la variance d’une

érie. La variance est un paramètre peu utilisé (mais néan-oins utile. . .) qui correspond à la moyenne de la « sommeu carré des écarts par rapport à la moyenne ». En d’autresermes, pour chaque valeur observée, on calcule son écartar rapport à la moyenne de la série. La somme de tous cescarts, élevé au carré puis divisé par le nombre de valeurs

bservées, correspond à la variance. La définition de cearamètre reflète bien qu’il s’agit d’un paramètre de dis-ersion par rapport à la moyenne. Néanmoins, la variance ne’exprime pas dans l’unité de mesure de la valeur observéeais dans son carré (âge2 dans notre série. . .). C’est l’une
Page 8: Biostatistiques avec les feuilles de calcul Excel© ou équivalent

3 S. Couraud

dc

mde1ce

cscld«

R

LddI••

p

C

Ptl

dét

nt0

Fc

LLt

qbudarrtt

LnPdp

lL

84

es raisons pour laquelle on lui préfère sa racine carréeorrespondant à l’écart-type.

Variation = SCE =n∑

(i=1)

(xi − x)2

Variance = s2 = SCE/n

Écart- type = s =√

s2 =√

variance

Par approximation de la loi normale, la moyenne, plus ouoins un écart-type englobe 68,26 % de la population étu-iée. De même, la moyenne plus ou moins deux écarts-typesnglobe 95,44 % de celle-ci et la moyenne plus ou moins,96 écart-type englobe 95 %. En statistique, on utilise paronvention la moyenne plus ou moins deux écarts-types pourxprimer la distribution d’une série.

Pour calculer l’écart-type d’une série sur les feuilles dealcul Excel, il suffit, comme précédemment, après avoirélectionné la cellule dans laquelle afficher l’écart-type, deliquer sur « fx » dans la barre de tâche, de sélectionnera fonction « ÉCART-TYPE » dans les fonctions statistiques,e sélectionner la population à étudier puis de cliquer surOK ».

eprésentation graphique

a représentation graphique de la moyenne plus ou moinseux écarts-types suit la même procédure que décrit précé-emment pour les variables qualitatives (pour intégrer lesC) à quelques particularités près :

la valeur de référence doit être la moyenne ;usuellement, il est plus logique d’utiliser un graphique« en point » ;il faut préalablement calculer la valeur « deux écarts-types ». Pour cela, sélectionner une cellule vide puis taperla formule « =SOMME(« coordonnées de la cellule danslaquelle figure l’écart-type » * 2) » puis taper sur entrer.

NB : Sur Excel©, le signe « multiplication » est représentéar la touche « étoile » et non par le « x ».

On obtient ainsi le schéma suivant (Fig. 8).

omparer deux moyennes

our comparer deux moyennes, on a en général recours auest t de Student. Celui-ci est valide si la variable suit uneoi normale et si l’effectif étudié est supérieur à 30.

Pour mémoire, la formule du test t est la suivante :

t = (m1 − m2)√(n1s2

1 + n2s22)/(n1n2)

ans laquelle m1 et m2 sont les moyennes respectives deschantillons, s1 et s2, les écarts-types et n1 et n2 les effec-

ifs.

La valeur de t est ensuite comparée à la table de la loiormale pour obtenir la valeur du p. Si la valeur absolue deest supérieure à 1,96, le p correspondant est inférieur à,05.

l«d•

igure 8. Moyenne (± deux écarts-types) de l’âge des patientshez les fumeurs et les non-fumeurs.

Avant de formuler ce test, deux questions se posent.

e test doit-il être uni ou bilatéral ?a différence réside dans la facon de formuler son hypo-hèse :

H0 : m1 = m2

Huni : m1 > m2; Hbi : m1 /= m2

À la vue de ces hypothèses, il est aisé de se rendre compteue la valeur de p est doublée lorsque l’on choisit un testilatéral par rapport au test unilatéral. En effet, l’hypothèsenilatérale m1 est supérieure à m2 est strictement incluseans l’hypothèse bilatérale m1 n’est pas égale à m2 ; p estlors divisé par deux. En règle générale, les tests bilaté-aux sont donc préférés puisqu’ils sont moins susceptibles deejeter à tort l’hypothèse nulle. L’utilisation de tests bila-éraux exige des effectifs plus grands que l’utilisation d’unest unilatéral.

es écarts-types (ou variances) sont-ils égaux ouon ?our répondre à cette seconde question, il est nécessaire’utiliser un test de comparaison des écarts-types. On pro-ose d’utiliser le test F.

Pour cela, il faut sélectionner une cellule vide puis choisira fonction « TEST.F » dans la liste des fonctions statistiques.e programme demande alors de sélectionner les valeurs dea variable de l’échantillon « non fumeurs » puis celles des

fumeurs ». La valeur calculée par le logiciel est celle du pu test F. Son interprétation est la suivante :si p du test F est inférieure 0,05 : les variances sontinégales ;
Page 9: Biostatistiques avec les feuilles de calcul Excel© ou équivalent

nt

C

Àbltasrdrqglsép

C

A

P

Fd

Biostatistiques avec les feuilles de calcul Excel© ou équivale

• si p du test F est supérieure à 0,05 : les variances sontégales ;

• dans l’exemple : p(Test F) = 0,73824488 ; p est supérieureà 0,05 ; les variances sont donc inégales.

Disposant des réponses à ces deux questions pré-liminaires, il est alors possible de calculer le test tde Student pour la série. Pour cela, il suffit de sélec-tionner la fonction « TEST.STUDENT » ou « Test.T »dans la liste des fonctions statistiques proposées.Le programme demande alors de remplir quatrechamps :• champs « matrice 1 » et « matrice 2 » : coordonnées des

séries « non fumeurs » puis « fumeurs » ;• champs « uni/bilatéral » : l’investigateur souhaite-t-il

effectuer un test bilatéral (taper le chiffre « 2 » dans lechamp) ou unilatéral (taper « 1 ») ?

• champs « type » : les variances (avec le test F ci-dessus)sont-elles égales (saisir « 2 ») ou inégales (saisir « 3 »).Dans le cas où le nombre de données est identique dansles deux séries (n1 = n2 = n/2), il faut alors choisir le testde Student par paires (taper « 1 »).

Le programme calcule alors la valeur du p par letest t de Student. Dans l’exemple, on obtient les valeurssuivantes :• avec un test unilatéral : p = 0,11870 ;• avec un test bilatéral : p = 0,23739.

La valeur de p est donc supérieure à 0,05 témoignantdu fait qu’il est impossible de rejeter l’hypothèse nulle ;la différence d’âge moyen observée chez les fumeurset les non-fumeurs n’est pas statistiquement significa-tive.

HET2B

385

onclusion

travers cet article, le lecteur a pu se familiariser avec laiostatistique. Il est néanmoins évident que ces quelquesignes ne suffiront pas à transformer ce dernier en sta-isticien averti. Qui plus est, cet article ne donne qu’unpercu simple et didactique de cette science exacte qui neupporte pas « l’à-peu-près ». Les conseils de spécialistesestent donc importants pour les auteurs désirant réaliseres calculs plus complexes ou souhaitant s’assurer que leuraisonnement mathématique est exact. Par ailleurs, bienue certains logiciels de biostatistiques soient en téléchar-ements gratuits (version d’essai avec période d’utilisationimitée dans certains cas) ; les logiciels plus complets sontouvent coûteux. Utiliser les feuilles de calculs Excel© ouquivalent peut donc s’avérer une solution économique etratique dans certains cas.

onflit d’intérêt

ucun.

our en savoir plus

alissard B. Comprendre et utiliser les statistiques dans les sciencese la vie. 2e édition. Paris: Éditions Masson, 1998. 332 p.

uguier M., Flahault A. Biostatistiques au quotidien. Paris: Éditionslsevier SAS; 2000. 204 p.aub P.J., Westheimer E. Biostatistics. Plast Reconstr Surg009;124(2), 200—208Bouyer J. Méthodes statistiques Médecine —iologie. ESTEM. Paris: éditions Inserm; 2008. 351 p.