34
Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages – K. CLAUDIO 1/27 Estimation de la consommation d’eau d’une population à partir d’un échantillon d’usagers télérelevés Karim CLAUDIO Thèse CIFRE co-encadrée par Vincent Couallier (IMB), Yves Le Gat (IRSTEA) et Jérôme Saracco (INRIA)

Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

Embed Size (px)

Citation preview

Page 1: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

Cliquez pour modifier le style du titre

Cliquez pour modifier le style des sous-titres du masque

07/11/2012 7e colloque francophone sur les sondages – K. CLAUDIO 1/27

Estimation de la consommation d’eau d’une population à partir d’un échantillon

d’usagers télérelevés

Karim CLAUDIO

Thèse CIFRE co-encadrée par Vincent Couallier (IMB), Yves Le Gat (IRSTEA) et Jérôme Saracco (INRIA)

Page 2: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 2/34 7e colloque francophone sur les sondages – K. CLAUDIO

Mise en place du problèmeMise en place du problème

Objectifs :

Estimation des fuites sur le réseau d’eau potable Evaluation du rendement de réseau

Rendement de réseau (t) = Volume total consommé par les usages du réseau (t) Volume total délivré au réseau (t)

Page 3: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 3/34 7e colloque francophone sur les sondages – K. CLAUDIO

Mise en place du problèmeMise en place du problème

Objectifs :

Evaluation des fuites sur le réseau d’eau potable Estimation du rendement de réseau

Rendement de réseau (t) = Volume total consommé par les usages du réseau (t) Volume total délivré au réseau (t)

Données de volume entrant :

Débit instantané (sur un pas de temps de 6 min) Débit réel (depuis mai 2011 – nombre d’impulsions (100L) sur 5 min)

Page 4: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 4/34 7e colloque francophone sur les sondages – K. CLAUDIO

Mise en place du problèmeMise en place du problème

Objectifs :

Evaluation des fuites sur le réseau d’eau potable Estimation du rendement de réseau

Rendement de réseau (t) = Volume total consommé par les usages du réseau (t) Volume total délivré au réseau (t)

Données de volume sortant :

Consommation annuelle facturée (base clientèle) Consommation horaire ou toutes les 6h (télérelève des compteurs)

Page 5: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 5/34 7e colloque francophone sur les sondages – K. CLAUDIO

Télérelevé des compteurs d’eauTélérelevé des compteurs d’eau

Fonctionnement :

Récolte automatique des index de consommation individuelle consommation cumulée

Sur un pas de temps horaire ou toutes les 6 heures Télérelevé inexistant, partiel ou généralisé en fonction des

communes

Page 6: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 6/34 7e colloque francophone sur les sondages – K. CLAUDIO

Consommation de la populationConsommation de la population

Télérelevé des compteurs d’eau généraliséTélérelevé des compteurs d’eau généralisé Consommation totale de la population (Δt ≥ 1 heure ou 6 heures)

Télérelevé des compteurs d’eau inexistant ou partiel Télérelevé des compteurs d’eau inexistant ou partiel Estimation de la consommation totale (coût et temps de déploiement Estimation de la consommation totale (coût et temps de déploiement

importants)importants) Télérelevé inexistant : constitution d’un échantillon

- Définir un plan d’échantillonnage optimal

Télérelevé partiel : échantillon déjà constitué- Redressement des estimateurs

Page 7: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 7/34 7e colloque francophone sur les sondages – K. CLAUDIO

Cas d’applicationCas d’application

Commune entièrement télérelevée : commune de CanéjanCommune entièrement télérelevée : commune de Canéjan 1822 usagers (1822 compteurs)

Télérelevé généralisé des compteurs d’eau

Télérelevé des index toutes les 6 heures (4 index/jour)

Historique de données complet sur 2 ans (2010/2011)

2 parties distinctes :2 parties distinctes :

1. Constituer un échantillon « optimal » pour estimer la consommation de la population

2. Redresser un estimateur issu d’un échantillon « non optimal »

Page 8: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 8/34 7e colloque francophone sur les sondages – K. CLAUDIO

1 - Constituer un échantillon1 - Constituer un échantillon

Page 9: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 9/34 7e colloque francophone sur les sondages – K. CLAUDIO

Constitution d’un échantillonConstitution d’un échantillon

Sondage Définir la grandeur d’intérêt Définir le pas de temps d’analyse (Δt)

Sondage stratifié : découpage de la population

Choix de la variable de stratification

Choix du nombre L de strates et des bornes des strates

Taille n de l’échantillon et allocation dans chaque strate

Page 10: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 10/34 7e colloque francophone sur les sondages – K. CLAUDIO

Variable de stratificationVariable de stratification

Variable d’intérêt : Consommation (journalière/hebdomadaire) individuelle en 2011 estimation du total

Variable de stratification : - connue sur toute la population - corrélée à la variable d’intérêt

Consommation individuelle annuelle année A-1 (2010)0.2

0.4

0.6

0.8

0.2

0.4

0.6

0.8Boite à moustaches des 365/53 coefficients de corrélation linéaire

entre la variable d’intérêt et la consommation annuelle individuelle de l’année X (CX)

Consommation annuelle

individuelle

Page 11: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 11/34 7e colloque francophone sur les sondages – K. CLAUDIO

Variable de stratificationVariable de stratification

Fonction de

répartition :

1822 individus

Min : 0 m3 (-160 m3)

Moy : 117 m3

Max : 4543 m3

Page 12: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 12/34 7e colloque francophone sur les sondages – K. CLAUDIO

Variable de stratificationVariable de stratification

Fonction de

répartition :

Zoom (vol ≤ 200 m3)

93 % de la population

20 % des individus ont eu une consommation annuelle en 2010

≤ 50 m3

Page 13: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 13/34 7e colloque francophone sur les sondages – K. CLAUDIO

Nombre Nombre L L de stratesde strates

Gros consommateurs :

*Conso ≥ 1000 m3

Page 14: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 14/34 7e colloque francophone sur les sondages – K. CLAUDIO

Bornes des stratesBornes des strates

Différentes approches

1. Basée sur une approche métier (volume d’eau consommé par un ménage d’1 personne, de 2 personnes, etc.)

2. Basée sur la répartition de la variable de stratification (Dalenius & Hodges, Serfling)

3. Algorithme de sélection de L-1 strates sondées partiellement et la Lième enquêtée exhaustivement (Lavallée & Hiridoglou )

Page 15: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 15/34 7e colloque francophone sur les sondages – K. CLAUDIO

Nombre Nombre L L de stratesde strates

Nombre de strates restantes : L* = L -1 Strates : réduction de la dispersion

Nombre de strate L*

Som

me

des

varia

nces

intr

a-st

rate

s Réduction ≤ 1%

Page 16: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 16/34 7e colloque francophone sur les sondages – K. CLAUDIO

Nombre Nombre L L de stratesde strates

Découpage en strates :

Str.11

Fonc

tion

de ré

parti

tion

BornesBornes NNhh

Strate 1 [ 0 ; 30 [ 180

Strate 2 [ 30; 50 [ 173

Strate 3 [ 50 ; 65 [ 205

Strate 4 [ 65 ; 80 [ 200

Strate 5 [ 80 ; 95 [ 198

Strate 6 [ 95 ; 110 [ 191

Strate 7 [ 110 ; 130 [ 180

Strate 8 [ 130 ; 150 [ 174

Strate 9 [ 150 ; 185 [ 159

Strate 10 [ 185 ; 1000 [ 149

Strate 11 [ 1000 ; + ∞ [ 13

Page 17: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 17/34 7e colloque francophone sur les sondages – K. CLAUDIO

Nombre Nombre LL de strates de strates

Découpage en strates :

Str.1

Str.8 Str.10Str.2 Str.4 Str.6

Str.9Str.7Str.5Str.3

Fonc

tion

de ré

parti

tion

BornesBornes NNhh

Strate 1 [ 0 ; 30 [ 180

Strate 2 [ 30; 50 [ 173

Strate 3 [ 50 ; 65 [ 205

Strate 4 [ 65 ; 80 [ 200

Strate 5 [ 80 ; 95 [ 198

Strate 6 [ 95 ; 110 [ 191

Strate 7 [ 110 ; 130 [ 180

Strate 8 [ 130 ; 150 [ 174

Strate 9 [ 150 ; 185 [ 159

Strate 10 [ 185 ; 1000 [ 149

Strate 11 [ 1000 ; + ∞ [ 13

Page 18: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 18/34 7e colloque francophone sur les sondages – K. CLAUDIO

n en fonction d’une précision σ :

Objectif = détection de fuite σ cible = 13 m3 / jour (estimation du débit de fuite sur branchement)

Taille de l’échantillon Taille de l’échantillon nn

Sstr-h est la racine carrée de la dispersion de la variable de stratification au sein de la strate h, S²yh(t) est la dispersion de la variable d’intérêt à la date t (jour ou semaine) dans la strate h.

valeur inconnue (à estimer à partir d’une population semblable)

Page 19: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 19/34 7e colloque francophone sur les sondages – K. CLAUDIO

Taille de l’échantillon Taille de l’échantillon nn

n = f(σ ):

Taux de sondage sélectionné : f = 35%

nn ff

Basée sur les données journalièresBasée sur les données journalières959

0.52(min = 337 / max = 1815)

Basée sur les données Basée sur les données hebdomadaireshebdomadaires

6380.35

(min = 145 / max = 1802)

Page 20: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 20/34 7e colloque francophone sur les sondages – K. CLAUDIO

Répartition de l’échantillon Répartition de l’échantillon au sein des stratesau sein des strates

Allocation de l’échantillonAllocation de l’échantillon

Allocation proportionnelle

Taille des sous-échantillons (nh) proportionnelle :

À la taille de la strate h (Nh) Au taux de sondage (f=n/N)

Allocation de Neyman

Taille des sous-échantillons (nh) proportionnelle :

À la taille de la strate h (Nh) et à son poids (Wh = Nh / N) À la dispersion au sein de la strate h (σh)

0

30

60

90

120

150

str.1 str.2 str.3 str.4 str.5 str.6 str.7 str.8 str.9 str.10 str.11

Eff

ec

tif

de

la

str

ate

(N

h)

0%

20%

40%

60%

80%

100%

Ta

ux

de

so

nd

ag

e d

an

s la

str

ate

(f

h)

nh_Neyman nh_Proportionnel

fh_Neyman fh_Proportionnel

Page 21: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 21/34 7e colloque francophone sur les sondages – K. CLAUDIO

Validation de la qualité de la méthode par Validation de la qualité de la méthode par simulation (Monte Carlo)simulation (Monte Carlo)

Résultats de 10 000 simulations d’échantillon : N = 1822 individus 11 strates de consommation (dont une strate « gros consommateurs ») n = f x N = 0.35 x 1822 ≈ 638 individus

strate Nh Sh2 Wh nh fh

1 180 100.3 9.9% 53 29.4%2 173 30.2 9.5% 28 16.2%3 205 20.2 11.3% 27 13.2%4 200 18.0 11.0% 25 12.5%5 198 19.5 10.9% 26 13.1%6 191 17.7 10.5% 24 12.6%7 180 33.4 9.9% 31 17.2%8 174 35.8 9.5% 31 17.8%9 159 113.5 8.7% 50 31.4%

10 149 22 206.2 8.2% 149 100%11 13 1 277 965.0 0.7% 13 100%

Page 22: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 22/34 7e colloque francophone sur les sondages – K. CLAUDIO

RésultatsRésultats

Δt = 1 jour

Cons

omm

ation

tota

le (m

3 )

Page 23: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 23/34 7e colloque francophone sur les sondages – K. CLAUDIO

RésultatsRésultats

Δt = 1 semaine

Cons

omm

ation

tota

le (m

3 )

0

1 000

2 000

3 000

4 000

5 000

6 000

sem.0 sem.4 sem.8 sem.12 sem.16 sem.20 sem.24 sem.28 sem.32 sem.36 sem.40 sem.44 sem.48 sem.52

Volume mesuré Volume hebdo estimé (strat - moyenne sur 10 000 simulations)

Page 24: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 24/34 7e colloque francophone sur les sondages – K. CLAUDIO

RésultatsRésultats

Jour Semaine

Volume total mesuré (sur 1 an) 214 396.4 Volume total estimé (sur 1 an) 214 380.1 214 434.6Ecart moyen (valeur absolue) 0.14 0.78Ecart maximal (valeur absolue) 1.23 4.27σ moyen 18.2 84.7σ médian 14.1 72.3σ minimal 7.3 19.9σ maximal 90.8 304.6% σ ≤ 13 m3 (jour) / 91 m3 (semaine) 42% 67%

Ecart

Précision

Performance des estimateurs en fonction du pas de temps :

Page 25: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 25/34 7e colloque francophone sur les sondages – K. CLAUDIO

Résumé du sondage stratifiéRésumé du sondage stratifié

Grandeur d’intérêt : consommation hebdomadaire en 2011 (A) de la population

Variable de stratification : consommation annuelle individuelle en 2010 (A-1)

Nombre L de strates : 11 strates

L défini en fonction de la variance intra strate de la variable de stratification

Bornes définies grâce à la méthode de Dalenius & Hodge (1953)

Taux de sondage f : 35%

Répartition au sein des strates : allocation optimale de Neyman (1977)

Ces paramètres permettraient d’atteindre une précision ≤ 91m3

Page 26: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 26/34 7e colloque francophone sur les sondages – K. CLAUDIO

2 - Améliorer un estimateur2 - Améliorer un estimateur

Page 27: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 27/34 7e colloque francophone sur les sondages – K. CLAUDIO

Post-stratificationPost-stratification

Stratification selon une variable X Post-stratification selon une variable Z

Population P (#P = N)

H strates Gh (h = 1, …, H - #Gh= Nh) K post - strates Dk (k = 1, …, K - #Dk= Mk)

Echantillon S (#S = n)

H échantillons gh (h = 1, …, H - #gh= nh) K échantillons dk (k = 1, …, K - #dk= mk)

Akh = DK ⋂ Gh (# Akh = Θkh)

αkh = dK ⋂ gh (# αkh = θkh)

Yi (t) consommation de l’individu i au moment t

Page 28: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 28/34 7e colloque francophone sur les sondages – K. CLAUDIO

Post-stratificationPost-stratification

1 . Stratification selon une variable « obsolète »

Variable de stratification : consommation annuelle individuelle en 2007 8 strates de consommation : 0, 50, 100, 150, 200, 300, 500, 1000 m3 (bornes métier) f = 10%

2 . Post-stratification selon la consommation annuelle individuelle 2010

str07 1 2 3 4 5 6 7 8

Nh 483 520 466 209 95 20 14 15

Nh/N 27% 29% 26% 12% 5% 1% 1% 1%

nh 47 40 35 16 13 5 11 15

Pstr10 1 2 3 4 5 6 7 8 9 10 11

Mk 180 180 198 212 194 193 182 161 158 151 13

Mk/N 10% 10% 11% 12% 11% 11% 10% 9% 9% 8% 1%

Page 29: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 29/34 7e colloque francophone sur les sondages – K. CLAUDIO

Comparaison :Stratification VS Post-Comparaison :Stratification VS Post-stratification par simulation (Monte Carlo)stratification par simulation (Monte Carlo)

Volume réel (m3) 214 396.4

Ecart

Volume estimé strat. (m3) 214 387.4

(écart en %) (0.01%)

Volume estimé post-strat. (m3) 212 924.1

(écart en %) (0.7%)

Précisionσ moyen (strat.) 263.9

σ moyen (post-strat.) 289.3

Page 30: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 30/34 7e colloque francophone sur les sondages – K. CLAUDIO

Post-stratification Post-stratification Mauvaise PerformanceMauvaise Performance

Taille d’échantillon vide (Taille d’échantillon vide (θθkh kh = 0= 0))

Si Θkh = 0 aucun problème d’estimation (pas de population)

Si Θkh ≠ 0 individus (Akh) non représentés

Θkh / θkh ≈ 0 Akh non représentés (introduction d’un biais)

Akh’ = Akh Ak(h+i) (i = 1-h, 2-h, … , H-h)

ouAk’h = Akh A(k+j)h (j = 1-k, 2-k, … , K-k)

le regroupement est aléatoire (non contrôlé par le sondeur)

Page 31: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 31/34 7e colloque francophone sur les sondages – K. CLAUDIO

Post-stratification - strates videsPost-stratification - strates vides

Effectif des AEffectif des Akhkh ( (ΘΘkhkh))

Plus le nombre de Akh augmente plus le risque d’obtenir des Θkh faibles voire nuls augmente.

Page 32: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 32/34 7e colloque francophone sur les sondages – K. CLAUDIO

Post-stratification - échantillons videsPost-stratification - échantillons vides

Taille d’échantillon vide (Taille d’échantillon vide (θθkh kh = 0)= 0)

Nb de αkh vides* % de αkh vides *

Minimum 6 10%

Médiane 14 23%

Maximum 23 38%

Statistiques sur les 10 000

simulations par Monte Carlo

* hors Akh vides

Pourcentage de simulations où

les θkh sont nuls (NA signifie que les Θkh sont nuls)

Page 33: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 33/34 7e colloque francophone sur les sondages – K. CLAUDIO

Post-stratificationPost-stratification

Post-stratification consécutive à une stratification :Post-stratification consécutive à une stratification :

estimation sans biais du total de la consommation individuelle

risque de « strates » non représentées :

pas de gain notable en termes de précision sur l’application concernée

Perspectives :

diminuer le nombre de strates et/ou post-strates

augmenter le taux de sondage

Redressement par régression, calage, etc.

Page 34: Cliquez pour modifier le style du titre Cliquez pour modifier le style des sous-titres du masque 07/11/2012 7 e colloque francophone sur les sondages –

07/11/2012 34/34 7e colloque francophone sur les sondages – K. CLAUDIO

Merci de votre attentionMerci de votre attention