40
Les bases de données scientifiques et la friction des métadonnées Paul N. Edwards

Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Embed Size (px)

Citation preview

Page 1: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Les bases de données scientifiques et la friction des métadonnées

Paul N. Edwards

Page 2: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

26 February 2013 Paul N. Edwards

Page 3: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Les données dans les sciences de la nature

}  Les données “brutes” }  Indications d’instruments ou de capteurs, etc.

}  Les analyses de données }  La transformation d’une série d’indications en courbe ou autre

représentation de leur évolution }  Leur mise en relation avec d’autres séries d’indications

}  Les données simulées }  Données artificielles produites par un modèle

26 February 2013 Paul N. Edwards

Page 4: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Les métadonnées }  Une description précise de la fabrication des données

}  Où? }  Quand? }  Par qui? }  Dans quelles conditions? }  Avec quel genre d’instrument ou de capteur?

}  Répondent aux questions… }  de marges d’erreur }  de bruit }  de biais }  de fiabilité

26 February 2013 Paul N. Edwards

Page 5: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

la friction des données

26 February 2013 Paul N. Edwards

Page 6: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

La friction des données }  La collecte de données météorologiques }  Interfaces entre:

}  Capteurs analogiques et enregistrements numériques }  Un formulaire (papier) et un autre }  Les transmissions télégraphiques:

}  Codées, décodées et transcrites à la main }  Transcrites (à la main) de bandes télétypes sur cartes perforées

}  Tableaux (sur papier) et cartes perforées }  Cartes perforées et bandes magnétiques numériques }  Etc.

26 February 2013 Paul N. Edwards

Page 7: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

La friction des données

}  Le coût (en temps, énergie et attention humaine) de la collecte, du traitement, du transport, du stockage, de la gestion et de l’accès aux données en tant qu’objets concrets

}  La matérialité des données impose des coûts d’énergie, et ralentit les analyses }  Les rassembler dans un seul lieu }  Les mettre sur un seul support }  Les rendre commensurables et comparables }  Les rendre accessibles }  etc.

26 February 2013 Paul N. Edwards

Page 8: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Cartes perforées météorologiques

26 February 2013 Paul N. Edwards

Page 9: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Perforation des cartes

26 February 2013 Paul N. Edwards

Page 10: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Salle de triage des cartes

26 February 2013 Paul N. Edwards

Page 11: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

1950: des milliards de cartes perforées

Punch cards stored in main entrance hall US National Weather Records Center (1950s)

26 February 2013 Paul N. Edwards

Page 12: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Les données climatiques aux National Center for Atmospheric Research (USA)

6 Po en 2008 Temps à doubler = 20 mois Nouveau système de stockage: 30 Po 26 February 2013 Paul N. Edwards

Page 13: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

La collecte des données climatiques }  Les services météos nationaux collectent (parfois) et

transmettent (parfois) les données à... }  Le Réseau Mondial (1905-1953) }  Smithsonian World Weather Records (1927-1990s) }  Monthly Climatic Data for the World (1950s-présent)

}  Les “data guys”: collecteurs professionels }  NCAR et GISS (EUA) }  Hadley Centre et Climatic Research Unit (Royaume Uni) }  URSS/Russie }  autres

}  Nettoyage des données et extension des métadonnées

26 February 2013 Paul N. Edwards

Page 14: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Les tableaux de données climatiques

World Weather Records (volume 1, 1927)

26 February 2013 Paul N. Edwards

Page 15: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Les tableaux de données climatiques

Monthly Climatic Data for the World (1998)

26 February 2013 Paul N. Edwards

Page 16: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Des questions difficiles… }  Que sont devenus les enregistrements originaux? }  Comment est-ce qu’on a calculé les moyennes? }  Une station a-t-elle subi des changements au fil des

années qui aurait eu des effets importants sur la qualité de ses données?

26 February 2013 Paul N. Edwards

Page 17: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

GIEC 4e rapport (2007)

26 February 2013 Paul N. Edwards

Page 18: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

la friction des métadonnées

26 February 2013 Paul N. Edwards

Page 19: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Les tableaux de données climatiques

World Weather Records (volume 1, 1927)

26 February 2013 Paul N. Edwards

Page 20: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Source: Palutikof and Goddess, 1986

Méthodes de calcul de la température moyenne journalière

26 February 2013 Paul N. Edwards

Page 21: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Changements de pluviomètres et de nivomètres (Karl et al. 1993)

26 February 2013 Paul N. Edwards

Page 22: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Changements des horaires d’observation (Karl et al. 1993)

26 February 2013 Paul N. Edwards

Page 23: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

La méthode d’inversion de l’infrastructure

}  Une archéologie de l’infrastructure des données

}  Une méthode fondamentale de la climatologie }  et de toute autre science

historique…

}  Résultat: révision des métadonnées

26 February 2013 Paul N. Edwards

Page 24: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

GIEC 4e rapport (2007)

26 February 2013 Paul N. Edwards

Page 25: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Un effet de la friction des données }  Köppen 1881: fewer than 100 stations }  Callendar 1938: about 200 stations }  Willett 1950: 183 stations }  Callendar 1961: 450 stations }  Mitchell 1963: 183 stations

Ò Jones et al. 1986: 2194 stations Ò Brohan et al. 2006: 4349 stations

Ò Muller et al. (2012): 39,340 stations

26 February 2013 Paul N. Edwards

Page 26: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Berkeley Earth (2012) Les moyennes globales de températures

1750 1800 1850 1900 1950 2000

−1.5

−1

−0.5

0

0.5

1

Tem

pera

ture

Ano

mal

y ( °

C )

Decadal Land−Surface Average Temperature

NASA GISSNOAA / NCDCHadley / CRUBerkeley Earth

10−year moving average of surface temperature over landGray band indicates 95% uncertainty intervalÉtude dirigée par

Richard Muller — physicien et climatosceptique à UC Berkeley Financée par les frères Koch (des riches conservateurs de l’extrème droite)

26 February 2013 Paul N. Edwards

Page 27: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

surfacestations.org

26 February 2013 Paul N. Edwards

Page 28: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

26 February 2013 Paul N. Edwards

Page 29: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

A. Watts, “Is the U.S. Temperature Record Reliable?”, Heartland Institute, 2009

MMTS = Maximum/Minimum Temperature System (thermistor électronique )

“Nous étions choqués par ce que nous avons trouvé… C’est probable que 9 sur 10 stations rapportent des températures en hausse parcequ’ils sont mal situées sur leurs sites.” 26 February 2013 Paul N. Edwards

Page 30: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

“Évaluations de la qualité des stations d’après le protocole de NOAA/NCDC: Climate Reference Network Rating Guide - adopted [sic] from NCDC Climate Reference Network Handbook, 2002, specifications for siting (section 2.2.1)” 26 February 2013 Paul N. Edwards

Page 31: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Menne et al. (2010)

}  Confirment les métadonnées recuillies par surfacestations.org

}  Comparent les stations bien situées avec celles qui sont mal situées

}  Comparent les stations dans le USHCN avec celles dans le USCRN (Réseau de recherche climatique des EUA) }  USCRN: 114 stations (y compris 7 en double)

}  Des instruments très précis, en 3 exemplaires }  Les sites et l’instrumentation des stations sélectionnés selon les

normes les plus rigoureux

26 February 2013 Paul N. Edwards

Page 32: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

!"#

#

#$%&#

Figure 1. USHCN exposure classifications according to surfacestations.org (circles and $%'#

triangles). Filled symbols are in agreement with independent assessments by $%(#

NOAA/National Weather Service Forecast Office personnel. Ratings are based on criteria $$)#

similar to those used to classify U.S. Climate Reference Network stations. In this analysis, $$"#

ratings 1 and 2 are treated as “good” exposure sites; ratings 3, 4 and 5 are considered $$!#

“poor” exposure sites. $$%#

Source: “V1.05 USHCN Master Station List”. (Note this file was downloaded from $$$#

www.surfacestations.org in June 2009, but is indicated as having been updated on $$*#

04.18.2008. A more complete set of USHCN station classifications as referenced in Watts $$+#

[2009] was not available for general use at the time of this analysis). $$&#

!$$'#

$$(#

USHCN exposure classifications according to surfacestations.org (circles and triangles). Filled symbols are in agreement with independent assessments by NOAA/National Weather Service Forecast Office personnel. …Ratings 1 and 2 are treated as “good” exposure sites; ratings 3, 4 and 5 are considered “poor” exposure. Source: “V1.05 USHCN Master Station List”. (Downloaded from www.surfacestations.org in June 2009. A more complete set of USHCN station classifications as referenced in Watts [2009] was not available for general use at the time of this analysis).

Menne et al. (2010), Fig. 1

26 February 2013 Paul N. Edwards

Page 33: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

!"#

#

#$%"#

#$%%#

Figure 7. Comparison of the CONUS average annual (a) maximum and (b) minimum $%&#

temperatures calculated using USHCN version 2 adjusted temperatures [Menne et al. 2009] $&'#

and USCRN departures from the 1971-2000 normal. Good and poor site ratings are based $&(#

on surfacestations.org as in Fig. 1. $&!#

!$&)#

#$&$#

#$&*#

$&+#

“Comparison of the [continental US] average annual (a) maximum and (b) minimum temperatures calculated using USHCN version 2 adjusted temperatures [Menne et al. 2009] and USCRN departures from the 1971-2000 normal. Good and poor site ratings are based on surfacestations.org.” Source: Menne et al., "On the reliability of the U.S. Surface Temperature Record,” J. Geophys. Research (2010), Fig. 7

26 February 2013 Paul N. Edwards

Page 34: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Menne et al. (2010) }  Conclusion: l’exposition mauvaise de la majorité des

stations USHCN est confirmé, mais… }  « Les ajustements appliqués aux données USHCN Version 2

prennent largement en compte les effets de changements d’instruments et d’expositions, bien qu’un petit biais négatif [froid] paraît rester… » « Adjustments applied to USHCN Version 2 data largely account for the impact

of instrument and siting changes, although a small overall residual negative (“cool”) bias appears to remain… »

}  « On trouve aucune évidence d’une inflation des tendances de température due à une mauvaise exposition des stations. » }  We find no evidence that …US temperature trends are inflated

due to poor station siting.”

26 February 2013 Paul N. Edwards

Page 35: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

conclusions

26 February 2013 Paul N. Edwards

Page 36: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Les métadonnées: un produit ou un processus?

}  Une enquête quasi-ethnographique sur 3 grands projets en climatologie, écologie, et surveillance environmentale

}  Résultats: }  Chaque projet tache de mettre en place des systèmes

automatisés de collecte de métadonnées }  Mais la collecte de métadonnées restent un travail difficile

}  Un travail sans fin du à: ¨  Le versionnage de bases de données ¨  Les motivations des scientifiques ¨  Le fait qu’on ne sait pas dès le début qu’une base de données sera utile

pour autrui

}  La communication entre des individus, souvent informelle, reste le processus de base dans le partage de données

26 February 2013 Paul N. Edwards

Page 37: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Un règle invariable dans le partage de données

}  Plus la distance entre la discipline d’origine et celle qui s’en sert est grande, plus les métadonnées sont essentielles — et plus large est le champ de précisions requises

26 February 2013 Paul N. Edwards

Page 38: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

Les guerres de données: on conteste… }  Les bases de données }  Les modèles d’analyse de données

}  ClearClimateCode.org

}  Les interprétations des données }  …et bientôt les simulations de la circulation générale

atmosphérique? }  … et les métadonnées

26 February 2013 Paul N. Edwards

Page 39: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

“Les métadonnées ne sont le métier de personne” — S.L. Star

}  Les scientifiques? }  Les gestionneurs de données? }  La foule “crowdsourcing”? }  Les jeunes? }  Les spécialistes en sciences sociales? }  Les “data scientists”?

26 February 2013 Paul N. Edwards

Page 40: Edwards 2012 les bases de données scientifiques et la friction des métadonnées gobelins

2009 sondage de 134 scientifiques du communauté Machine Learning

20 Knowledge in the “Republic of Science” [9-Feb-10

clean up and document.23

It seems appropriate to label this the “Newton Effect” for its

parallel in science history: After Newton published his first scientific paper in

Philosophical Transactions24

he was so inundated with questions from members of the

Royal Society, it also became his last journal article.25

(Willinsky 2005, chapter 13,

p198).

Table 9: Top Reasons Not to Share Data

Not Share

The time it takes to clean up and document for release 55.64%

The possibility that your data may be used without citation 43.61%

Legal barriers, such as copyright 40.70%

Time to verify privacy or other administrative data concerns 39.10%

The potential loss of future publications using this data 35.82%

Competitors may get an advantage 34.33%

Dealing with questions from users about the data 33.83%

Technical limitations, ie. webspace platform space constraints 27.82%

Whether there is intense competition in the topic 24.81%

Whether you put in a large amount of work building the dataset 24.63%

Availability of other data that might substitute for your own 14.93%

Table 10: Top Reasons Not to Share Code

Not Share

The time it takes to clean up and document for release 77.78%

Dealing with questions from users about the code 51.85%

The possibility that your code may be used without citation 44.78%

The possibility of patents or other IP constraints 40.00%

Legal barriers, such as copyright 33.72%

Competitors may get an advantage 31.85%

The potential loss of future publications using this code 31.11%

The code might be used in commercial applications 28.15%

Availability of other code that might substitute for your own 21.64%

Whether you put in a large amount of work building the code 20.00%

Technical limitations, ie. webspace platform space constraints 20.00%

23

“Dealing with questions from users about the data” is the seventh most highly cited reason not to

share data. 24

This was also the first substantive scientific paper published in the Transactions, Thomas Kuhn

(1978, 27) cited in Willinsky p 200. 25

“the publication of this letter proved to be a more open and immediate forum for his work than Newton

was willing to bear, and he did not again use the journal to publish his experimental pursuits but relied

exclusively on the unhurried book, most notably with the Principia, published fifteen years later in 1687.”

Willinsky p200. This firestorm of exchange seems to have lead to the creation of the blind review process.

Source: V. Stodden, “The Scientific Method in Practice: Reproducibility in the Computational Sciences,” MIT Sloan School Working Paper 4773-10 (2010)

26 February 2013 Paul N. Edwards