10
Open Data Quelques bonnes pratiques sur Excel Jeudi 27 juin 2013

OpenData : quelques bonnes pratiques sur Excel

Embed Size (px)

DESCRIPTION

Mieux travailler sur Excel pour exporter un fichier CSV propre : structure des données, contenu et présentation. Cette présentation est une première base de travail. Vos avis sont les bienvenus !

Citation preview

Page 1: OpenData : quelques bonnes pratiques sur Excel

Open Data

Quelques bonnes pratiques sur Excel

Jeudi 27 juin 2013

Page 2: OpenData : quelques bonnes pratiques sur Excel

Page 2 - Bonnes pratiques sur Excel

Sommaire

La qualité d’une donnée Les étapes de publication Bonnes pratiques sur Excel

Structure Données Présentation

Page 3: OpenData : quelques bonnes pratiques sur Excel

Page 3 - Bonnes pratiques sur Excel

Contexte : la « qualité » d'une donnée

1. Données (non filtrées c'est-à-dire dégradées) en ligne quel que soit leur format

2. Données structurées (par exemple données tabulaires en CSV, XML, Excel, …)

3. Données libres d'être exploitées juridiquement et techniquement dans des formats non-propriétaires (notamment pas Excel)

4. Une URL par jeu de données, de sorte que l'on puisse pointer dessus

5. Lier les données à d'autres personnes ou infos pour fournir un contexteà ces données

Échelle de qualité définie en 2010 parTim Berners-Lee

Page 4: OpenData : quelques bonnes pratiques sur Excel

Page 4 - Bonnes pratiques sur Excel

Les étapes de publication

Fichier Excel

Fichier(s) Excel « nettoyé(s) »(structure, données, présentation)Ajout ou reformatage des adresses Filtre sur l’IDF pour les données externes

Géocodage via API OSM ou Google Map+ corrections (environ 5% des données)

Fichier CSV

Contrôle, nettoyage des données pour géocoder, …

Publication avec les métadonnées

Page 5: OpenData : quelques bonnes pratiques sur Excel

Page 5 - Bonnes pratiques sur Excel

Bonnes pratiques sur Excel : structure

Une feuille = un jeu de données Un tableau par feuille

1 onglet = un jeu de données Ou 1 jeu = fusion des onglets

Exemples Recensement des équipement sportifs = 1 fichier redécoupé en

8 jeux de données (1 par département) Domaines d’intérêt majeur (DIM) : équipements mi-lourds

financés en 2012 = 1 jeu de données reprenant l’ensemble des onglets

Page 6: OpenData : quelques bonnes pratiques sur Excel

Page 6 - Bonnes pratiques sur Excel

Bonnes pratiques sur Excel : structure

En-têtes sur la 1ère ligne (= titres de colonnes)

Pas de cellule vide dans les titres de colonnes

Page 7: OpenData : quelques bonnes pratiques sur Excel

Page 7 - Bonnes pratiques sur Excel

Bonnes pratiques sur Excel : structure

Pas de cellule fusionnée (titres et contenu)

Attention aux lignes masquées ! elles s’affichent en CSV

Éviter les lignes ou colonnes vides

Attention aux données « orphelines » !

Page 8: OpenData : quelques bonnes pratiques sur Excel

Page 8 - Bonnes pratiques sur Excel

Bonnes pratiques sur Excel : données

Indiquer des adresses quand cela est possible Formater l'adresse en 3 champs mini (voie, cp, ville)

Indiquer les unités de mesures (dans le fichier ou dans les métadonnées)

Préciser les dates (mois, année)

Pas de totaux ou sous-totaux

Attention aux formules "cassées" qu’il est parfois difficile de corriger

Page 9: OpenData : quelques bonnes pratiques sur Excel

Page 9 - Bonnes pratiques sur Excel

Bonnes pratiques sur Excel : présentation

Pas d’information transmise par la couleur

Dans le format CSV, ces données sont supprimées !

http://www.data.gouv.fr/DataSet/30382387?xtmc=frequentation+des+musees+de+france&xtcr=2

http://data.iledefrance.fr/explore/dataset/frequentation_des_musees_franciliens_entre_2006_et_2010#?tab=table

Page 10: OpenData : quelques bonnes pratiques sur Excel

Page 9 - Bonnes pratiques sur Excel

Bonnes pratiques sur Excel : présentation

Pas d’information transmise par la couleur

Dans le format CSV, ces données sont supprimées !

http://www.data.gouv.fr/DataSet/30382387?xtmc=frequentation+des+musees+de+france&xtcr=2

http://data.iledefrance.fr/explore/dataset/frequentation_des_musees_franciliens_entre_2006_et_2010#?tab=table