23
IDENTIFICATION DES DONNÉES LES RECOMMANDATIONS RDA 20/21 janvier 2016

Recommandations rda sur la citation des données

Embed Size (px)

Citation preview

Page 1: Recommandations rda sur la citation des données

I D E N T I F I C A T I O N D E S D O N N É E S

L E S R E C O M M A N D A T I O N S R D A

20/21 janvier 2016

Page 2: Recommandations rda sur la citation des données

Présentation globale

Page 3: Recommandations rda sur la citation des données

3

Add an image

Constat d’une d i ff iculté Citer des données n’est pas trivial

• Un jeu de données peut évoluer dans le temps

• Un jeu de données peut être corrigé

• On peut vouloir citer plusieurs ou des parties de jeux de données

• Citer des données n’est pas citer les programmes ou les personnes

Les préconisat ions RDA Travail de 18 mois

14 préconisations permettant un mécanisme de citation précis

des données

Téléchargement https://rd-alliance.org/system/files/documents/RDA-DC-

Recommendations_151020.pdf

C i t e r l e s D o n n é e s

3

Page 4: Recommandations rda sur la citation des données

O b j e c t i f s

4

CITATION Permettre l’identification et la citation de toute partie d’un ensemble de données associées

à un instant précis du système de données

RÉCUPÉRATION Permettre de récupérer – à partir d’une citation – les données dans l’état qu’elles avaient au

moment où la citation a été définie

STABILIT É Assurer une stabilité au fil des changements technologiques

Page 5: Recommandations rda sur la citation des données

S o l u t i o n

5

SUIVI des

VERSIONS

Les différentes versions d’une données doivent être conservées dans le système de

données

HORODATAGE Chaque opération sur les données doit être horodatée

STOCKAGE des

REQUÊTES

Les jeux de données sont identifiées en assignant des PID aux requêtes qui les ont retournés.

Le couple PID-Requête* est stocké de manière pérenne dans le SI : c’est le query store

* On parle bien des requêtes et non de leur résultat.

Page 6: Recommandations rda sur la citation des données

Les recommandations

Page 7: Recommandations rda sur la citation des données

A : P r é p a r a t i o n s d e s d o n n é e s ( R 1 R 3 )

7

R1

Les différentes versions des données doivent être conservées.

G e s t i o n d e s v e r s i o n s

R2

Les opérations sur les données – addition, suppression, … – doivent-être horodatées.

H o r o d a t a g e

R3

Les requêtes et leurs métadonnées doivent être stockées de manière pérenne et doivent pouvoir être exécutées à nouveau.

S t o c k a g e d e s r e q u ê t e s

Page 8: Recommandations rda sur la citation des données

B : I d e n t i f i c a t i o n d e s j e u x ( R 4 R 1 0 )

8

R4

Les requêtes doivent être normalisées afin de détecter des requêtes identiques.

U n i c i t é d e s r e q u ê t e s

R5

L’ordre des données au sein des jeux de données produits lors des extractions doit être stable.

S t a b i l i t é d e l ’o r d r e d e s d o n n é e s

R6

Lors de la première exécution d’une requête, la signature du jeu de données (somme de contrôle) doit être calculée et stockée avec la requête afin de vérifier le résultat d’une re-exécution.

Vé r i f i c a t i o n d e s j e u x d e d o n n é e s

Page 9: Recommandations rda sur la citation des données

B : I d e n t i f i c a t i o n d e s j e u x ( R 4 R 1 0 )

9

R7

Chaque requête doit contenir la date de son exécution ou, préférablement, la date de la dernière mise à jour de la base de données

H o r o d a t a g e d e l a r e q u ê t e

R8

Le PID doit permettre d’identifier la requête. Le calcul du PID de la requête doit prendre en compte tous les paramètres, y compris l’horodatage

A f f e c t a t i o n d ’ u n P I D à l a r e q u ê t e

R9

Le query store doit stocker la requête et ses métadonnées: requête normalisée, somme de contrôle, horodatage… Ces informations doivent pouvoir être affichées sans calcul complémentaire conséquent

S t o c k a g e d e l a r e q u ê t e (c o m p l é m e n t R 3 )

Page 10: Recommandations rda sur la citation des données

B : I d e n t i f i c a t i o n d e s j e u x ( R 4 R 1 0 )

10

R10

Le texte de citation doit être généré automatiquement doit être fourni en même temps que le jeu de données

Te x t e d e c i t a t i o n a u t o m a t i q u e s

Page 11: Recommandations rda sur la citation des données

C : R e - e x é c u t i o n d e s r e q u ê t e s ( R 1 1 R 1 2 )

11

R11

La landing page des PID doit permettre • De re-exécuter la requête •Obtenir les métadonnées associées à la requête (y.c. le texte de citation)

L a n d i n g P a g e

R12

Les fonctionnalités de R11 doivent être automatisables (interopérabilité)

A u t o m a t i s a t i o n

Page 12: Recommandations rda sur la citation des données

D : I n v a r i a n c e a u c h a n g e m e n t ( R 1 3 R 1 4 )

12

R13

Lors d’une migration (modèle du stockage, technologique, hébergement,…) les requêtes doivent être migrées (adaptation, déplacement)

M i g r a t i o n d e s r e q u ê t e s

R14

Une migration de requête doit faire l’objet d’une vérification de re-exécution (comparaison des sommes de contrôle) .

Vé r i f i c a t i o n d e s m i g r a t i o n s

Page 13: Recommandations rda sur la citation des données

C o m p l é m e n t s

13

IMPLÉMENTATIONS • Dans le cadre de son activité le WG Data Citation a aidé à la mise en place

d’implémentations spécifiques pilotes

• Pas d’implémentation générique pour le moments

POURSUITE

Le WG a achevé sa mission initiale

Suite de l’activité :

- Un document complémentaire aux recommandations est en cours de validation

- Webminaire en mars

Page 14: Recommandations rda sur la citation des données

Extensions

Page 15: Recommandations rda sur la citation des données

R e c o m m a n d a t i o n s s u p p l é m e n t a i r e s

15

R9b

Parmi les critères de recherche, certains doivent permettre au PI d’identifier facilement ces données afin de créer facilement les PID le concernant

Re c h e r c h e d e s é l e c t i o n s p o u r l e p r o d u c t e u r d e l a d o n n é e

R10b

Le système d’information doit proposer la publication du PID sur une Registration Authorities (RA). La publication n’est pas le seul fait du fournisseur de la donnée. On peut ne stocker que les requêtes pour lesquelles l’utilisateur a explicité exprimé ce besoin

P u b l i c a t i o n d u P I D

R10c

Le système doit permettre d’obtenir un PID (et de le publier) sans pour autant réaliser l’extraction (dans ce cas la somme de contrôle n’est pas présente)

G é n é r a t i o n d u P I D s a n s e x é c u t e r l ’e x t r a c t i o n

Page 16: Recommandations rda sur la citation des données

R e c o m m a n d a t i o n s s u p p l é m e n t a i r e s

16

R11b

La landing page doit permettre de savoir si les données ont été modifiées depuis la requête

L a n d i n g p a g e é t e n d u e

R11c

La landing page doit permettre de re-exécuter la requête avec les données actuelles (c.a.d. sans tenir compte de l’horodatage de la requête)

O b t e n i r l e s d o n n é e s p l u s r é c e n t e s

R?

Le système doit permettre de PID correspondant à plusieurs PID existants

G é n é r e r u n P I D d e P I D s

Page 17: Recommandations rda sur la citation des données

Pros & Cons

Page 18: Recommandations rda sur la citation des données

AVA N TA G E S

Répond à un besoin scientif ique (?)

Précis ion de la c itat ion

Traite la quest ion de la granularité

Est compatible avec le mécanisme classique

Ouvre la publ icat ion à l ’ut i l isateur

P r o s & C o n s C o m p l é m e n t s

Lien avec d’autres problèmatiques

structurantes (métadonnées , provenance,…)

Page 19: Recommandations rda sur la citation des données

I N C O N V E N I E N T S

Implémentations l imitées à des prototypes

Eléments structurel lement spécif iques

Certaines fonctionnal ités complexes

P r o s & C o n s

Page 20: Recommandations rda sur la citation des données

S U I T E

Une implémentation part iel le ou

incrémentale peut être intéressante

Certaines recommandations peuvent être

assoupl ies

P r o s & C o n s

Communauté motivée (pi lotes RDA,

ENVRI+,…)

Technologies proposant l ’horodatage (SQL

2011, Git ,…)

Act ion Interpôles ?

Page 21: Recommandations rda sur la citation des données

Autres initiatives

Page 22: Recommandations rda sur la citation des données

A u t r e s i n i t i a t i v e s

22

FORCE11 : https://www.force11.org/datacitation

•CODATA : http://www.codata.org/task-groups/data-citation-standards-and-practices

CEOS : 29 recommandations basées sur les DOI • 29 recommandations basées sur les DOI

Téléchargement :

http://ceos.org/document_management/Working_Groups/WGISS/Interest_Groups/Data_Stewardship/Best_Practices/CEOS%20Persistent%20Identifier

%20Best%20Practices_v1.0.pdf

• Extraits

R8

PID non significatif Nouvelles versions nouveau PID

S i m i l a i r e à R D A R8

Citation au niveau de la collection Perte de la citation fine

Gestion des séries évolutives : PID unique Perte de la reproductibilité.

Citation de données venant de jeux différents potentiellement citation très longue.

D i f f é r e n t d e R D A

Autres

Page 23: Recommandations rda sur la citation des données

M e r c i

www.aeris-data.fr

Modèle de présentation : ttp://thepopp.com/ - Jun Akizak