Upload
francois-andre
View
155
Download
0
Embed Size (px)
Citation preview
I D E N T I F I C A T I O N D E S D O N N É E S
L E S R E C O M M A N D A T I O N S R D A
20/21 janvier 2016
Présentation globale
3
Add an image
Constat d’une d i ff iculté Citer des données n’est pas trivial
• Un jeu de données peut évoluer dans le temps
• Un jeu de données peut être corrigé
• On peut vouloir citer plusieurs ou des parties de jeux de données
• Citer des données n’est pas citer les programmes ou les personnes
Les préconisat ions RDA Travail de 18 mois
14 préconisations permettant un mécanisme de citation précis
des données
Téléchargement https://rd-alliance.org/system/files/documents/RDA-DC-
Recommendations_151020.pdf
C i t e r l e s D o n n é e s
3
O b j e c t i f s
4
CITATION Permettre l’identification et la citation de toute partie d’un ensemble de données associées
à un instant précis du système de données
RÉCUPÉRATION Permettre de récupérer – à partir d’une citation – les données dans l’état qu’elles avaient au
moment où la citation a été définie
STABILIT É Assurer une stabilité au fil des changements technologiques
S o l u t i o n
5
SUIVI des
VERSIONS
Les différentes versions d’une données doivent être conservées dans le système de
données
HORODATAGE Chaque opération sur les données doit être horodatée
STOCKAGE des
REQUÊTES
Les jeux de données sont identifiées en assignant des PID aux requêtes qui les ont retournés.
Le couple PID-Requête* est stocké de manière pérenne dans le SI : c’est le query store
* On parle bien des requêtes et non de leur résultat.
Les recommandations
A : P r é p a r a t i o n s d e s d o n n é e s ( R 1 R 3 )
7
R1
Les différentes versions des données doivent être conservées.
G e s t i o n d e s v e r s i o n s
R2
Les opérations sur les données – addition, suppression, … – doivent-être horodatées.
H o r o d a t a g e
R3
Les requêtes et leurs métadonnées doivent être stockées de manière pérenne et doivent pouvoir être exécutées à nouveau.
S t o c k a g e d e s r e q u ê t e s
B : I d e n t i f i c a t i o n d e s j e u x ( R 4 R 1 0 )
8
R4
Les requêtes doivent être normalisées afin de détecter des requêtes identiques.
U n i c i t é d e s r e q u ê t e s
R5
L’ordre des données au sein des jeux de données produits lors des extractions doit être stable.
S t a b i l i t é d e l ’o r d r e d e s d o n n é e s
R6
Lors de la première exécution d’une requête, la signature du jeu de données (somme de contrôle) doit être calculée et stockée avec la requête afin de vérifier le résultat d’une re-exécution.
Vé r i f i c a t i o n d e s j e u x d e d o n n é e s
B : I d e n t i f i c a t i o n d e s j e u x ( R 4 R 1 0 )
9
R7
Chaque requête doit contenir la date de son exécution ou, préférablement, la date de la dernière mise à jour de la base de données
H o r o d a t a g e d e l a r e q u ê t e
R8
Le PID doit permettre d’identifier la requête. Le calcul du PID de la requête doit prendre en compte tous les paramètres, y compris l’horodatage
A f f e c t a t i o n d ’ u n P I D à l a r e q u ê t e
R9
Le query store doit stocker la requête et ses métadonnées: requête normalisée, somme de contrôle, horodatage… Ces informations doivent pouvoir être affichées sans calcul complémentaire conséquent
S t o c k a g e d e l a r e q u ê t e (c o m p l é m e n t R 3 )
B : I d e n t i f i c a t i o n d e s j e u x ( R 4 R 1 0 )
10
R10
Le texte de citation doit être généré automatiquement doit être fourni en même temps que le jeu de données
Te x t e d e c i t a t i o n a u t o m a t i q u e s
C : R e - e x é c u t i o n d e s r e q u ê t e s ( R 1 1 R 1 2 )
11
R11
La landing page des PID doit permettre • De re-exécuter la requête •Obtenir les métadonnées associées à la requête (y.c. le texte de citation)
L a n d i n g P a g e
R12
Les fonctionnalités de R11 doivent être automatisables (interopérabilité)
A u t o m a t i s a t i o n
D : I n v a r i a n c e a u c h a n g e m e n t ( R 1 3 R 1 4 )
12
R13
Lors d’une migration (modèle du stockage, technologique, hébergement,…) les requêtes doivent être migrées (adaptation, déplacement)
M i g r a t i o n d e s r e q u ê t e s
R14
Une migration de requête doit faire l’objet d’une vérification de re-exécution (comparaison des sommes de contrôle) .
Vé r i f i c a t i o n d e s m i g r a t i o n s
C o m p l é m e n t s
13
IMPLÉMENTATIONS • Dans le cadre de son activité le WG Data Citation a aidé à la mise en place
d’implémentations spécifiques pilotes
• Pas d’implémentation générique pour le moments
POURSUITE
Le WG a achevé sa mission initiale
Suite de l’activité :
- Un document complémentaire aux recommandations est en cours de validation
- Webminaire en mars
Extensions
R e c o m m a n d a t i o n s s u p p l é m e n t a i r e s
15
R9b
Parmi les critères de recherche, certains doivent permettre au PI d’identifier facilement ces données afin de créer facilement les PID le concernant
Re c h e r c h e d e s é l e c t i o n s p o u r l e p r o d u c t e u r d e l a d o n n é e
R10b
Le système d’information doit proposer la publication du PID sur une Registration Authorities (RA). La publication n’est pas le seul fait du fournisseur de la donnée. On peut ne stocker que les requêtes pour lesquelles l’utilisateur a explicité exprimé ce besoin
P u b l i c a t i o n d u P I D
R10c
Le système doit permettre d’obtenir un PID (et de le publier) sans pour autant réaliser l’extraction (dans ce cas la somme de contrôle n’est pas présente)
G é n é r a t i o n d u P I D s a n s e x é c u t e r l ’e x t r a c t i o n
R e c o m m a n d a t i o n s s u p p l é m e n t a i r e s
16
R11b
La landing page doit permettre de savoir si les données ont été modifiées depuis la requête
L a n d i n g p a g e é t e n d u e
R11c
La landing page doit permettre de re-exécuter la requête avec les données actuelles (c.a.d. sans tenir compte de l’horodatage de la requête)
O b t e n i r l e s d o n n é e s p l u s r é c e n t e s
R?
Le système doit permettre de PID correspondant à plusieurs PID existants
G é n é r e r u n P I D d e P I D s
Pros & Cons
AVA N TA G E S
Répond à un besoin scientif ique (?)
Précis ion de la c itat ion
Traite la quest ion de la granularité
Est compatible avec le mécanisme classique
Ouvre la publ icat ion à l ’ut i l isateur
P r o s & C o n s C o m p l é m e n t s
Lien avec d’autres problèmatiques
structurantes (métadonnées , provenance,…)
I N C O N V E N I E N T S
Implémentations l imitées à des prototypes
Eléments structurel lement spécif iques
Certaines fonctionnal ités complexes
P r o s & C o n s
S U I T E
Une implémentation part iel le ou
incrémentale peut être intéressante
Certaines recommandations peuvent être
assoupl ies
P r o s & C o n s
Communauté motivée (pi lotes RDA,
ENVRI+,…)
Technologies proposant l ’horodatage (SQL
2011, Git ,…)
Act ion Interpôles ?
Autres initiatives
A u t r e s i n i t i a t i v e s
22
FORCE11 : https://www.force11.org/datacitation
•CODATA : http://www.codata.org/task-groups/data-citation-standards-and-practices
CEOS : 29 recommandations basées sur les DOI • 29 recommandations basées sur les DOI
Téléchargement :
http://ceos.org/document_management/Working_Groups/WGISS/Interest_Groups/Data_Stewardship/Best_Practices/CEOS%20Persistent%20Identifier
%20Best%20Practices_v1.0.pdf
• Extraits
R8
PID non significatif Nouvelles versions nouveau PID
S i m i l a i r e à R D A R8
Citation au niveau de la collection Perte de la citation fine
Gestion des séries évolutives : PID unique Perte de la reproductibilité.
Citation de données venant de jeux différents potentiellement citation très longue.
D i f f é r e n t d e R D A
Autres
M e r c i
www.aeris-data.fr
Modèle de présentation : ttp://thepopp.com/ - Jun Akizak