35
Web de données et RDA

Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Embed Size (px)

Citation preview

Page 1: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Web de données et RDA

Page 2: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

2

Architecture du Web (1)

• World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes)

• Architecture du Web = les standards définissant l’infrastructure technologique

• Rôle du W3C (World Wide Web Consortium) : s’occupe de la standardisation de l’architecture du Web

Page 3: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

33

Les objectifs du W3C

• Accessibilité pour les logiciels et machines– Interopérabilité et portabilité – Production de contenu Web facilitée – Réduction du volume des pages – Meilleure visibilité et indexation par les moteurs de

recherche– Compatibilité – Pérennité des documents – Validation des pages par des services de

validation pour garantir la cohérence et la qualité du code

• Accessibilité universelle aux contenus

Page 4: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Architecture du Web (2)

Repose sur 3 technologies : Un protocole : HTTP (Hypertext Transfer Protocol) Un langage : HTML (Hypertext Markup Language)

Standard défini par le W3C pour la diffusion de documents sur le Web pour pouvoir afficher de l'information à l'aide de balises dont le nombre est limité. Il est interprété par le navigateur

Des identifiants : URI (Uniform Resource Identifier) Une ressource : tout objet Ressource identifiées de manière univoque par une URI :

chaîne de caractères normalisée permettant d'identifier de manière permanente une ressource abstraite ou physique, accessible ou non sur Internet (personne, organisme, lieu, évènement, concept, …)

Page 5: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Les URI

2 déclinaisons : URN (Uniform Resource Name)

URI d’identification d’une ressource par son nom unique dans un espace de noms

Utilisé pour identifier une ressource sans s’occuper de son emplacement ou de la manière de la référencer

Exemple : urn:isbn:978-2-10-057294-6= URI de référence à une publication

URL (Uniform Resource Locator) URI spécifiant l'adresse physique de localisation d'une

ressource sur Internet et la méthode permettant d'y accéder

= URI donnant accès à la ressource

Page 6: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Évolutions du web

Web 1.0 web de documents permet aux usagers de naviguer facilement sur

Internet en utilisant des liens hypertexte une page = un document

format : HTML (HyperText Markup Language) ne permet que la mise en forme

Web 2.0 web collaboratif évolution du Web du point de vue des technologies

employées et des usages Internet n’est plus simplement un media mais une

plate-forme de services et d'applications en ligne Permet aux internautes d'interagir sur le contenu des

pages et de dialoguer entre eux

Page 7: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Le Web de documents

Base de données

Données Documents

Base de données

Hyperlien

Yann Nicolas, Le Web de données, enssib, 11 octobre 2012

Page 8: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Limites du Web de documents

HTML : langage textuel d’échange de documents semi-structurés

Les données sont cachées sous les pages HTML (« web profond »)

Seules les pages HTML sont liées entre elles Les pages HTML sont faites pour les humains Ce que veulent les machines :

des données structurées = utilisable directement par un ordinateur pour effectuer un calcul

car elles se complètent les unes les autres car les liens permettent de naviguer et de découvrir

avec des liens qualifiés, signifiants au-delà du « voir aussi » des hyperliens

Page 9: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Le Web de données ?

Web de données ou Linked Data ou Web of Data Mise sur le Web de données :

Mouvement de l’Open Data Mise à disposition de données publiques ouvertes

(etalab, creative comm.) librement accessibles sans restriction de copyright, licence payante, brevet, …

Données pouvant être réutilisées, reproduites, redistribuées librement et sans discrimination (cf. http://www.opendefinition.org/okd/)

+ Mise en relation des données pour construire un réseau global qui permet, à partir d’une donnée, d’accéder aux autres données liées du Web

Page 10: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Le Web de données ?

Un Web constitué de données accessibles, structurées, dans un format non-propriétaire, identifiées et liées entre elles sémantiquement

(Définition de Tim Berners-Lee dès 1999) Objectif : Mettre à disposition des données en utilisant

des techniques standardisées qui garantissent l’interopérabilité : Web documentaire : relations par des liens entre des pages

HTML Web de données : extension du Web permettant de relier non pas

des documents (pages HTML) mais les données elles-mêmes et de les rendre interprétables par les machines

Repose sur le standard URI = relations entre URI qui désignent tout objet décrit

Page 11: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Le Web de données liées

Base de données

Données Documents

Base de données

Hyperlien

Yann Nicolas, Le Web de données, enssib, 11 octobre 2012

Liens entre les bases de données

Page 12: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Voilà ce à quoi rêvent nos machines…

Page 13: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

RDF

RDF = Resource Description Framework Standard permettant de décrire les ressources Web et

métadonnées qui y sont associées Proposé en 1999 par le W3C Permet de décrire, représenter et relier simplement toute

ressource du Web : page Web, image, video, personne, objet, évènement,

produit, service, … tout ce qui peut être identifié par un URI peut être

considéré comme une ressource Objectif : partager les métadonnées pour des ressources

identiques par l’utilisation d’une syntaxe commune

Page 14: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

RDF ??C’est aussi simple que ça :

SUJET OBJETPREDICAT

Sujet :Charles Darwin

Objet :The origin of species

Prédicat :A écrit= Creator

Page 15: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

15

RDF : un modèle conceptuel

• Principe de base : toute chose peut être décrite avec des phrases minimales composées d’un verbe, d’un sujet et d’un complément = déclaration RDF

Exemple :

Honoré de Balzac a écrit "La Comédie humaine"

Sujet : Honoré de Balzac Ressource

Verbe : a écrit Predicat

Complément : La Comédie humaine Objet

Page 16: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

16

RDF : la notion de triplet

• Une déclaration est composée de 3 éléments = triplet

• Triplet {ressource – propriété – valeur}– sujet = ressource– predicat = propriété : nature de la relation– objet = valeur : caractéristique ou ressource liéeExemple :Sujet (Ressource) : Honoré de BalzacPredicat (Propriété) : CreatorObjet (Valeur) : La Comédie humaine

Page 17: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

17

RDF : Graphe

• La déclaration est représentée visuellement par un graphe (système de nœuds reliés par des flèches) qui permet de parcourir l'information de lien en lien

SUJET OBJETPREDICAT

Page 18: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

18

RDF : modèle de graphe

• Chaque membre du triplet est une ressource qui peut être le sujet ou l’objet d’autres déclarations

• On construit ainsi un modèle de graphe

Page 19: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

RDF : modèle de graphe (2)

L’objet d’un triplet peut aussi être : un littéral = chaîne de caractères, nombre, date

Prédicat :A écrit

Prédicat :Comprend

«1809»«1809»

Prédicat :Est né

Sujet : Charles Darwin

Sujet : Charles Darwin

Objet : The origin of species

Sujet : The origin of species

Objet : An introduction on

the origin of species

Page 20: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

20

RDF : un langage extensible

• Cadre conceptuel de description des ressources applicable à n’importe quel domaine d’application

• Peut être exprimé en utilisant la syntaxe RDF/XML (eXtensible Markup Language) : seule syntaxe qui fait l’objet actuellement d’une recommandation du W3C

Page 21: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

000 cam 22 3 450 001FRBNF42226398000000X003http://catalogue.bnf.fr/ark:/12148/cb42226398b010 $a978-2-603-01444-8$brel.100 $a20100624d2005 m y0frey50 ba1011 $afre102 $aFR105 $a||||z 00|||106 $ar2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de 500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves 210 $aParis$cDelachaux et Niestlé$dDL 2005215 $a1 vol. (311 p.)$cill.$d20 cm2252 $aˆLes ‰guides du naturaliste300 $aBibliogr. p. 301-303410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques et mémentos$2rameau676 $a595.781 39$v22700 1$312013664$aCarter$bDavid$f1943-....$4070702 1$312367696$aHargreaves$bBrian$4440801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc

http://catalogue.bnf.fr/ark:/12148/cb12367696d

http://catalogue.bnf.fr/ark:/12148/cb34235813n

http://catalogue.bnf.fr/ark:/12148/cb120136648

Page 22: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Des URI pour désigner les ressources

http://catalogue.bnf.fr/ark:/12148/cb42226398b

Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves. - Paris : Delachaux et Niestlé, DL 2005

Carter, David (1943-....)

http://catalogue.bnf.fr/ark:/12148/cb120136648

http://catalogue.bnf.fr/ark:/12148/cb34235813n

Les Guides du naturaliste

Hargreaves, Brian

http://catalogue.bnf.fr/ark:/12148/cb12367696d

Page 23: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Des vocabulaires normalisés

pour exprimer les relations entre les données

2001 $aGuide des chenilles d'Europe

700 1$312013664$aCarter$bDavid$f1943-.... $4070

200 $a Titre propre

700 $4070 Auteur du texteDC : Creator RDA : Creator

DC : Title ISBD : Title properRDA : Title proper

RDA : Author

Page 24: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Des URI pour exprimer les relations

Page 25: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Des URI pour exprimer les relations

ISBD : has title proper

DC : Creator

DC : Title

RDA : Authorhttp://rdvocab.info/roles/author  

http://purl.org/dc/elements/1.1/title

http://purl.org/dc/elements/1.1/creator

http://iflastandards.info/ns/isbd/elements/P1004

RDA : Title proper http://rdvocab.info/Elements/titleProper

Page 26: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Une syntaxe normalisée

Cet ouvrage

"Guide des chenilles d'Europe"a pour titre propre

sujet

verbecomplément d’objet

http://catalogue.bnf.fr/ark:/12148/cb42226398b

"Guide des chenilles d’Europe"

http://iflastandards.info/ns/isbd/elements/P1004

prédicat

objet

sujet

Le sujet est toujours une URI

Le prédicat est toujours une URI

L’objet peut êtreun texte (« littéral »)ou une URI

2001 $aGuide des chenilles d'Europe

Page 27: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Un réseau de relations entre des données

http://catalogue.bnf.fr/ark:/12148/cb42226398b

"Guide des chenilles d’Europe"

http://catalogue.bnf.fr/ark:/12148/cb34235813n

http://catalogue.bnf.fr/ark:/12148/cb120136648

"Carter"

"David"

1943

"Les Guides du naturaliste"

http://data.bnf.fr/what-happened/date-1943

http://iflastandards.info/ns/isbd/elements/P1004

A pour titre propre

http://rdvocab.info/RDARelationshipsWEMI/containedInManifestation

Appartient à

http://iflastandards.info/ns/isbd/elements/P1033 A pour titre clé

http://xmlns.com/foaf/0.1/familyName A pour patronyme

http://xmlns.com/foaf/0.1/givenName A pour prénom

http://rdvocab.info/ElementsGr2/dateOfBirth

A pour date de naissance

http://rdvocab.info/roles/author  

A pour auteur

Page 28: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Pour aller vers le Web de données

Vers le web de données Vers le web sémantique

3 avril 2012 -- Bordeaux -- Urfist/Médiaquitaine Philippe Le Pape -- ABES

Consti

tué

d’élém

ents d

e

donnée

s liés

les

uns au

x autr

es

Les données portent en elles leur identification et leur fonction (leur « sens »), selon une syntaxe lisible par les « machines du web »

À condition d’utiliser les standards du web

Page 29: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

C’est très bien tout ça mais…Quel rapport avec la bibliothèque, le

catalogue, le catalogage ?

29

Zoom sur Le lecteur

Page 30: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

30

Les bibliothèques dans le Web de données aujourd’hui

Page 31: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Que peut nous apporter le Web de données ?

• Relier les catalogues des bibliothèques avec d’autres données existantes

• Ouverture à d’autres communautés (libraires, éditeurs, …)

• Navigation par les utilisateurs sans avoir à connaître les formats des bases de données et les langages de requête spécifiques

• Plus de visibilité par les moteurs de recherche• Tirer parti des données structurées des catalogue

et des référentiels• Interopérabilité = Souplesse pour la réutilisation

des données

Page 32: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Des exemples

Isidore : http://www.rechercheisidore.fr Plateforme de recherche permettant l’accès

aux données numériques des sciences humaines et sociales

Données en accès libre (open access) Moissonnage ciblé des métadonnées et

données scientifiques structurées Enrichissement des métadonnées selon les

principes du Web de données

Page 33: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Des exemples

Data.bnf.fr : http://data.bnf.fr Fiches descriptives des auteurs et des oeuvres Possibilité de télécharger le RDF associé à la fiche

descriptive

VIAF (Virtual International Authority File)

http://viaf.org/

Valoriser les fichiers d'autorité des bibliothèques (visibilité et liens entre les données)

Rationnaliser la gestion des fichiers d’autorités

Page 34: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Y aller … avec les bons outils

Pour utiliser la boîte à outils du Web sémantique, il faut, nous l’avons vu :

Identifier les données

Construire un réseau de relations entre ces données

Pour savoir si vous avez suivi :

« De quel outil disposons-nous pour analyser les relations entre les données au sein des

catalogues de bibliothèques ? »

Page 35: Web de données et RDA. 2 Architecture du Web (1) World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens

Tous les chemins mènent à…Organisation de

l’information bibliographique :

ISBD

F R B RF R B R

Web de Web de données !données !

Formats d’encodage

MARC

Format Format compatible compatible

RDF RDF (BIBFRAME ?)(BIBFRAME ?)

Web de Web de données !données !

Normes de catalogage

AACR

Afnor

REICAT

Etc…

R D A ?R D A ?

Web de Web de données !données !