28
L INKED O PEN D ATA POUR LA CONSOMMATION DES INFORMATIONS ISSUES DE LA COLLECTE DE DONNÉES ÉPIDÉMIOLOGIQUES 1 Colloque en l’honneur de Gauthier SALLET Atelier sur la gestion de données épidémiologiques UGB, 6 et 7 décembre 2012

Linked open data pour la consommation des informations

Embed Size (px)

DESCRIPTION

Dans un contexte où le volume de données produit est de plus en plus grand, et les données sont peu utilisés, pourtant pouvant être mise en valeur, un nouveau vent souflle: Le linked open data

Citation preview

Page 1: Linked open data pour la consommation des informations

L INKED OPEN DATA POUR LA CONSOMMATION

DES INFORMATIONS ISSUES DE LA

COLLECTE DE DONNÉES ÉPIDÉMIOLOGIQUES

1

Colloque en l’honneur de Gauthier SALLET Atelier sur la gestion de données épidémiologiques

UGB, 6 et 7 décembre 2012

Page 2: Linked open data pour la consommation des informations

CANEVAS DE LA PRÉSENTATION

1. Cycle des données dans les systèmes de collectes de données,

2. Enjeux de la publication des données,

3. C’est quoi l’open data,

4. Cas d’utilisation de l’open data pour le médical,

5. 5 étapes pour publier les données liées

2

Page 3: Linked open data pour la consommation des informations

SYSTÈME DE COLLECTE DE

DONNÉES ÉPIDÉMIOLOGIQUES

Volume énorme de données collectées,

Données analysées pour détection d’épidémies,

Actions entreprises par des décideurs,

Données archivées,

3

Page 4: Linked open data pour la consommation des informations

CYCLE DE LA DONNÉE

Collecte de données

Analyse de données

Réactions et actions

Rapport sur les données

4

Page 5: Linked open data pour la consommation des informations

ENJEUX DE PUBLICATION DE DONNÉES

Enjeu démocratique:

La transparence,

Enjeu socio-économique:

Susciter la création de nouveaux secteurs économiques

Enjeu universitaire:

Amélioration de la détection des épidémies

5

Page 6: Linked open data pour la consommation des informations

L’OPEN DATA: UN OBJECTIF DOUBLE

Rendre les données accessibles, exploitables et rentables par la majorité,

Offrir la possibilité de croiser, traiter et analyser des données de sources différentes.

6

Page 7: Linked open data pour la consommation des informations

WEB DES DOCUMENTS 7

Page 8: Linked open data pour la consommation des informations

WEB DES DOCUMENTS: CHALLENGES

Accès:

Liens non typés,

Données faiblement structurées,

Données déconnectées,

Intégration

Présenter les symptômes des maladies ayant fait l’objet d’une épidémie l’année dernière.

Interrogation

Quelles sont les régions ayant été victimes des mêmes épidémies l’années dernière?

8

Page 9: Linked open data pour la consommation des informations

APIS WEB ET MASHUPS

Limites:

APIs fournissent des interfaces propriétaires,

Les mashups sont basées sur un ensemble de données fixes,

Impossible de mettre des liens entre les données,

API WEB

A

Mashup Up

API Web

B

API Web

C

API Web

D

9

Page 10: Linked open data pour la consommation des informations

WEB DE DONNÉES LIÉES

Utiliser les technologies du web sémantique :

Publier les données structurées sur le WEB,

Lier les données d’une source de données à une autre

B C

RDF

Lien RDF

A D E

Liens RDF Liens RDF Liens RDF

RDF

RDF

RDF

RDF

RDF RDF

RDF

RDF

RDF

10

Page 11: Linked open data pour la consommation des informations

LINKED DATA C’EST...

...Un moyen de publier des données sur le Web qui:

Encourage la réutilisation,

Réduit la redondance,

Maximise la connectivité des données,

Permet d’ajouter la valeur aux données par le réseau de connexion,

11

Page 12: Linked open data pour la consommation des informations

INGRÉDIENTS CLÉS DU LINKED

DATA

RDF (Resource description Framework) pour:

Identifier les objets (URIs),

Connecter les informations (relations),

Ontologies (Vocabulaire) pour:

Fournir une compréhension partagée du domaine,

Organiser la connaissance de manière compréhensible par la machine,

Fournir une compréhension exploitable des données,

12

Page 13: Linked open data pour la consommation des informations

EXEMPLE 1 : BANQUE MONDIALE 13

Page 14: Linked open data pour la consommation des informations

EXEMPLE 2 : OMS 14

Page 15: Linked open data pour la consommation des informations

EXEMPLE 3: PNUD 15

Page 16: Linked open data pour la consommation des informations

EXEMPLE 4 : CDC (CENTERS FOR

D ISEASE CONTROL AND PREVENTION) 16

Page 17: Linked open data pour la consommation des informations

EXEMPLE UTILISATION OPEN

DATA: GOOGLE 17

Page 18: Linked open data pour la consommation des informations

EXEMPLE UTILISATION OPEN

DATA: GOOGLE 18

Page 19: Linked open data pour la consommation des informations

5 ÉTAPES POUR PUBLIER LES

DONNÉES LIÉES

1. Comprendre les principes,

2. Comprendre vos données,

3. Choisir les URIs pour vos éléments de donnée,

4. Lier aux autres sources de données,

5. Publier vos données

19

Page 20: Linked open data pour la consommation des informations

1- COMPRENDRE LES

PRINCIPES

Utiliser les URIs pour identifier vos éléments:

Tout élément, pas seulement les documents,

Utiliser les URIs HTTP:

Noms globallement uniques,

Permet l’accès par ces noms,

Fournir une information utile en RDF

Lorsque quelque accède à une URI,

Inclure des liens RDF à d’autres URIs

Pour permettre la découverte de l’information,

20

Page 21: Linked open data pour la consommation des informations

2- COMPRENDRE VOS

DONNÉES

Quelles sont les informations clés présentes dans vos données:

Maladies,

Médicaments,

Symptômes,

Villes, …

Quelles ontologies peuvent être réutilisées?

Geo,

FOAF,

21

Page 22: Linked open data pour la consommation des informations

3- CHOISIR LES URIS POUR

VOS ÉLÉMENTS DE DONNÉE

Utiliser les espaces de nommage disjoints de ceux existant,

Abstraire des détails d’implémentation

http://dbpedia.org/resource/Berlin

http://www4.wiwiss.fu-berlin.de:2020/demos/dbpedia/cgibin/resources.php?id=Berlin

22

Page 23: Linked open data pour la consommation des informations

3- CHOISIR LES URIS POUR

VOS ÉLÉMENTS DE DONNÉE

Utiliser les slash

http://mydomain.com/foaf.rdf#me

http://mydomain.com/id/me

Utiliser des patterns

http://dbpedia.org/resource/New_York_City

http://dbpedia.org/data/New_York_City

http://dbpedia.org/page/New_York_City

23

Page 24: Linked open data pour la consommation des informations

4- LIER AUX AUTRES

SOURCES DE DONNÉES 24

Page 25: Linked open data pour la consommation des informations

4- LIER AUX AUTRES

SOURCES DE DONNÉES

Utiliser des prédicats de liaison:

owl:sameAs

foaf:homepage, foaf:topic, foaf:based_near

rdfs:seeAlso

25

Page 26: Linked open data pour la consommation des informations

5- PUBLIER VOS DONNÉES

Mettre en place votre infrastructure,

Tester la négotiation de contenu,

26

Page 27: Linked open data pour la consommation des informations

5- PUBLIER VOS DONNÉES

Utiliser des outils:

Joseki est un moteur HTTP qui supporte SPARQL,

Virtuoso Universal Server fournit un serveur SPARQL et un stockage RDF,

METAmorphoses est un outil de publication écrit en PHP

http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/PublishingTools

27

Page 28: Linked open data pour la consommation des informations

CONCLUSION

Volume énorme de données produit par les systèmes de collecte de données,

Plusieurs enjeux de publication de données,

Émergence dans l’utilisation de l’open data,

Processus de publication de données.

28