Upload
eric-toguem
View
1.138
Download
2
Embed Size (px)
DESCRIPTION
Dans un contexte où le volume de données produit est de plus en plus grand, et les données sont peu utilisés, pourtant pouvant être mise en valeur, un nouveau vent souflle: Le linked open data
Citation preview
L INKED OPEN DATA POUR LA CONSOMMATION
DES INFORMATIONS ISSUES DE LA
COLLECTE DE DONNÉES ÉPIDÉMIOLOGIQUES
1
Colloque en l’honneur de Gauthier SALLET Atelier sur la gestion de données épidémiologiques
UGB, 6 et 7 décembre 2012
CANEVAS DE LA PRÉSENTATION
1. Cycle des données dans les systèmes de collectes de données,
2. Enjeux de la publication des données,
3. C’est quoi l’open data,
4. Cas d’utilisation de l’open data pour le médical,
5. 5 étapes pour publier les données liées
2
SYSTÈME DE COLLECTE DE
DONNÉES ÉPIDÉMIOLOGIQUES
Volume énorme de données collectées,
Données analysées pour détection d’épidémies,
Actions entreprises par des décideurs,
Données archivées,
3
CYCLE DE LA DONNÉE
Collecte de données
Analyse de données
Réactions et actions
Rapport sur les données
4
ENJEUX DE PUBLICATION DE DONNÉES
Enjeu démocratique:
La transparence,
Enjeu socio-économique:
Susciter la création de nouveaux secteurs économiques
Enjeu universitaire:
Amélioration de la détection des épidémies
5
L’OPEN DATA: UN OBJECTIF DOUBLE
Rendre les données accessibles, exploitables et rentables par la majorité,
Offrir la possibilité de croiser, traiter et analyser des données de sources différentes.
6
WEB DES DOCUMENTS 7
WEB DES DOCUMENTS: CHALLENGES
Accès:
Liens non typés,
Données faiblement structurées,
Données déconnectées,
Intégration
Présenter les symptômes des maladies ayant fait l’objet d’une épidémie l’année dernière.
Interrogation
Quelles sont les régions ayant été victimes des mêmes épidémies l’années dernière?
8
APIS WEB ET MASHUPS
Limites:
APIs fournissent des interfaces propriétaires,
Les mashups sont basées sur un ensemble de données fixes,
Impossible de mettre des liens entre les données,
API WEB
A
Mashup Up
API Web
B
API Web
C
API Web
D
9
WEB DE DONNÉES LIÉES
Utiliser les technologies du web sémantique :
Publier les données structurées sur le WEB,
Lier les données d’une source de données à une autre
B C
RDF
Lien RDF
A D E
Liens RDF Liens RDF Liens RDF
RDF
RDF
RDF
RDF
RDF RDF
RDF
RDF
RDF
10
LINKED DATA C’EST...
...Un moyen de publier des données sur le Web qui:
Encourage la réutilisation,
Réduit la redondance,
Maximise la connectivité des données,
Permet d’ajouter la valeur aux données par le réseau de connexion,
11
INGRÉDIENTS CLÉS DU LINKED
DATA
RDF (Resource description Framework) pour:
Identifier les objets (URIs),
Connecter les informations (relations),
Ontologies (Vocabulaire) pour:
Fournir une compréhension partagée du domaine,
Organiser la connaissance de manière compréhensible par la machine,
Fournir une compréhension exploitable des données,
12
EXEMPLE 1 : BANQUE MONDIALE 13
EXEMPLE 2 : OMS 14
EXEMPLE 3: PNUD 15
EXEMPLE 4 : CDC (CENTERS FOR
D ISEASE CONTROL AND PREVENTION) 16
EXEMPLE UTILISATION OPEN
DATA: GOOGLE 17
EXEMPLE UTILISATION OPEN
DATA: GOOGLE 18
5 ÉTAPES POUR PUBLIER LES
DONNÉES LIÉES
1. Comprendre les principes,
2. Comprendre vos données,
3. Choisir les URIs pour vos éléments de donnée,
4. Lier aux autres sources de données,
5. Publier vos données
19
1- COMPRENDRE LES
PRINCIPES
Utiliser les URIs pour identifier vos éléments:
Tout élément, pas seulement les documents,
Utiliser les URIs HTTP:
Noms globallement uniques,
Permet l’accès par ces noms,
Fournir une information utile en RDF
Lorsque quelque accède à une URI,
Inclure des liens RDF à d’autres URIs
Pour permettre la découverte de l’information,
20
2- COMPRENDRE VOS
DONNÉES
Quelles sont les informations clés présentes dans vos données:
Maladies,
Médicaments,
Symptômes,
Villes, …
Quelles ontologies peuvent être réutilisées?
Geo,
FOAF,
21
3- CHOISIR LES URIS POUR
VOS ÉLÉMENTS DE DONNÉE
Utiliser les espaces de nommage disjoints de ceux existant,
Abstraire des détails d’implémentation
http://dbpedia.org/resource/Berlin
http://www4.wiwiss.fu-berlin.de:2020/demos/dbpedia/cgibin/resources.php?id=Berlin
22
3- CHOISIR LES URIS POUR
VOS ÉLÉMENTS DE DONNÉE
Utiliser les slash
http://mydomain.com/foaf.rdf#me
http://mydomain.com/id/me
Utiliser des patterns
http://dbpedia.org/resource/New_York_City
http://dbpedia.org/data/New_York_City
http://dbpedia.org/page/New_York_City
23
4- LIER AUX AUTRES
SOURCES DE DONNÉES 24
4- LIER AUX AUTRES
SOURCES DE DONNÉES
Utiliser des prédicats de liaison:
owl:sameAs
foaf:homepage, foaf:topic, foaf:based_near
rdfs:seeAlso
25
5- PUBLIER VOS DONNÉES
Mettre en place votre infrastructure,
Tester la négotiation de contenu,
26
5- PUBLIER VOS DONNÉES
Utiliser des outils:
Joseki est un moteur HTTP qui supporte SPARQL,
Virtuoso Universal Server fournit un serveur SPARQL et un stockage RDF,
METAmorphoses est un outil de publication écrit en PHP
http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/PublishingTools
27
CONCLUSION
Volume énorme de données produit par les systèmes de collecte de données,
Plusieurs enjeux de publication de données,
Émergence dans l’utilisation de l’open data,
Processus de publication de données.
28