56
Information scientifique et technique : « Pour des moteurs efficaces, libérez les données !!! » Christine Fleury – ABES 23 ème Entretiens Jacques Cartier 22 novembre 2010

Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Embed Size (px)

DESCRIPTION

Intervention à la BM de LYON lors des 23e ENTRETIENS JACQUES CARTIER : Les bibliothèques du XXIe siècle

Citation preview

Page 1: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Information scientifique et technique :

« Pour des moteurs efficaces, libérez les données !!! »

Christine Fleury – ABES 23ème Entretiens Jacques Cartier

22 novembre 2010

Page 2: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Présentateur
Commentaires de présentation
Malgré tous ces développements, les résultats des recherches faites sur Internet grâce à des moteurs comme Google conduisent rarement aux bibliothèques. Pourquoi ? Quelles sont les stratégies à développer pour permettre le repérage des richesses de nos bibliothèques ?
Page 3: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Trois générations de moteurs de recherche

Pour la petite histoire …

Présentateur
Commentaires de présentation
1994 : Au début du web : annuaires et répertoires La première génération (Altavista, Hotbot ou Lycos) : outils caractérisés par des algorithmes de pertinence assez basiques. Les moteurs de recherche des catalogue de bibliothèques, dans leur majorité, appartiennent à cette catégorie. La deuxième génération est en rupture avec la première génération du fait d'algorithmes basés sur la popularité des pages, et le recentrage sur la fonction de recherche Troisième génération : visualisation, cartographie + recherche multimédia Mots clés des moteurs de nouvelles générations : Verticalisation / Personnalisation / Recherche universelle �� �
Page 4: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

« Je vous parle d’un temps »

Merci à la WayBack Machine

Présentateur
Commentaires de présentation
Altavista : 1996 – Lycos : 1997 La première génération (Altavista, Hotbot ou Lycos) : outils caractérisés par des algorithmes de pertinence assez basiques. Les moteurs de recherche des catalogue de bibliothèques, dans leur majorité, appartiennent à cette catégorie.
Page 5: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

De la « sainte trinité » ….

Présentateur
Commentaires de présentation
– 80 % des recherches à partir de Google
Page 6: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Visualisations …

Présentateur
Commentaires de présentation
outils dits de troisième génération : Exalead, Kartoo (défunt), Mozbot (powered by Google) Ici un fond d’écran de constellation, projet développé par Exalead dans le cadre du programme Quaero : (Exalead racheté par Dassault ---)
Page 7: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Visualisations …

Présentateur
Commentaires de présentation
Search cube – powered by google
Page 8: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Recherche universelle ???

Présentateur
Commentaires de présentation
Mots clés des moteurs de nouvelles générations : Verticalisation / Personnalisation / Recherche universelle s’appuient notamment sur croisement d’informations issus de l’historique des recherches, sur recommandations, sur réseaux sociaux ---
Page 9: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Moteurs / métamoteurs spécialisés IST

Présentateur
Commentaires de présentation
Les moteurs commerciaux spécialisés en IST – Scirus (elsevier) : 410 million scientific items indexed at last count, it allows researchers to search for not only journal content but also scientists' homepages, courseware, pre-print server material, patents and institutional repository and website information. Metalib = métamoteur ex libris (interrogation fédérée multisource) Scifinder : accés reservé aux abonnés CAS Cependant, ces moteurs interrogent des bases de données : remontent des résultats cloisonnés par disciplines ou … des données payantes–
Page 10: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Moteur de recherche

Sources et moteurs Open Access …

Résolveur de lien - DOI

Données bibliographiques médicales

Analyse des citations

Présentateur
Commentaires de présentation
Open Access Initiative = philosophie d’ouverture des données de la science + une gamme d’outils Grand chantiers de l’open access : Protocole OAI – PMH : qui permet le moissonnage et l’interrogation de données éparpillées – qu’il est ainsi possible d’interroger de façon fédérée ou de rassembler dans des dépôts communs (comme c’est la cas du dépôt Driver Driver ou de Dart dépôts pour les thèses européennes) Auto-publication Archives ouvertes Dépôts institutionnels Archives ouvertes : 1991, le physicien Paul Ginsparg, crée une base de données nommée hep-th (pour High Energy Physics – Theory) pour que les membres de la petite communauté de chercheurs spécialisés dans la physique des Hautes Énergies puissent échanger rapidement leur production scientifique. Dès 1997, 50000 physiciens utilisent hep-th qui sera par la suite remplacée par arXiv. Cette archive ouverte (= dépôt) contient à présent près de 315000 documents et reçoit 140000 connexions par jour. Revue open access : PLOS : démarre début 2001 sous la forme d'une pétition en ligne lancée par Patrick Brown, biochimiste à l'université Stanford et de Michael Eisen, un bioinformaticien de l'université de Californie à Berkeley et du laboratoire national Lawrence Berkeley. La pétition appelle les scientifiques à s'engager de cesser, dès septembre 2001, de soumettre leurs publications à des revues scientifiques qui ne mettent pas à disposition pour tous une version complète et gratuite des publications six mois après leur sortie. Certaines revues, et notamment PNAS et l'éditeur de revues BioMed Central se sont conformés à cette demande. Cependant, en 2003, de nombreuses revues, y compris les très réputées Nature et Science se sont seulement focalisées sur l'autorisation pour les auteurs de réaliser leur propre archive de leur publication originale. Financement par les auteurs Base = moteur OAI-PMH (cible 25,518,361 documents) PubMed est le principal moteur de recherche de données bibliographiques de l'ensemble des domaines de spécialisation de la biologie et de la médecine. Il a été développé par le National Center for Biotechnology Information (NCBI), et est hébergé par la Bibliothèque nationale de médecine américaine du National Institutes of Health. Gratuit, il donne accès à la base de données bibliographique MEDLINE, rassemblant des citations et des résumés d'articles de recherche biomédicale. Ex : Recherche « etiology » = Free Full Text (1 254 907)
Page 11: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Sources et moteurs de France …

Présentateur
Commentaires de présentation
Universités numeriques : 19 600 ressources Classement hiérarchique par discipline, Recherche simple uniquement titre auteur mots clés, Science.gouv : 900 sites / signets des universités : répertoires de sites (moteur exalead) Sudoc : 8 millions de notices / moteur Revues.org : in extenso.org (2006) Hal : 155 000 documents texte intégral Gallica : algorithme du moteur Lucene
Page 12: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Des moteurs ---

Présentateur
Commentaires de présentation
http://www.finderseeker.com/cgi-bin/search.cgi
Page 13: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Des moteurs ---

Page 14: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Encore des moteurs …

Page 15: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Le Web, un univers en expansion

Présentateur
Commentaires de présentation
Le Web a seulement 21 ans ; c’est un univers en expansion 2002 : 3 milliards de pages (Abondance) 2006 : 60 milliards de pages dont 20 milliards indexées (TechCrunch) 2008 : Google estime à environ 40 milliards le nombre de pages indexées + un Trillion d’URLs uniques sur le web. 2009 : loi de Moore : taille du web devrait doubler tous les 5 ans – (blog emilie oger)
Page 16: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Et cependant ---- -----------

Présentateur
Commentaires de présentation
Les données des catalogues de bibliothèques et plus généralement de la science font partie de silos de données inexplorés / inexplorables par les moteurs généralistes : pour cette raison, les données des bibliothèques (sauf exception) font partie du deep web ou web invisible Deux raisons principales : Le fait qu’elles soient dans des bases de données + le fait que des protocoles spécifiques soient utilisés (Z3950, OAI PMH, sru-Srw) ; ne garantit pas leur utilisabilité : �
Page 17: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

« RAW DATA NOW !!! » (TIM BERNERS LEE - 2009)

Présentateur
Commentaires de présentation
La question à se poser aujourd’hui pour l’avenir concerne la structure des données qu’on veut porter sur le web plutôt que celle les moteurs à proprement parler car … sans données structurées et ouvertes, pas de moteur intelligent !
Page 18: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Vers un Web « de données liées»Comment ? S’imprégner de la

philosophie du web de données et de la culture des standards du Web

Sortir les données de leurs entrepôts (bases de données… ) pour les rendre disponibles sur le WEB

= conditions pour entrer dans l’écosystème du linked data web

Pourquoi ? Valoriser « nos » données tirer bénéfice des données

créées par les autres exploiter la richesse des

données (scientifiques, gouvernementales, statistiques, encyclopédiques, d’autorité, bibliographiques)

Voir vidéo Tim Berners LEE TED 2009

Présentateur
Commentaires de présentation
C’est lors de la conférence TED 2009 que Tim Berners Lee, l’inventeur du web a lancé cet Appel pour une libération des données « brutes ». Il s’agit de l’appel d’un scientifique à destination des scientifiques – comment combiner, comparer les données enfouies dans des bases de données, comment agréger des données conçues dans des formats différents, dans des systèmes non compatibles, comment les faire travailler ensemble pour fournir des réponses aux questions essentielles que sont la faim dans le monde, les maladies génétiques … Le web comme une gigantesque base de données conforme à l’architecture du web – ouvertes, interopérables et .. interrogeables. Les moteurs du futur sont donc à envisager à l’aune de ces milliards de données jusque là enfermées dans des entrepôts, bases, sillos … « libérées » … les données du web invisible.
Page 19: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Présentateur
Commentaires de présentation
Linked Open Data Cloud : ce schéma bien connu montre les liens entre différents entrepôts de données – toutes ces données ayant été transcrites en triplets RDF (j’y reviendrai) Septembre 2010 : 203 data sets = 25 billion triplets RDF, reliés par 395 million liens RDF
Page 20: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Présentateur
Commentaires de présentation
Septembre 2010 : 203 data sets = 25 billion triplets RDF, reliés par 395 million liens RDF Univers de l’open access : OAI – citeseer Pubmed eprints geonames Les référentiels Rameau et la Library of congress subjects headings - VIAF Projet open library Rdf book mashup Le catalogue suédois LIBRIS
Page 21: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Présentateur
Commentaires de présentation
travaux du Web sémantique désignent un ensemble de technologies visant à rendre le contenu des ressources du web accessibles et utilisable par les programmes et agents logiciels, grâce à un système de métadonnées formelles, utilisant notamment la famille de langages développés par le W3C. Pour construire le web de données liées – ou data linked web, il faut des standards commun – c’est dans l’esprit du web sémantique que le W3C a conçu notamment RDF .
Page 22: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

RDF ??? Recommandation du W3C RDF (Resource Description Framework) = le

langage de base du Web sémantique un langage très ouvert conçu pour la description

utilisé (notamment) pour décrire les ressources du web et leur métadonnées et permettre leur traitement automatique (machine readable).

une structure qui peut s’écrire dans différentes syntaxes (=langages informatiques) RDF/XML + RDFA, Turtle …

Un langage de requête spécifique : SPARQLVoir la recommandation du W3C (en français)

Présentateur
Commentaires de présentation
Lingua franca des métadonnées SPARQL (protocole SPARQL et langage de requête RDF) est un langage de requête, devenu le 15 Janvier 2008, dans le cadre de l'activité Web sémantique du W3C, une recommandation W3C. Le langage SPARQL définit la syntaxe et la sémantique nécessaire à l'expression de requêtes sur une base de données de type RDF et la forme possible des résultats. SPARQL est adapté à la structure spécifique des graphes RDF, et s'appuie sur les triplets qui les constituent. En cela, il est différent du classique SQL (langage de requête qui est adapté aux bases de données de type relationnelles), mais s'en inspire clairement dans sa syntaxe et ses fonctionnalités. SPARQL permet d'exprimer des requêtes interrogatives ou constructives
Page 23: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Une structure « élastique » qui intègre différents vocabulaires : SKOS (Simple Knowledge Organization

System) = représentation dans un contexte multilingue de tout vocabulaire contrôlé (thésaurus, classifications, taxonomies, etc ) FOAF (Friend of a Friend ) = description de

personnes et des relations entre elles

mais aussi : OWL, Yago, Wordnet, DCterm(DublinCore), Geoname ….

Une langue,des vocabulaires

Présentateur
Commentaires de présentation
Structure très ouverte qui intègre naturellement différents vocabulaires (ontologie),il peut s’écrire dans différents langage informatiques (syntaxes), le plus utilisé aujourd’hui étant XML (RDF/XML) Vocabulaire (= ontologie) : permettent de constituer une base de connaissance exploitée par des agents logiciels. FOAF (Friend of a friend, que l’on peut traduire par « l’ami d’un ami ») est un vocabulaire RDF permettant de décrire des personnes et les relations qu’elles entretiennent entre elles. SKOS ou Simple Knowledge Organisation System (Système simple d'organisation des connaissances) est une famille de langages formels permettant une représentation standard des thésaurus, classifications ou tout autre type de vocabulaire contrôlé et structuré. SKOS est construit sur la base du langage RDF, et son principal objectif est de permettre la publication facile de vocabulaires structurés pour leur utilisation dans le cadre du Web sémantique. la représentation dans un contexte multilingue de tout type de vocabulaire contrôlé et structuré (thésaurus, classifications, taxonomies, etc.), d’autre part, l’alignement de différents vocabulaires, l’objectif étant l’exploitation par la machine de ressources publiées sur le Web. Des vocabulaires de référence ont été migrés au format SKOS et sont disponibles au public. Les premières versions historiques de SKOS ont été utilisées pour l'expression des thésaurus utilisés par le portail environnemental SWED dans le cadre du projet SWAD-Europe, suivis des thésaurus multilingues AGROVOC publié par la FAO, et GEMET publié par l' Agence européenne pour l'environnement. La Bibliothèque du Congrès a publié son vocabulaire Library of Congress Subject Headings en SKOS en mai 2009. Le vocabulaire peut être téléchargé librement, et chaque concept est défini par une URI conforme aux exigences de sa réutilisation dans le cadre du Web Le vocabulaire RAMEAU édité par la BNF a été porté en SKOS dans le cadre du projet européen TelPlus lui-même une brique du projet de Europeana. Dans ce même cadre ont été également migrés en SKOS le vocabulaire SWD de la Bibliothèque nationale allemande, et les correspondances entre ces deux vocabulaires et le LCSH. Les Archives nationales (France) ont publié le Thésaurus pour la description et l'indexation des archives locales anciennes, modernes et contemporaines en XML/SKOS en juin 2009. Le vocabulaire dans une version SKOS provisoire, peut être téléchargé librement. IBM a développé l'utilisation de SKOS avec le standard DITA. Assistance sémantique à la recherche syntaxique Avec SKOS, il est possible d'intégrer un thésaurus à un système d'information, au point de le rendre invisible aux utilisateurs. L'utilisateur bénéficie ainsi d'une assistance sémantique à la recherche syntaxique dans la base documentaire par une interface entre le vocabulaire utilisateur et le vocabulaire spécialisé (vocabulaire métier). Une mise en oeuvre possible consiste à proposer itérativement les concepts clés du thésaurus SKOS en réponse aux mots clés choisis par l'utilisateur, éventuellement dans d'autres langues que la sienne ; une liste de mots clés affinée est ensuite soumise au système de recherche syntaxique
Page 24: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

RDF : un monde d’URI… chaque ressource (= objet, lieu, livre, auteur …..)

est identifiée par une -ou plusieurs - URI -(= identifiant uniforme de ressource)

ex : un oiseau = http://stitch.cs.vu.nl/vocabularies/rameau/ark:/12148/cb11932889r

ex : Les Boulassiers = http://sws.geonames.org/3031189/ ex : Aristote = http://viaf.org/viaf/7524651/#Aristotle« same as » http://www.idref.fr/026690276/id

Présentateur
Commentaires de présentation
Une URI doit permettre d'identifier une ressource de manière permanente, même si la ressource est déplacée ou supprimée. Bien que les URI soient très largement utilisés dans le monde informatique, avec surtout les URL sur Internet, on en retrouve d'autres applications dans le monde réel. Ainsi le code ISBN, qui est l'identifiant unique d'un livre, et permet de retrouver celui-ci depuis n'importe quelle librairie ou bibliothèque, dans le monde entier. On peut considérer également les codes-barres comme une métaphore d'URI, dans le monde physique : un code-barre ne localise pas un produit mais l'identifie (bien qu'il identifie tous les exemplaires d'un produit, pas chaque exemplaire individuellement, ce qui est le travail du numéro de série, lequel n'est pas systématique mais réservé aux produits onéreux).
Page 25: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Sujet ( = ce qu’on décrit )http://www.w3.org/Home/Lassila

Prédicat ( = une Propriété applicable à ce qu’on décrit )

A pour Créateur

Objet (= une valeur ) "Ora Lassila"

RDF : le principe des tripletsLes données sont décomposées / recomposées en

« triplets RDF »

…. et modélisées en « graphes RDF »

Présentateur
Commentaires de présentation
Il s’agit d’un modèle de graphe Cette page d’accueil a pour créateur « Ora Lassila » Sujet = la ressource à décrire Prédicat = une propriété applicable à ce sujet) Objet = une valeur de cette propriété
Page 26: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Sujet/prédicat/objet Quatre-vingt-treize est un

roman de Victor Hugo paru en 1874 et dont le thème est la révolution française

Quatre-vingt-treize est un roman

Quatre-vingt-treize a pour auteur Victor Hugo

Quatre-vingt-treize est paru en 1874

Quatre-vingt-treize a pour thème la Révolution française

(Quatre-vingt-treize, type, roman)

(Quatre-vingt-treize, auteur, Victor Hugo)

(Quatre-vingt-treize, année de parution, 1874)

(Quatre-vingt-treize, thème, La Révolution Française)

Exemple emprunté à Bernard Vatant –in Métadonnées, perspectives et MutationsSéminaire INRIA – 2008)

Présentateur
Commentaires de présentation
Décomposition en binomes « propriété /valeur » Pour se rapprocher de RDF : triplets abstraits
Page 27: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Sujet / prédicat / objet

Ressource = 1 URI = http://dbpedia.org/resource/Ninety-Three

dbpedia : Ninety-Three rdf:type yago:Novel106367879

dbpedia : Ninety-Three dcterms : creator dbpedia : Victor Hugo

dbpedia : Ninety-Three dcterms : created « 1874 »

dbpedia : Ninety-Three skos:subject dbpedia : Category : French revolution

Présentateur
Commentaires de présentation
Sujet doit être identifié par une URI :
Page 28: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Diapo : Emmanuelle BermèsEn d’autres termes ….

Page 29: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

FOAF Whos’ who ?

Page 30: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Bases de connaissances en accès libre

Data.gov : 305. 692 Datasets (nov.2010)

http://data.gov.uk/

DBPedia : 3,4 millions d'entités

Geoname : 8 millions de noms géographiques

Musicbrainz

Présentateur
Commentaires de présentation
Datagov : 305,692 Datasets DBpedia = extraction des données de wikipédia pour en proposer une version web sémantique. Ce projet est mené par l'Université de Leipzig, l'Université libre de Berlin et l'entreprise OpenLink Software. DBpedia est interconnecté avec GeoNames, MusicBrainz, CIA World Factbook, le projet Gutenberg et Eurostat, entre autres. La base de données décrit 3,4 millions d'entités, incluant au moins 312 000 personnes, 413 000 lieux, 94 000 albums de musique, 49 000 films, 15 000 jeux vidéos, 140 000 organisations (dont 31 000 sociétés et 31 000 établissements d'enseignement), 146 000 espèces et 4600 maladies et contient 1 461 000 liens vers des images, 5,54 millions de liens vers des pages extérieures, 4,87 millions de liens vers des datasets externes, 565 000 catégories Wikipédia et 75 000 catégories YAGO[2]. Le contenu de la base est disponible sous double licence Creative Commons BY-SA 3.0 et GFDL Geonames : plus de 8 millions de noms géographiques qui correspondent à plus de 6,5 millions de lieux existants. Ces noms sont classés en 9 catégories et 645 sous-catégories. Des données comme la latitude, la longitude, l'altitude, la population, la subdivision administrative, le code postal sont disponibles en plusieurs langues pour chaque emplacement. Chaque caractéristique de GeoNames est représentée comme une ressource web identifiée par un identifiant URI stable. Cet identifiant URI offre l'accès, au travers de transfert d'informations, à une page Wiki en HTML ou à une description de ressources RDF du caractère en utilisant le dialecte GeoNames. Ce dialecte décrit les propriétés des caractères GeoNames en utilisant le OWL. Les classes et les codes sont par ailleurs décrits dans le langage SKOS. Au travers des URL des articles Wikipédia liés à la description RDF, les données GeoNames sont reliées aux données DBpedia et autres données RDF. Muzicbrainz : 570 000 artistes ou groupes, plus de 850 000 disques, et plus de 45 000 labels.
Page 31: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

C’est où ???

Présentateur
Commentaires de présentation
La base de données contient plus de 8 millions de noms géographiques qui correspondent à plus de 6,5 millions de lieux existants. Ces noms sont classés en 9 catégories et 645 sous-catégories. Des données comme la latitude, la longitude, l'altitude, la population, la subdivision administrative, le code postal sont disponibles en plusieurs langues pour chaque emplacement. Les coordonnées géographiques sont basées sur le système de coordonnées WGS 84 (World Geodetic System 1984). Les informations sont accessibles gratuitement par une interface Internet[2]. Il est possible de trouver des lieux en fonction d'un code postal ou à proximité d'un endroit donné et de trouver des liens vers l'article Wikipédia correspondant. L'interface est de type Wiki et les utilisateurs peuvent ajouter des données, les améliorer ou corriger les données présentes. Intégration Web Chaque caractéristique de GeoNames est représentée comme une ressource web identifiée par un identifiant URI stable. Cet identifiant URI offre l'accès, au travers de transfert d'informations, à une page Wiki en HTML ou à une description de ressources RDF du caractère en utilisant le dialecte GeoNames. Ce dialecte décrit les propriétés des caractères GeoNames en utilisant le OWL. Les classes et les codes sont par ailleurs décrits dans le langage SKOS. Au travers des URL des articles Wikipédia liés à la description RDF, les données GeoNames sont reliées aux données DBpedia et autres données RDF.
Page 32: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

http://sws.geonames.org/3031189 ????

<rdf:RDF><gn:Feature rdf:about="http://sws.geonames.org/3031189/"><rdfs:isDefinedBy>http://sws.geonames.org/3031189/about.rdf</rdfs:isDefinedBy><gn:name>Pointe des Boulassiers</gn:name><gn:featureClass rdf:resource="http://www.geonames.org/ontology#T"/><gn:featureCode rdf:resource="http://www.geonames.org/ontology#T.PT"/><gn:countryCode>FR</gn:countryCode><wgs84_pos:lat>46.01667</wgs84_pos:lat><wgs84_pos:long>-1.33333</wgs84_pos:long><gn:parentFeature rdf:resource="http://sws.geonames.org/2986492/"/><gn:parentCountry rdf:resource="http://sws.geonames.org/3017382/"/><gn:parentADM1 rdf:resource="http://sws.geonames.org/2986492/"/><gn:nearbyFeatures rdf:resource="http://sws.geonames.org/3031189/nearby.rdf"/><gn:locationMap rdf:resource="http://www.geonames.org/3031189/pointe-des-boulassiers.html"/></gn:Feature><foaf:Document rdf:about="http://sws.geonames.org/3031189/about.rdf"><foaf:primaryTopic rdf:resource="http://sws.geonames.org/3031189/"/><cc:license rdf:resource="http://creativecommons.org/licenses/by/3.0/"/><cc:attributionURL rdf:resource="http://sws.geonames.org/3031189/"/><cc:attributionName rdf:datatype="http://www.w3.org/2001/XMLSchema#string">GeoNames</cc:attributionName><dcterms:created rdf:datatype="http://www.w3.org/2001/XMLSchema#date">2006-01-15</dcterms:created><dcterms:modified rdf:datatype="http://www.w3.org/2001/XMLSchema#date">1994-01-06</dcterms:modified></foaf:Document> </rdf:RDF>

Page 33: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Pointe des BoulassiersFrance » Poitou-CharentespointN 46° 1' 0'' W 1° 20' 0''46.01667 / -1.33333GeoNameId : 3031189

Présentateur
Commentaires de présentation
Geonma interconnceté avec google map -
Page 34: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Des silos de «données brutes»

Présentateur
Commentaires de présentation
305,692 Datasets
Page 35: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Visualisation

Page 36: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Mashup de données

Page 37: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

… et les bibliothèques ???

Page 39: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

La DEWEY en RDF (OCLC)

Présentateur
Commentaires de présentation
Réalisation OCLC (API ) Dewey.info is an experimental space for linked DDC data. The intention of the dewey.info prototype is to be a platform for Dewey data on the Web.
Page 40: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

RAMEAU en SKOS (TelPlus)

Présentateur
Commentaires de présentation
Le vocabulaire RAMEAU édité par la BNF a été porté en SKOS dans le cadre du projet européen TelPlus lui-même une brique du projet de Europeana. Dans ce même cadre ont été également migrés en SKOS le vocabulaire SWD de la Bibliothèque nationale allemande, et les correspondances entre ces deux vocabulaires et le LCSH.
Page 41: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

VIAF (OCLC)

Présentateur
Commentaires de présentation
Virtual International Authority File – projet oclc VIAF intègre Authority data from 16 authority files at 14 different libraries represented in a variety of formats. (Bibliothèque du Congrès, la Deutsche Nationalbibliothek, la Bibliothèque nationale de France et la Bibliothèque nationale de Suède). Les correspondances de vedettes sont présentées sous forme graphique, et le système affiche, pour chaque vedette, toutes les variantes connues, un choix de titres, les pays d'édition, des statistiques sur la chronologie des éditions, un choix d'éditeurs, la notice d'autorité en MARC21 et en UNIMARC. VIAf est une magnifique illustration de "linked data"!
Page 42: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Page 43: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Données Marc transposées en RDF

Présentateur
Commentaires de présentation
LIBRIS : un catalogue dans le linked data
Page 44: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Page 45: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

+ utilisation des données externes

Page 46: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Données libérées = Moteurs sémantiques ???

Présentateur
Commentaires de présentation
Un moteur dit sémantique s’appuie sur les technologies du Web sémantique pour offrir de nouvelles fonctionnalités. Un moteur sémantique va non pas se baser sur le texte qu'on trouve dans des pages web mais sur du "sens" - Comment intégre-t-on du sens dans une machine? En s’appuyant sur une base de connaissances : ensemble de faits et de règles énoncés en rdf
Page 47: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Questions en langage naturel ?

Présentateur
Commentaires de présentation
Web socio-sémantique = aux questions posées, c’est à chacun de répondre = agglomération de connaissances -
Page 48: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Présentateur
Commentaires de présentation
Moteur analysant des données scientifiques (outils de calcul intégré) Racheté par Microsoft ---
Page 49: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Présentateur
Commentaires de présentation
microsoft
Page 50: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Page 51: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Présentateur
Commentaires de présentation
Freebase moteur développé par Metaweb – base de connaissances socio-sémantique – brique du web de données
Page 52: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Page 53: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Page 54: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!
Présentateur
Commentaires de présentation
Metaweb a été racheté par Google ---
Page 55: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Pour en savoir plus ….Tim Berners-Lee : The Next Web of Open, Linked Data (TED 2009)http://dai.ly/cvIl6P (sous-titré en français)

Linking OpenDatahttp://esw.w3.org/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

SKOS http://www.w3.org/2004/02/skos/

Projet Open Library http://openlibrary.org/about/lib

LIBRIS : un catalogue dans le linked datahttp://dc2008.de/wp-content/uploads/2008/09/malmsten.pdf

Les catalogues de bibliothèques sur le Web – Emmanuelle Bermès (2009)http://www.slideshare.net/Figoblog/les-catalogues-sur-le-web

Le web sémantique : un web de métadonnées –Yann Nicolashttp://www.slideshare.net/yannn/le-web-smantique-un

Métadonnées : mutations et perspectives – Séminaire INRIA - 29 sept./ 3 oct. 2008 – Dijon –ADBS Editions

Page 56: Information Scientifique et Technique : pour des moteurs efficaces, liberez les donnees!!

Merci à ….

… porte d’entrée (toujours) indispensable …. pour collecter les informations et données ayant servi à cette présentation

…. à Yann Nicolas (ABES) et Emmanuelle Bermes (BNF),initiateurs en RDF

Cette présentation est placée sous licence Creative Commons