Signalements, accès et mise à disposition des données numériques en SHS

Embed Size (px)

Citation preview

Signalement, accs, et mise disposition des donnes numriques de la recherche en SHS

rechercheisidore.fr

Stphane POUYLLAU, Ingnieur de recherche au CNRS

Directeur de Corpus-IR (UMS 3534)

Responsable du projet ISIDORE - TGE Adonis

Twitter @spouyllau Email [email protected]

Adonis

- Adonis est un trs grand quipement pour les sciences humaines et sociales- Acteur de la feuille de route ESFRI (DARIAH)- Missions 2012-2015:

- Accs aux donnes et documents numrique des SHS (ISIDORE)- Grille de services: hbergement web; stokage de donnes; Archivage long terme (OAIS / CINES-SIAF)

- Site: www.tge-adonis.fr- Contact: [email protected]

Corpus-IR

- Corpus-IR (trs grande Infrastructure de Recherche) est un rseau d'quipes produisant des corpus numriques de sources:- quipes (UMR, EA, etc.) - consortiums disciplinaires (mais pas que)- 12 consortiums 15 consortiums

- Financement de la production de corpus (numrisation; documentation; diffusion des donnes)- Points cls: qualit des mtadonnes; diffusion obligatoire des mtadonnes; diffusion selon des formats ouverts et normaliss (ISIDORE; Gallica; Europeana)

Corpus-IR

- Acteur de la feuille de route ESFRI (CLARIN)- UMS 3534 (Aix Marseille Universit et CNRS)Paris / Marseille

- Contact: www.corpus-ir.fr

Des corpus... Isidore de Sville? Mais de quoi parle-t-il ?

Photos: SP. 2006.

Photos: SP. 1999-2009.

Photos: SP. 2006.

Production de donnes sources

- Sources? Donnes et matriaux numriques souvent non dits/ditables (cots, place, droits)- Monde numrique (capteurs; photos; enregistrements; GPS; enqutes en ligne; numrisation de sauvegarde...)- Utilisation et r-utilisation? Reconnaissance du travail de collecte et de cration de corpus- Valorisation des fonds documentaires

ISIDORE et les fonds d'archives

Mettre en place l'environnement pour relier donnes de la recherche et publications

- Faciliter l'administration de la preuve scientifique

ISIDORE est un outil pour les communauts scientifiques

ISIDORE est un outil de signalement et d'accs

- Exposition gnrique des donnes

- Importance de la qualit des mtadonnes

ISIDORE est un moteur de recherche; un site web; un point d'accs des mtadonnnes enrichies et relies aux publications scientifiques

ISIDORE est un site web... avec une

+ de 1000 sources de donnes moissonnes

+ de 1.300.000 ressources indexs

Hypothses sur les modes accs

- volumes des donnes- l'organisation des donnes- catgorisation des donnes

Quelques chiffres

Dbut du projet: mai 2009

Ouverture: dc. 2010

Version 1: mars 2011Version 1.2: dc. 2011

Version 2: sept. 2012

+ 1.700.000 de ressources numriques: archives et corpus, actualits scientifiques publications, etc.

+ 1600 sources de donnes

+ 60000 visiteurs uniques / mois

Participer ISIDORE?

DonnesDonnesDonnesDonnes

RfrentielsRfrentiels

Rfrentiels

Fonctionnement gnral (1)

Donnes

Collecte(crawl)Traitements

Accs(API et facettes)

Gestion, Monitoring, StatistiquesUtilisateurs

RfrentielsNormaliss (RDF/SKOS)

SPARQL endpoint pour les producteurs de donnesFonctionnement gnral (2)

rechercheisidore.frExtension de recherche sur les catalogues de bibliothques (SRU/SRW - Z3950)DonnesDonnesDonnesOAI-PMHRDFaRSSEnrichissement des des mtadonnes et donnes(format pivot RDF) RfrentielsRfrentiels

ISIDOREPactolsRameauGeonames(lieux)Thsaurus W (SIAF)Lexvo(langues)RfrentielsHALSHS(personnes,disciplines)OpenEditionCalenda.org(catgories)

Isidore dans le nuage du web smantique

Principes du projet

- Implication des oprateurs SHS produisant des donnes (non-dites, sources dites, publications)

- Utilisation de standards internationaux

- Formats ouverts (indpendance vis vis de fournisseurs de donnes)

- Mise en valeur des donnes, mtadonnes, rfrentiels structurs produits par les quipes.

- Dveloppement et mode de fonctionnement itratif

Aspects documentaires

- ISIDORE collecte des mtadonnes et indexe le texte intgral ou les donnes embarques (IPTC; XMP; MS Word; MS Excel; ODT; MPEG 7)- mtadonnes (OAI-PMH + Dces / DC Terms)- actulits (RSS; Atom)- donnes (RDFa = RDF dans une page web)

Aspects ditoriaux (1)

- ISIDORE collecte tous les types de donnes (publications; corpus; actualits scientifiques)- L'important dans ISIDORE: l'information- la question du bibliographique

- Annuaire des sources: http://www.rechercheisidore.fr/annuaire

- Ils participent: Open Edition; Erudit; Cairn; Persee; CCSD (HAL-SHS, MdiHAL); plate-forme de MSH ; UQAM; UOH; Cerimes; Gallica/BNF; ABES...

Aspects ditoriaux (2)

-ISIDORE affecte aux mtadonnes moissonnes des identifiants prennes (handle) ce qui permet de citer les notices d'ISIDORE et donc les ressources- Si le producteur dj donn un id. prenne (DOI, ark, handle, OAI)=> ISIDORE peut r-exposer celui du producteur

- Dans tous les cas, les handle ISIDORE sont votre disposition (producteurs, utilisateurs)=> C'est un service gratuit

Alors? Et vous?

En tous cas, nous vous attendons dans ISIDORE...

et merci pour votre attention!