13
Aspects techniques de la collecte et du traitement Le dépôt légal des ressources en ligne F

Le dépôt légal des ressources en ligne

  • Upload
    trory

  • View
    26

  • Download
    4

Embed Size (px)

DESCRIPTION

F. Le dépôt légal des ressources en ligne. Aspects techniques de la collecte et du traitement. Archivage du web dans les bibliothèques. Deux approches collecte et sélection d’un nombre limité de sites collecte automatique de tout le web « national » - PowerPoint PPT Presentation

Citation preview

Page 1: Le dépôt légal des ressources en ligne

Aspects techniques de la collecte et du traitement

Le dépôt légal des ressources en ligne F

Page 2: Le dépôt légal des ressources en ligne

Archivage du web dans les bibliothèques

Deux approches collecte et sélection d’un nombre limité de sites collecte automatique de tout le web « national »

Les bibliothèques nationales ont commencé à expérimenter en 1996

http://www.bnf.fr/pages/infopro/dli_ECDL2001.htm

A la BnF 1999 , archivage de sites et participation à NEDLIB (Networked Deposit Libraries)

Page 3: Le dépôt légal des ressources en ligne

Kulturarw3 : web suédois

DL suédoisdepuis 1661 1993. Documents électroniques sur support

Archivage de tout le web suédois, été 1996tout automatique. Robot Combine qui parcourt les liens4 snapshots par an

Traitement et accès (réservé projet)pas de catalogage, indexation des sites texte intégralnavigation web dans l’archive pour chaque snapshot

Archive (février 2001) 110 M de fichiers, 3 To, 97 000 sites

Page 4: Le dépôt légal des ressources en ligne
Page 5: Le dépôt légal des ressources en ligne

Pandora Archive, NLA

Archivage sélectif de siteshttp://pandora.nla.gov.au/selectionguidelines.html

Ressources uniquement en ligne et fréquence, ressource aussi sur CD-ROM, pas ressource aussi sur support analogique

Australie, événements, publications faisant autorité (Universitaires), publications innovantes, périodiques

Traitement et préservationCatalogage de sites ou décomposition du site en portions Pas de conservation des liens externes à l ’unité bibliographiqueAccès via le service PandoraPréservation à long terme : identifiant pérenne

http://www.nla.gov.au/padi/

Page 6: Le dépôt légal des ressources en ligne
Page 7: Le dépôt légal des ressources en ligne

Approche sélective

AvantagesGestion similaire au DL sur supportDéterminer la fréquence d’archivageCatalogage et accès comme les ressources numériques sur

support ou les ressources numérisées

InconvénientsApplicable à un petit nombre de sites (3000 sites = environ

1% du web françaisPerte de la navigabilité entre les sites

Page 8: Le dépôt légal des ressources en ligne

Approche snapshot

AvantagesMeilleure couverture du domaine web cible qui représente

mieux la mémorisation patrimonialeL’archive complète est navigable horizontalement dans un snapshot et verticalement dans l ’historique des snapshots

InconvénientsPériodicité globale insuffisante pour un vrai suivi des mises à

jour des sitesUne partie du Web est inaccessible aux robots : sélection de fait

Conclusion pour tous : les deux approches sont complémentaires et nécessaires

Page 9: Le dépôt légal des ressources en ligne

Expérimentation BnFAdaptation d’un robot aux besoins d ’archivage

patrimonialFaire une cartographie différenciée des sites en fonction de

critères en cours de test et validation, utiliser l ’information pour piloter la collecte automatique

Utiliser la notoriété, les mots rares, des outils de suivi de modifications. Vérifier comment appliquer les paramètres dans les différents domaines des connaissances

Faire une notification des parties inaccessibles du Web

Suivi détaillé des sites : 130 sites choisis, 65 ont donné leur accord, 29 ont signé la convention, 4 ont déjà effectué un dépôt

Page 10: Le dépôt légal des ressources en ligne

Complémentarité des approches

Web

Deep Web

Page 11: Le dépôt légal des ressources en ligne

Le web français

Le .fr estimation 10 millions de pages147 843 domaines (AFNIC) dont 1/3 indexés par les robotsavec .org, .com, .net sans doute le double

Web francophone estimationentre 26 M et 56 M de pages selon différents robots

Le volume à traiter peut être estimé à un volume situé entre 1 et 5 To pour un snapshot complet

Page 12: Le dépôt légal des ressources en ligne

Les acteurs de l ’archivage du web

Communautés d’auteurs et de chercheurs, associations

Physiciens : pre-print Los AlamosInternet archive et le Wayback Machine

Editeurs de sites eux-mêmes et notamment les éditeurs STM. Elsevier, Springer, AIP …

Les institutions de mémoireLes bibliothèques nationales seules ou en coopération sur les

contenus et/ou la durée de conservationVolonté des bibliothèques nationales d’interconnecter les archives de

chaque pays pour reconstituer la navigabilité globale

Page 13: Le dépôt légal des ressources en ligne

Conclusion

Expérimentation sur la collecte et le traitement pour préparer le décret d’application qui accompagnera l’évolution de la loi sur le DL

Les aspects de stockage et d’accès sont traités dans le cadre global de l ’ensemble des ressources numériques de la BnF : acquisitions, DL sur support, numérisation