Upload
trory
View
26
Download
4
Embed Size (px)
DESCRIPTION
F. Le dépôt légal des ressources en ligne. Aspects techniques de la collecte et du traitement. Archivage du web dans les bibliothèques. Deux approches collecte et sélection d’un nombre limité de sites collecte automatique de tout le web « national » - PowerPoint PPT Presentation
Citation preview
Aspects techniques de la collecte et du traitement
Le dépôt légal des ressources en ligne F
Archivage du web dans les bibliothèques
Deux approches collecte et sélection d’un nombre limité de sites collecte automatique de tout le web « national »
Les bibliothèques nationales ont commencé à expérimenter en 1996
http://www.bnf.fr/pages/infopro/dli_ECDL2001.htm
A la BnF 1999 , archivage de sites et participation à NEDLIB (Networked Deposit Libraries)
Kulturarw3 : web suédois
DL suédoisdepuis 1661 1993. Documents électroniques sur support
Archivage de tout le web suédois, été 1996tout automatique. Robot Combine qui parcourt les liens4 snapshots par an
Traitement et accès (réservé projet)pas de catalogage, indexation des sites texte intégralnavigation web dans l’archive pour chaque snapshot
Archive (février 2001) 110 M de fichiers, 3 To, 97 000 sites
Pandora Archive, NLA
Archivage sélectif de siteshttp://pandora.nla.gov.au/selectionguidelines.html
Ressources uniquement en ligne et fréquence, ressource aussi sur CD-ROM, pas ressource aussi sur support analogique
Australie, événements, publications faisant autorité (Universitaires), publications innovantes, périodiques
Traitement et préservationCatalogage de sites ou décomposition du site en portions Pas de conservation des liens externes à l ’unité bibliographiqueAccès via le service PandoraPréservation à long terme : identifiant pérenne
http://www.nla.gov.au/padi/
Approche sélective
AvantagesGestion similaire au DL sur supportDéterminer la fréquence d’archivageCatalogage et accès comme les ressources numériques sur
support ou les ressources numérisées
InconvénientsApplicable à un petit nombre de sites (3000 sites = environ
1% du web françaisPerte de la navigabilité entre les sites
Approche snapshot
AvantagesMeilleure couverture du domaine web cible qui représente
mieux la mémorisation patrimonialeL’archive complète est navigable horizontalement dans un snapshot et verticalement dans l ’historique des snapshots
InconvénientsPériodicité globale insuffisante pour un vrai suivi des mises à
jour des sitesUne partie du Web est inaccessible aux robots : sélection de fait
Conclusion pour tous : les deux approches sont complémentaires et nécessaires
Expérimentation BnFAdaptation d’un robot aux besoins d ’archivage
patrimonialFaire une cartographie différenciée des sites en fonction de
critères en cours de test et validation, utiliser l ’information pour piloter la collecte automatique
Utiliser la notoriété, les mots rares, des outils de suivi de modifications. Vérifier comment appliquer les paramètres dans les différents domaines des connaissances
Faire une notification des parties inaccessibles du Web
Suivi détaillé des sites : 130 sites choisis, 65 ont donné leur accord, 29 ont signé la convention, 4 ont déjà effectué un dépôt
Complémentarité des approches
Web
Deep Web
Le web français
Le .fr estimation 10 millions de pages147 843 domaines (AFNIC) dont 1/3 indexés par les robotsavec .org, .com, .net sans doute le double
Web francophone estimationentre 26 M et 56 M de pages selon différents robots
Le volume à traiter peut être estimé à un volume situé entre 1 et 5 To pour un snapshot complet
Les acteurs de l ’archivage du web
Communautés d’auteurs et de chercheurs, associations
Physiciens : pre-print Los AlamosInternet archive et le Wayback Machine
Editeurs de sites eux-mêmes et notamment les éditeurs STM. Elsevier, Springer, AIP …
Les institutions de mémoireLes bibliothèques nationales seules ou en coopération sur les
contenus et/ou la durée de conservationVolonté des bibliothèques nationales d’interconnecter les archives de
chaque pays pour reconstituer la navigabilité globale
Conclusion
Expérimentation sur la collecte et le traitement pour préparer le décret d’application qui accompagnera l’évolution de la loi sur le DL
Les aspects de stockage et d’accès sont traités dans le cadre global de l ’ensemble des ressources numériques de la BnF : acquisitions, DL sur support, numérisation