17
BiblioML Elaboré par Tarek Hamdi [M2 GIDN : Bibliothèques Numériques] 2012/2013 République Tunisienne Ministère de l’enseignement supérieur Université de la manouba Institut supérieur de la Documentation

M2 gidn bn biblio_ml

  • Upload
    taarek

  • View
    295

  • Download
    0

Embed Size (px)

Citation preview

Page 1: M2 gidn bn biblio_ml

BiblioML Elaboré par Tarek Hamdi

[M2 GIDN : Bibliothèques Numériques]

2012/2013

République Tunisienne Ministère de l’enseignement supérieur

Université de la manouba Institut supérieur de la Documentation

Page 2: M2 gidn bn biblio_ml

Table des matières I. Introduction .......................................................................................................................................... 2

II. UNIMARC ............................................................................................................................................. 2

III. XML ..................................................................................................................................................... 3

IV. BiblioML.............................................................................................................................................. 4

V. Avantages de BiblioML ..................................................................................................................... 7

VI. Utilisations et projets en BiblioML ..................................................................................................... 7

VII. Conclusion ......................................................................................................................................... 8

VIII. Exemple d’enregistrement BiblioML ................................................................................................ 9

IX. Webographie ................................................................................................................................... 15

Page 3: M2 gidn bn biblio_ml

I. Introduction

BiblioML est une représentation en XML (DTD puis schéma) des notices

bibliographiques basée sur le format d’échange UNIMARC qui respect la norme ISO 2709.

La norme ISO 2709 est une norme internationale qui définit la structure des notices contenant

des données bibliographiques.

Pour entamer le sujet de BiblioML, il parait indispensable d’éclaircir la notion d’UNIMARC

et de présenter la technologie XML et les intersections possibles entre eux.

II. UNIMARC

UNIMARC est un standard d'échange de données bibliographiques et est aussi définit

comme un format informatique international des données bibliographiques permettant les

échanges entre logiciels documentaires ou bases de données bibliographiques. Principalement

défini par l'IFLA (International Federation of Library and Institutions), l’UNIMARC est

conforme à la norme ISO 2709. Le format UNIMARC est complété, en France, par la

recommandation 995 qui complète l’UNIMARC en prenant en compte le codage des

informations concernant les exemplaires (nombre et numéros d'exemplaires, par exemple).

UNIMARC est un format "champs" (champ-valeur répétable), adaptable à de

nombreux objets (bibliographie, autorités, classification, archivistique ...).

Une notice UNIMARC est constituée de différents blocs numérotés qui correspondent

à des types d'informations. Chacun de ces blocs est constitué de champs et de sous-champs.

Les champs sont numérotés, les sous-champs sont introduits par le symbole $ suivi d'une

lettre.

Voici un exemple de fichier UNIMARC correspondant à un exemplaire de code barre

5777008954 de :

Les Champignons / Jean C. Keller. - Paris : le Livre de poche,

1983 - 127 p. : ill. ; 17 cm. - (Le Livre de poche; 7847).

Les rubriques d’UNIMARC Significations *****cam**22002411**450* [Données codées]

010 ** $a 2-253-03268-9 $b Br. $d 24 F [ISBN, reliure, prix]

100 ** $a 19840104d1983****m**y0frey0103****ba [Données codées]

101 ** $a fre [Code de langue]

102 ** $a FR [Code de pays]

Page 4: M2 gidn bn biblio_ml

Les rubriques d’UNIMARC Significations 105 ** $a aay**zz**00|z| [Données codées]

106 ** $a r [Données codées]

200 1* $a Les Champignons $f Jean C. Keller [Titre, auteur]

210 *0 $a Paris $c le Livre de poche $d 1983 [Edition]

215 ** $a 127 p. $c ill. $d 17 cm [Collation]

225 2* $a Le Livre de poche $v 7847 [Collection]

606 ** $3 $a Champignons [Vedette matiére]

676 ** $a 589.2 [Indice Dewey]

700 1* $a Keller $b Jean [Vedette auteur]

995 ** $f 5777008954 $k 589.2 KEL

RQ : les * désignent des espaces = des blancs ou à des positions non renseignées

Les jeux de caractères ISO sont utilisés pour les échanges de données en format

UNIMARC. Le label de notice, le répertoire, les indicateurs, les codes de sous-zones et les

autres codes spécifiés dans ce manuel doivent être enregistrés en utilisant les caractères de

commande et les caractères graphiques du jeu de caractères ISO 646 (IRV), ou alphabet

international de référence, qui est considéré par défaut comme le jeu de caractères de la

notice. Les techniques d’extension spécifiées dans le jeu de caractères ISO/IEC 2022 sont

utilisées quand plusieurs jeux de caractères sont nécessaires dans une même notice.

III. XML

XML (Extensible markup language) est un langage de balisage générique dont le but

est de permettre la fonctionnalité et l’interopérabilité du Web en permettant à plusieurs

systèmes d’information hétérogènes de communiquer et d’échanger. Autrement dit il repose

sur des principes : c’est un langage de balisage extensible ; sa maintenance est assurée par le

W3C; les balises ne sont pas prédéfinies mais libres et précisent le sens ou la structure et non

pas la présentation graphique; le contenu, la structure et la présentation sont nettement

dissociés ; la structure des informations est arborescente.

Les raisons qui rendent intéressantes son utilisation sont que : c’est un format libre et ouvert;

il est indépendant de toute plateforme informatique ; il est promis à une certaine pérennité (il

est répandu dans plusieurs domaines et bénéficie d’une solide structure de maintenance) ; il

facilite l’interopérabilité.

En bibliothèque son utilisation permet : d’afficher des notices bibliographiques sur le Web

(BiblioML, MarcXML, MODS…) ; d’y échanger ces notices (OAI, Dublin Core…) ; d’y

éditer des ressources (TEI, EAD…) ; d’y diffuser de l’information (RDF, RSS, Atom…).

Pour mieux cerner les possibilités permises par XML, faisons une petite comparaison avec le

format Marc. Marc se matérialise sous la forme d’un format de saisie constitué de zones

prédéfinies et immuables, certaines de ces zones permettent de communiquer avec d’autres

systèmes utilisant le même format ce qui permet à plusieurs bibliothèques d’échanger des

notices bibliographiques par l’import ou l’export de celles-ci. Mais ces échanges ne

concernent pas les usagers de quelques bibliothèques qui sont dans l’impossibilité d’accéder

Page 5: M2 gidn bn biblio_ml

aux notices via le Web (pour cela ils doivent préalablement passer par le site de la

Bibliothèque pour accéder à son OPAC). Alors qu’avec XML, ces notices bibliographiques

deviennent visibles à partir du Web parce qu’étant repérables par les différents outils de

recherche qui le sillonnent. En d’autres termes les OPAC sont mis en surface et accessibles,

en principe, à tout internaute. Un autre avantage parmi d’autres est, par exemple, le

changement de formats de notices de MARC à XML qui se fait sans perte de données,

permettant ainsi une retro-conversion « fidèle » de ces dernières… Ce souci de pallier

l’incapacité du Marc à permettre les échanges sur le WEB, sera à l’origine de la création du

MarcXML par la Bibliothèque du Congrès en juin 2002.

IV. BiblioML

BiblioML, ou Bibliographic Markup Language, est une DTD XML (XML Schéma

depuis la version 0.6 ) créée en 1999 sous l’égide de la Mission de la recherche et de la

technologie du Ministère de la Culture français qui souhaitait mettre en place un outil

commun de gestion des références bibliographiques de ses applications XML (dossiers

d'inventaire, dossiers d'artistes, rapports de fouilles, etc.). Cette DTD a été développé par

Martin Sévigny de la société AJLSM pour représenter toutes les informations que l'on trouve

dans une notice UNIMARC (bibliographique et autorités) en format XML.

Tableau de synthèse des correspondances

UNIMARC : Bloc et champ BiblioML : Elément-père, élément-fils Bloc des informations descriptives 2XX,

champ 200

<Description>

<Title and Responsibility>

Bloc des informations descriptives 2XX,

champ 205

<Description>

<EditionGroup>

Bloc des informations descriptives 2XX,

champ 210

<Description>

<PublicationGroup>

Bloc des informations descriptives 2XX,

champ 215

<Description>

<PhysicalDescription>

Bloc des informations descriptives 2XX,

champ 225

Bloc des notes 3XX <Notes>

Bloc des notes 3XXBloc 0XX, champ 012

<Description>

<IdentificationNumbers>

<FingerprintID>

Bloc des informations codées 1XX

<CodedValues>, mais

aussi <Meta> et

<Description>

Bloc des titres associés 5XX

Bloc de l'indexation-matière 6XX

Bloc de la responsabilité intellectuelle 7XX

<RelatedTitles>

<Subjects>

<Description>

<IntellectualResponsibility>

Bloc 8XX des données

Internationales <Meta>

Page 6: M2 gidn bn biblio_ml

BiblioML permet la conversion au format XML de notices bibliographiques ou

d'autorité saisies en format UNIMARC. D'ailleurs, le Manuel UNIMARC a servi de document

de référence lors de la création de la DTD et les champs et sous-champs de BiblioML

correspondent à ceux d'UNIMARC. BiblioML comporte 224 éléments (BiblioRecord étant

celui de plus haut niveau), 2 entités (BooleanAttribute et DataContent) mais aucune notation.

L'element BiblioRecord est composé de:

Meta : métadonnées liées à l'enregistrement (date et lieu de création, etc...).

Ces informations ont pour origine différents champs Unimarc, principalement

les champs 0xx.

Description : description de l'oeuvre : titre, auteurs, dates, éditeur, droits...

(champs 2xx et 5xx d'Unimarc)

Notes : notes concernant l'oeuvre, destinées au public (champs 3xx)

CodedValues : informations codées relatives à la description de l'oeuvre

(principalement, les champs 1xx d'Unimarc)

Subjects : sujets traités par l'oeuvre, et mots-clés correspondant (champs 6xx)

Relationships : liens vers d'autres oeuvres (champs 4xx)

IntellectualResponsability : indications de responsabilité intellectuelle telles

qu'elles figurent dans l'ISBD (champs 7xx)

LocalData : données locales propres à l'établissement créateur de la notice

(champs 9xx)

Tables : table des matières et Index

Text : texte de présentation de l'ouvrage

<BiblioRecord Language="fre" id="B590092101_00073.173_001"> <Meta>...</Meta>

<Description>...</Description>

<CodedValues>...</CodedValues>

<Notes>...</Notes>

<Subjects>...</Subjects>

<LocalData>...</LocalData>

<TableOfContents>...</TableOfContents>

<Index>...</Index>

</BiblioRecord>

L'expressivité d'XML peut être menée plus loin. On peut ainsi tirer parti de

l'imbrication des éléments pour regrouper des informations et les nommer plus explicitement.

Si le champ 200 est le titre, et qu'il y a un sous-champ pour les sous-titres ($e), il n'est pas

désagréable de pouvoir l'indiquer expressément, exemple en "pseudo-code"

Page 7: M2 gidn bn biblio_ml

La souplesse du format BiblioML permet d'ajouter bien d'autres informations, comme

des index, des tables des matières, des illustrations, et surtout, ce qui est très particulier à

XML, du texte riche. La DTD BiblioML prévoit ainsi des noms permettant qu'une notice

devienne un document avec plus de contenu.

BiblioML et La Compatibilités : Dans une conversion UNIMARC vers BiblioML, la

plupart des champs documentés trouve une place en XML. Pour des usages spécifiques à une

organisation, les outils livrés peuvent être édités (XSL) pour rendre raison à des besoins qui

n'auraient pas été prévus. Par contre, une fois passés en BiblioML, surtout si les contenus ont

été enrichis, un retour en MARC pourrait perdre une partie de l'information.

Outils BiblioML. Autour de BiblioML, on trouvera des outils libres habituels : conversion

depuis l'UNIMARC, transformation de restitution. On mentionne particulièrement BiB-X, une

application libre qui administre, cherche et produit des notices. On notera la possibilité de

pouvoir définir ses propres formulaires de saisie (selon le type de documents), dans un

standard XML (XForm).

BiblioML apporte des extensions au format UNIMARC, dont voici les plus

significatives :

- Il est possible d'encoder le texte du document en question, inclus dans l'élément <Text>.

- Il est également envisageable d'intégrer des tables et des index, au moyen de la balise

<Tables>, puis <TableOfContent> ou <Index>. Il s'agit d'une nette progression par rapport à

la possibilité de référencer une table des matières au moyen du champ 359 puisqu'il n'y a

plus de limitation de niveaux d'arborescence.

- En ce qui concerne les liens entre notices, indiqués par les éléments <Relationships> puis

<LinkedItem>, plusieurs solutions sont possibles. Comme le propose MARC, un simple lien

entre les notices peut être créé. L'élément <LinkedItem> est alors vide et l'attribut RecordID

indique le numéro de la notice concernée. On peut également envisager d'inclure la seconde

notice dans la première, en utilisant l'élément <BiblioRecord>.

Dans tous les cas, l'attribut « Relation » permet d'indiquer le type de relation entre les deux

ouvrages décrits. BiblioML apporte ainsi davantage de souplesse et de lisibilité que

l'utilisation éventuelle des champs 4XX proposés par UNIMARC.

- L'information concernant les exemplaires locaux peut être donnée directement, alors qu'une

notice d'exemplaire devait être liée à la notice bibliographique dans UNIMARC. Pour cela il

suffit d'utiliser l'élément <Copies> et ses éléments-fils. Cette expérience de traitement avec

BiblioML montre que si toute information de type bibliographique aurait pu être saisie en

MARC, BiblioML apporte davantage de clarté. Les extensions proposées par BiblioML ne

sont donc pas si significatives pour la description bibliographique du livre en tant que telle. Le

véritable enrichissement, c'est de rendre possible l'intégration de tout ou partie du document

primaire.

Page 8: M2 gidn bn biblio_ml

D’autre part, BiblioML permet une description bibliographique fine et complète, mais

les possibilités de renseigner les métadonnées de gestion techniques et administratives sont

bien moins riches que celles que proposent le Dublin Core ou l’en-tête de la TEI. En effet,

l'encodage dans BiblioML de ces métadonnées se limite à l'élément <Meta>, et elles

correspondent ni plus ni moins à celles qui figurent dans une notice MARC. Cela doit être

perçu comme une limitation, car dans un contexte de numérisation et d'édition sur le

Web, le contexte du document ainsi que les conditions d'accès doivent être précisées.

V. Avantages de BiblioML

Brièvement, l’utilisation du format BiblioML nous engendre plusieurs avantages dont les

plus importants sont les suivants :

Format moderne : basée sur XML, adaptée à Internet

Format ouvert : mises dans le domaine public, les spécifications de BiblioML sont

disponibles sur le site officiel du ministère de la culture.

Modèle de caractères Unicode : toutes les écritures, basées sur ce système de codage

universel, sont représentables sans ambiguïté.

Hiérarchie complète : tous les documents sont décrits exactement, quelle que soit la

complexité de leur structure

Taille illimitée : la taille des documents ou des zones n'est pas limitée.

Toutes les extensions sont possibles : texte intégral, table des matières, index,

illustrations graphiques ou sonores...

Facilités de compréhension : les balises BiblioML permettent de décrire lisiblement

la structure et la sémantique de chaque élément

VI. Utilisations et projets en BiblioML

Utilisant ou S'appuyant sur BiblioML, plusieurs projets ont vu le jour. Voici quelques

applications utilisant BiblioML :

La bibliographie nationale française (en ligne depuis juillet 2001). Les notices

bibliographiques sont d'abord cataloguées en Intermarc puis extraites en UNIMARC,

et ensuite converties en XML selon la DTD BiblioML. Un serveur de transformation

produit enfin des pages HTML pour publication sur le Web.

Page 9: M2 gidn bn biblio_ml

La bibliographie nationale française : le Dépôt légal utilise BiblioML pour générer

les pages HTML statiques des différents numéros de la Bibliographie

(http://bibliographienationale.bnf.fr).

Base de documents SANGIS (Réseau du sud-est asiatique pour un systéme

d'informations géologiques SANGIS) du CIFEG (centre international pour la

formation et les échanges en géosciences) : base de données BiblioML pour la

diffusion d'un catalogue collectif de références bibliographiques dans le domaine des

sciences de la terre.

Bilans scientifiques régionaux : projet de base bibliographique BiblioML dans le

domaine archéologique

Bibliographie Dossiers d'artistes : projet du Ministère de la culture et de la

communication, ayant pour but de mettre en place une infrastructure permettant de

gérer et diffuser des dossiers d'artistes complets et riches, incluant des références

bibliographiques.

Article Repository System : un projet du College of Business of Public

Administration (BPA) de l'université de l'Arizona utilise une base de données

d'articles et des références en BiblioML

Open Citation System : un autre projet du BPA de l'université de l'Arizona utilise

BiblioML "as an architecture-neutral middle layer to store large bibliographic citation

databases for scientific sharing". Des convertisseurs seront développés de BiblioML

vers divers formats comme BibTeX et EndNote.

VII. Conclusion

La bibliographie est un domaine très "balisé" dans l'informatique documentaire.

Comparativement à d'autres milieux, les bibliothèques ont rapidement implanté des formats et

des systèmes informatiques de catalogage. Les normes "MARC" ont permis de répondre à des

besoins que d'autres formats ne représentaient pas aussi bien. XML permet de représenter

correctement des informations codées en MARC, ainsi que d'autres.

BiblioML devient un format source susceptible d'être inclus ou transformé à destination

d'autres documents XML.

Cependant, pour d'autres contextes, la totalité des informations du format d'archivage ne sont

pas toujours indispensables (exemples : date d'enregistrement, référence à une notice

d'autorité spécifique à un système). Il est alors plus important que la source soit conforme à

l'espace de noms de destination. Ceci permettra une courte revue d'autres standards XML de

la bibliographie, permettant de mieux définir la spécificité d'un format complet de catalogage.

Lorsqu'un système bibliographique est utilisé par des auteurs (en XML), on comprend dès lors

le gros intérêt d'ajouter cette sorte d'exports. Un chercheur pourra par exemple composer sa

bibliographie sur le catalogue d'une bibliothèque, et obtenir son panier dans le format qui lui

est directement utile.

Page 10: M2 gidn bn biblio_ml

En fin, on peut distinguer les trois points suivants :

La technologie MARC a donné les moyens de formuler très précisément les besoins

bibliographiques. Cependant, le format impose des raideurs qui ne sont plus

nécessaires et qui cantonnent son utilisation à des applications spécifiques et

généralement commerciales. XML permet un décalque sans perte des informations et

aussi de profiter des outils propres à cette technologie.

Une DTD ou Schéma comme BiblioML permet de garder la richesse des catalogues,

en pouvant y ajouter facilement d'autres informations, comme la table des matières, un

résumé, un index, une illustration. Fonder un système bibliographique sur ce type de

format peut par exemple agrémenter les catalogues pour donner un accès plus agréable

au public.

Enfin, l'adoption d'un format XML expressif apporte une souplesse à l'information, qui

lui permet plus facilement d'être servie à des machines (DC, OAI) ou d'être utilisée par

des auteurs.

VIII. Exemple d’enregistrement BiblioML

<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE BiblioRecord PUBLIC "-//MCC-FR//DTD BiblioML V03//EN" "biblioml_030.dtd">

<BiblioRecord Language="fre" id="B20"> <Meta>

…………………………. </Meta> <Description> …………………………. </Description>

<CodedValues> ………………………….

</CodedValues> <Notes> …………………………. </Notes>

<Subjects> …………………………. </Subjects>

</BiblioRecord>

Page 11: M2 gidn bn biblio_ml

On considère la notice bibliographique écrit sous format BiblioML

Métadonnées

Page 12: M2 gidn bn biblio_ml

Description

Page 13: M2 gidn bn biblio_ml

Valeurs codées

Notes

Subjects

Page 14: M2 gidn bn biblio_ml

LocalData

Table Of Contents

Page 15: M2 gidn bn biblio_ml

Index

Page 16: M2 gidn bn biblio_ml

IX. Webographie

RESSOURCES EN LIGNE

Bottin, Michel. BiblioML : Une application XML pour les données bibliographiques et

d'autorités, compatible avec (UNI)MARC. [en ligne]. Disponible sur : < http://www.paris-lavillette.archi.fr/docu/biblioml/fr/index.html>. (consulté le 20/12/2012).

Bibliothèque nationale de France. Manuel UNIMARC : format bibliographique. [en

ligne]. Disponible sur :

<http://www.bnf.fr/fr/professionnels/anx_formats/a.unimarc_manuel_format_bibliographi

que.html#SHDC__Attribute_BlocArticle3BnF>. (consulté le 20/12/2012).

PMB sevices. PMB : Guide de l'administrateur. [en ligne]. Disponible sur :

<http://www.sigb.net/doc/fr_FR/html-admin/>. (consulté le 24/12/2012).

Club BCDI. Unimarc ISO 2709. [en ligne]. Disponible sur : < http://club-bcdi.crdp-

poitiers.cndp.fr/docbcdi3ecole/unimarc.html#def>. (consulté le 24/12/2012).

L'école nationale supérieure d'architecture de Paris La Villette. (Notice

bibliographique). [en ligne]. Disponible sur : < http://www.paris-

lavillette.archi.fr/docu/biblioml/fr/B590092101_00073.173_001.xml>. (consulté le

20/12/2012).

Groupe de Recherche en Apprentissage Automatique Lille 3. BIBLIOML. [en ligne].

Disponible sur : < http://www.grappa.univ-

lille3.fr/~tommasi/InfoDoc/Formats2006/biblioML//bib-elt.html>. (consulté le

20/12/2012).

Blogokat, saga des DTD. Les DTD : 5. BiblioML. [en ligne]. Disponible sur : < http://blogokat.canalblog.com/archives/2005/01/16/240301.html>. (consulté le

20/12/2012).

SENBIBDOC. Archives du mot-clef BiblioML : N° 10 – XML et bibliothèques. [en

ligne]. Disponible sur : http://antoninbenoitdiouf.com/tag/biblioml/>. (consulté le

20/12/2012).

coverpages. BiblioML - XML for UNIMARC Bibliographic Records. [en ligne].

Disponible sur : < http://xml.coverpages.org/biblioML.html>. (consulté le 20/12/2012).

Glorieux, Frédéric. Bibliographie et XML. [en ligne]. Disponible sur :

<http://projets.ajlsm.com/sdapa/sdapa/infos/standards/bibliographie.html>. (consulté le

20/12/2012).

Page 17: M2 gidn bn biblio_ml

MOREL-PAIR, Catherine. Métadonnées et XML Des standards efficients de

l’environnement numérique. Villeurbanne : ENSSIB, 2007, 32 p.

Olivier, Mabille. Enrichir le catalogage des documents audiovisuels : étude de faisabilité

au département de l'Audiovisuel. Villeurbanne : ENSSIB, 2006, 82 p.

Bernaudin, Anne-Claire. Mise en ligne d’un guide bibliographique en sciences

religieuses : difficultés, enjeux, perspectives. ENSSIB, 2005, 68 p.