35
Des autorités aux autorités enrichies : vers une liaison automatique sémantiquement contrôlée aux autorités Sudoc Collaboration Abes/Lirmm dans le cadre du TGE Adonis Jabes 2010

Au dela des autorites du Sudoc

  • Upload
    abes

  • View
    571

  • Download
    2

Embed Size (px)

DESCRIPTION

L'utilisation des autorités du Sudoc au delà du Sudoc

Citation preview

Page 1: Au dela des autorites du Sudoc

Des autorités aux autorités enrichies :vers une liaison automatique sémantiquement

contrôlée aux autorités Sudoc

Collaboration Abes/Lirmm dans le cadre du TGE Adonis

Jabes 2010

Page 2: Au dela des autorites du Sudoc

Equipe Projet

• Equipe de recherche Graphik du LIRMM– Equipe de recherche en informatique (UM2, CNRS, INRIA)– Domaine : Représentation des connaissances et les raisonnements

(branche de l’intelligence artificielle) – Spécificité : approche « réseau sémantique »– Collaboration avec l’ABES : Michel Chein, Michel Leclère

• ABES– Christophe Bonnefond– Yann Nicolas– Olivier Rousseaux

Page 3: Au dela des autorites du Sudoc

Contexte de la collaboration :

• Appel à projets Adonis :

plate-forme d’accès unifié aux données• Verrous technologiques et scientifiques

– Unification des formats des méta-données => utilisation de RDF(S)

– Unification des vocabulaires de description des méta-données

• Classes et Propriétés => Définition d’ontologies• Entités individuelles => Pb de l’identification d’entité

Page 4: Au dela des autorites du Sudoc

Présentation• Objectif général : Identifier des co-références à la même entité individuelle dans

deux notices bibliographiques• Reconnaître dans différentes notices bibliographiques des réfèrences au même

document, même auteur, même sujet…

• Principe général : Utiliser la base d’autorités du Sudoc comme standard de référencement de ces entités

– Reconnaître dans une notice des entités référencées dans la base d’autorités du Sudoc pour ajouter dans cette notice l’identifiant Sudoc de cette entité : la liaison

• Objectif du projet : définir un service d’identification d’autorités

Autorités SudocEntités référencées

dans une notice

Autorités Sudoc

Page 5: Au dela des autorites du Sudoc

La liaison aux autorités :les différentes approches

• Liaison manuelle– Soit un « terme » et un « type d’autorité », on recherche dans les

formes retenues ou rejetées les autorités correspondantes– Pour chaque autorité, on propose les informations de la notice

d’autorités et des notices biblios liées– L’annotateur sélectionne l’autorité « la plus pertinente » ou décide

d’en créer une nouvelle

• Liaison automatique par mesures de proximité– Soit quelques attributs (ex. nom, prénom, dates pour les personnes)

sur l’autorité recherchée– Pour chaque autorité, une mesure de « proximité » aux attributs

correspondants de l’autorité est calculée– Le système sélectionne l’autorité « la plus proche » (avec seuil

minimal)

Page 6: Au dela des autorites du Sudoc

Approche « Connaissance »

Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle

• Représenter le SUDOC en RDF(S)• Construire une base d’autorités enrichies• Définir des opérateurs de liaison sémantique aux autorités

Page 7: Au dela des autorites du Sudoc

Définition d’une ontologie formelle pour les connaissances du Sudoc

• Fondée sur le modèle FRBRoo 1.0 (2009)

- Modélisation riche de l’univers bibliographique intégrant les modèles FRBR et CIDOC CRM

• Formalisée en RDFS• Etendue pour :

– Représenter des propriétés spécifiques sous-propriétés de propriétés FRBRoo

– Séparer les entités conceptuelles des données les référençant

• Un titre vs. une chaîne de caractères lue sur la couverture

– Représenter des propriétés associées aux notices (date,

origine, sources…) en plus de celles associées aux entités

Page 8: Au dela des autorites du Sudoc

Transformation des notices Unimarc en annotation RDF : exemple d’autorité Personne

• Fiche Sudoc « brute » support à l’indexation001A $0751062103:02-12-04

001B $0751062103:02-12-04$t11:43:29.000

001D $0751062103:02-12-04

001U $0utf8

001X $00

002@ $0Tp5

003@ $0XXXXXX36

010@ $S##$afre

012C $S##$a0$b1$c0

012E $S##$ab

019@ $S##$aFR

028A $S#1$40y$dChristian$aBernard

037F $S##$aDessinateur de bandes dessinées

047M $S##$aHépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003

• Fiche Sudoc interprétable par un utilisateurNo notice : XXXXXX36 Vedette Nom de personne

Forme retenue : Bernard, Christian Forme savante ou à valeur internationale

Pays : France

Langues : français

Notes : Dessinateur de bandes dessinées

Sources : Hépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003

• Annotation sémantique support aux raisonnements(vision simplifiée RDF)

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavante

Langue : fr

Notes

langue

«Dessinateur… »

« Hépatite… / Dr. Léo Py, Christian Bernard»

Sources

Pays : FRpays

Page 9: Au dela des autorites du Sudoc

Approche « Connaissance »

Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle

• Représenter le SUDOC en RDF• Construire une base d’autorités enrichies

• Explicitant les connaissances présentes dans les notices d’autorité• Les enrichissant par des inférences exploitant les liens aux notices

bibliographiques

5. Définir des opérateurs de liaison sémantique aux autorités

Page 10: Au dela des autorites du Sudoc

Les outils de l’enrichissement

• Règles d’inférencesSi connaissance observée alors ajouter nouvelle connaissance

– Exemple

• Fusion des entités liées à la même autorité– Deux entités de même type repérées par le même

identifiant sont identiques

Manifestation :Personne:

thématique

sujet Matière :responsable

Page 11: Au dela des autorites du Sudoc

Une notice d’autorité

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSava

nt

eLangue : fr

langue

Page 12: Au dela des autorites du Sudoc

Explicitation des connaissances internes à un attribut

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSava

nt

eLangue : fr

langue

Page 13: Au dela des autorites du Sudoc

Explicitation des connaissances internes à un attribut

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavant

e Langue : frlangue

« Bernard»

nom« Christian»

prénom

Page 14: Au dela des autorites du Sudoc

Intégration des connaissances bibliographiques

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavant

e Langue : frlangue

« Bernard»

nom« Christian»

prénom

Notice : 43 Manifestation :aPropos Langue : frlangue

titre

auteu

r

date

Personne:

Notice : 15

identifiéPar

2003

Personne:

Notice : 36

identifiéParillu

strateur

« Hépatite… / Dr. Léo Py, Christian Bernard»

sujet

Matière : Notice : 87identifiéPar

Page 15: Au dela des autorites du Sudoc

Fusion des entités

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavant

e Langue : frlangue

« Bernard»

nom« Christian»

prénom

Notice : 43 Manifestation :aPropos Langue : frlangue

titre

auteu

r

date

Personne:

Notice : 15

identifiéPar

2003

Personne:

Notice : 36

identifiéParillu

strateur

« Hépatite… / Dr. Léo Py, Christian Bernard»

sujet

Matière : Notice : 87identifiéPar

Page 16: Au dela des autorites du Sudoc

Fusion des entités

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavant

e Langue : frlangue

« Bernard»

nom« Christian»

prénom

Notice : 43 Manifestation :aPropos Langue : frlangue

titre

auteur

date

Personne:

Notice : 15

identifiéPar

2003

identifiéParillus

trat

eur

« Hépatite… / Dr. Léo Py, Christian Bernard»

sujet

Matière : Notice : 87identifiéPar

Page 17: Au dela des autorites du Sudoc

Enrichissement par inférences

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavant

e Langue : frlangue

« Bernard»

nom« Christian»

prénom

Notice : 43 Manifestation :aPropos Langue : frlangue

titre

auteur

date

Personne:

Notice : 15

identifiéPar

2003

identifiéParillus

trat

eur

« Hépatite… / Dr. Léo Py, Christian Bernard»

sujet

Matière : Notice : 87identifiéPar

Manifestation Personne

thématique

sujet Matière :responsable

Page 18: Au dela des autorites du Sudoc

Enrichissement par inférences

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavant

e Langue : frlangue

« Bernard»

nom« Christian»

prénom

Notice : 43 Manifestation :aPropos Langue : frlangue

titre

auteur

date

Personne:

Notice : 15

identifiéPar

2003

identifiéParillus

trat

eur

« Hépatite… / Dr. Léo Py, Christian Bernard»

sujet

Matière : Notice : 87identifiéPar

thématique

Manifestation Personne

thématique

sujet Matière :responsable

Page 19: Au dela des autorites du Sudoc

Obtention d’un autorité enrichie

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavant

e Langue : frlangue

« Bernard»

nom« Christian»

prénom

Matière :Manifestation :

illustrateur

thém

atiq

ue

formeRetenue

« Hépatites»

form

eRejeté

e

« Hépatite»

« Foie -- Inflammation»

form

eRej

etée Personne :

co-auteur

« Léo»

nom

« Christian»

prénom

Page 20: Au dela des autorites du Sudoc

Approche « Connaissance »

Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle

• Représenter le SUDOC en RDF• Construire une base de descripteurs sémantiques des

autorités Sudoc• Définir des opérateurs de liaison sémantique aux autorités

1. Identification par raisonnement des attributs à comparer

2. Sélection des autorités par requêtage sur la base des descripteurs

3. Contrôle de la cohérence globale du rapprochement des attributs

Page 21: Au dela des autorites du Sudoc

Outil pour l’identification des attributs à comparer

• Définition d’un schéma de sélection par type d’autorité• Partie obligatoire : les connaissances pour lesquelles une

correspondance forte doit exister avec l’autorité enrichie• La partie obligatoire sélectionne des autorités candidates

• Partie additionnelle : les connaissances qui renforceront ou affaibliront les rapprochements aux autorités candidates

• La partie additionnelle permet d’ordonner les autorités candidates

• Exemple : schéma pour les personnes

Personne :

Langue :

languenom

prénom

Sujet :

Manifestation :rôlethématique forme

date

Liaison 1

Page 22: Au dela des autorites du Sudoc

Identification des attributs à comparer

• Enrichissement préalable de la nouvelle notice

Thèse :

directeur

«Modelisation… »

titre

auteur

Personne:

Matière :

sujet

«Artificial Intelligence»forme

« Petit»

nom

« Jean»

prénom

« Bernard»nom

« Christian»

prénom

thématique

thématique

Personne:

co-auteur

Liaison 1

Page 23: Au dela des autorites du Sudoc

Identification des attributs

Thèse :

directeur

«Modelisation… »

titre

auteu

rPersonne:

Personne:

Matière :

sujet

«Artificial Intelligence»forme

« Petit»

nom

« Jean»

prénom

« Bernard»nom

« Christian»prénom

thématique

thématique

co-auteur

• Appariement du schéma de sélection

Liaison 1

Page 24: Au dela des autorites du Sudoc

• Requête de sélection obtenue

Thèse :

directeur

«Modelisation… »

titre

auteu

rPersonne:

Personne:

Matière :

sujet

«Artificial Intelligence»forme

« Petit»

nom

« Jean»

prénom

« Bernard»nom

« Christian»prénom

thématique

thématique

co-auteur

Identification des attributs

• Appariement du schéma de sélection

Liaison 1

Personne:

« Bernard»nom

« Christian»prénomNotice : ?

aPropos

Page 25: Au dela des autorites du Sudoc

Thèse :

directeur

«Modelisation… »

titre

auteu

rPersonne:

Personne:

Matière :

sujet

«Artificial Intelligence»forme

« Petit»

nom

« Jean»

prénom

« Bernard»nom

« Christian»prénom

thématique

thématique

co-auteur

Identification des attributs

• Appariement du schéma de sélection

• Critère de classement obtenu

Liaison 1

Personne:

directeur

« Artificial Intelligence »

thématiqueMatière: forme

Thèse :

Notice : ? aPropos

Page 26: Au dela des autorites du Sudoc

Recherche des autorités candidates

• Recherche des notices qui satisfont la requête de sélection

Liaison 2

Personne:

« Bernard»nom

« Christian»prénomNotice : ?

aPropos

Page 27: Au dela des autorites du Sudoc

Recherche des autorités candidates

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavante

Langue : frlangue

« Bernard»

nom« Christian»

prénom

Matière :

Manifestation :

illus

trat

eur

thématiqueformeRetenue

« Hépatites»

formeRejetée « Hépatite»

« Foie -- Inflammation»

formeRejetée

Notice : 55 Personne : aPropos

« Bernard, Christian »

formeRetenueSavante

Langue : frlangue

« Bernard»

nom« Christian»

prénom

Matière :

Thèse :au

teur

thématiqueformeRetenue

«Intelliigence artificielle»

formeRejetée « Machines Intelligentes»

Liaison 2

Page 28: Au dela des autorites du Sudoc

Classement des autorités

• La partie additionnelle est utilisée comme critère de classement des autorités sélectionnés– On mesure le coût de la transformation de l’autorité

enrichie pour qu’elle satisfasse la partie additionnelle– L’utilisation de mesures de proximité entre données à

apparier permet d’affiner le classement

Notice : ? aPropos Personne:

directeur

« Artificial Intelligence »

thématiqueMatière: forme

Thèse :

Liaison 2

Page 29: Au dela des autorites du Sudoc

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavante

Langue : frlangue

« Bernard»

nom« Christian»

prénom

Matière :

Manifestation :

illus

trat

eur

thématiqueformeRetenue

« Hépatites»

formeRejetée « Hépatite»

« Foie -- Inflammation»formeRejetée

Notice : 55 Personne : aPropos

« Bernard, Christian »

formeRetenueSavante

Langue : frlangue

« Bernard»

nom« Christian»

prénom

Matière :

Thèse :au

teur

thématiqueformeRetenue

«Intelligence artificielle»

formeRejetée « Machines Intelligentes»

Classement des autoritésLiaison 2

Page 30: Au dela des autorites du Sudoc

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavante

Langue : frlangue

« Bernard»

nom« Christian»

prénom

Matière :

Manifestation :

illus

trat

eur

thématiqueformeRetenue

« Hépatites»

formeRejetée « Hépatite»

« Foie -- Inflammation»formeRejetée

Notice : 55 Personne : aPropos

« Bernard, Christian »

formeRetenueSavante

Langue : frlangue

« Bernard»

nom« Christian»

prénom

Matière :

Thèse :au

teur

thématiqueformeRetenue

«Intelligence artificielle»

formeRejetée « Machines Intelligentes»

Classement des autoritésLiaison 2

Page 31: Au dela des autorites du Sudoc

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavante

Langue : frlangue

« Bernard»

nom« Christian»

prénom

Matière :

Manifestation :

illus

trat

eur

thématiqueformeRetenue

« Hépatites»

formeRejetée « Hépatite»

« Foie -- Inflammation»formeRejetée

directeur

Thèse :

Notice : 55 Personne : aPropos

« Bernard, Christian »

formeRetenueSavante

Langue : frlangue

« Bernard»

nom« Christian»

prénom

Matière :

Thèse :au

teur

thématiqueformeRetenue

«Intelligence artificielle»

formeRejetée « Machines Intelligentes»

Liaison 2

Page 32: Au dela des autorites du Sudoc

Notice : 36 Personne : aPropos

« Bernard, Christian »

formeRetenueSavante

Langue : frlangue

« Bernard»

nom« Christian»

prénom

Matière :

Manifestation :

illus

trat

eur

thématiqueformeRetenue

« Hépatites»

formeRejetée « Hépatite»

« Foie -- Inflammation»formeRejetée

Notice : 55 Personne : aPropos

« Bernard, Christian »

formeRetenueSavante

Langue : frlangue

« Bernard»

nom« Christian»

prénom

Matière :

Thèse :au

teur

thématiqueformeRetenue

«Intelligence artificielle»

formeRejetée « Machines Intelligentes»

directeur

Thèse :

Le second est privilégié

Classement des autoritésLiaison 2

Page 33: Au dela des autorites du Sudoc

Contrôle de la cohérence des liaisons

• Utilisation de contraintes sur les relations entre autorités– Exemple : deux co-auteurs doivent avoir des dates, des langues…

cohérentes

• Sélection de combinaisons cohérentes d’autorités– En fonction des connaissances contenues dans les autorités enrichies

sélectionnées– Privilégiant les autorités les mieux classées

• Exemple :– Si

• «Jean Petit», [a11, a41, a35]• «Christian Bernard», [a55, a36]• (a11,a55) et (a41,a55) et (a41,a36) co-auteurs incohérents

– Renvoyer («Jean Petit»,«Christian Bernard»), [(a11, a36),(a35,a55),(a35,a36)]

Liaison 3

Page 34: Au dela des autorites du Sudoc

Travail en cours

• Poursuite du travail de formalisation et transformation des différentes notices

• Définition des règles d’enrichissement• Définition du schéma pour chaque type

d’autorité• Expérimentations pour affiner les critères de

rapprochement

Page 35: Au dela des autorites du Sudoc

Perspectives

• Définition de correspondances avec d’autres ontologies (Dublin Core, Bibo…) pour faciliter l’intégration de notices externes

• Introduire le service d’identification d’autorité lors du catalogage

• Extension à des procédures de gestion de la qualité des autorités– Suppression des doublons– Identification d’erreurs de liaison