Fouille de textes et cartographie thématique des corpus numériques

ACFAS 2015 -‐ Une plateforme de recherche et d’expérimenta=on pour l’édi=on ouverte 25 mai 2015

© Dominic Forest, École de bibliothéconomie et des sciences de l'informa=on, Université de Montréal 1

Fouille de textes et cartographie thématique des corpus numériques

Dominic Forest, Ph.D. et Marcela Baiocchi

École de bibliothéconomie et des sciences de l’information

Université de Montréal

[email protected]

www.dominicforest.me | www.ebsi.umontreal.ca

www.twitter.com/dforest

ACFAS 2015 - Une plateforme de recherche et d’expérimentation pour l’édition ouverte

25 mai 2015

Contexte

•  Augmentation constante de la quantité d’informations disponibles en format numérique

–  Documents et métadonnées •  Isidore : 3 482 385 ressources

•  HathiTrust : 13 374 801 volumes (4 681 180 350 pages)

•  Erudit : +/- 300 000 ressources

–  Données contextuelles (réseaux sociaux, plates-formes de publ. alternatives) –  Données de recherche

•  Il y a dans le millieu académique – et plus spécifiquement dans les SHS – plus de données que nul part ailleurs



Contexte

•  Des big data au thick data –  « Big data is really just a big collection of what people in the humanities

would call thin data. Thin data is the sort of data you get when you look at the traces of our actions and behaviors. We travel this much every day; we search for that on the Internet; we sleep this many hours; we have so many connections; we listen to this type of music, and so forth. It’s the data gathered by the cookies in your browser, the FitBit on your wrist, or the GPS in your phone. These properties of human behavior are undoubtedly important, but they are not the whole story. To really understand people, we must also understand the aspects of our experience — what anthropologists refer to as thick data. Thick data captures not just facts but the context of facts. »

Krenchel, M. et Madsbjerg, C.

« Your big data is worthless if you don’t bring it into the real world ».

Wired, 11 avril 2014.

Contexte

•  Les chercheurs en humanités numériques tentent de tirer profit des informations disponibles en format numérique.

•  La quantité d’informations disponibles en format numérique soulève cependant d’importants enjeux auxquels aucune solution définitive n’a été proposée.

•  Question de recherche : comment tirer profit de la masse d’information textuelle disponible pour en assister la description, l’organisation, la recherche et l’analyse?



Objectif

•  Développer des stratégies de fouille de textes (big data, text analytics) et de visualisation pour assister des tâches d'extraction et d’organisation d’informations à partir de gros corpus documentaires en sciences humaines

•  Développement méthodologique plutôt que logiciel –  Évaluation de plateformes génériques existantes

•  Tâches : –  Analyse conceptuelle

–  Analyse thématique

–  Attribution d’auteur

–  Datation

–  Fouille d’opinions

Démarche méthodologique

•  Démarche méthodologique fondée sur des processus de fouille de textes –  « La fouille de textes est la découverte (à l’aide d’outils informatiques) de

nouvelles informations en extrayant différentes données provenant de plusieurs documents textuels. Un élément fondamental de ce processus réside dans les relations identifiées entre les informations extraites afin d’identifier de nouveaux faits [de nouvelles connaissances] ou de nouvelles hypothèses à explorer. » (Hearst, 2003, notre traduction)

•  Algorithmes d'apprentissage-machine –  Algorithmes supervisés (prédiction) vs non supervisés (description)

•  Méthodologie algorithmique et systématique (formelle et répétable)

•  Approche centrée sur l’utilisateur –  Interfaces riches, flexibles et intuitives



Forest (2009), inspirée de Fayyad et al. (1996)


Méthodologie de la fouille de textes

Forest (2014), inspirée de Fayyad et al. (1996)


Méthodologie de la fouille de textes



Visualisation

•  Objectifs : –  Représenter de manière synthétique les informations identifiées par les

processus de fouille de textes

–  Assister l’analyse des données

–  Permettre de parcourir le contenu thématique du corpus

•  Principe : Visual information-seeking mantra (Shneiderman 1996) –  « Overview first, zoom and filter, then details-on-demand. »

•  Point de départ : mots-clés thématiques

(erudit.org)

Résultats

Cinémas, revue d’études cinématographiques



Évaluation des résultats

•  Classification –  Évaluation difficile sans données de référence

•  Comparaison d’algorithmes –  Stabilité

–  Sensibilité à l’ordre de présentation des données

–  Évaluation en fonction de l’application

•  Évaluation qualitative –  Consultation subjective

–  Pureté ou consistance des regroupements

–  Comparaison avec résultats manuels


•  Mesure Silhouettes (Rousseeuw 1987)

–  a(i) représente la distance moyenne entre une chanson et les autres chansons du même regroupement et b(i) représente la distance moyenne qui la sépare des chansons appartenant au regroupement le plus proche

–  Cette mesure permet de calculer la cohésion ainsi que la dispersion des regroupements, mais elle ne tient pas compte des chevauchements possibles




•  Mesure de Davies-Bouldin(Davies et Bouldin 1979)

–  I(ci ) est la moyenne des distances entre les documents appartenant regroupement ci et le centre du regroupement. I(ci,cj) représente la distance entre les centres des regroupement ci et cj.

–  Selon cette mesure, la partition optimale est celle qui minimise la valeur calculée pour chaque regroupement

Conclusion

•  Développement d’une méthodologie et d’un prototype reposant sur des processus de fouille de textes et de visualisation de l’information afin d’assister l'extraction de données et de structures d’informations pouvant être utilisées pour assister la description, l’organisation et l’analyse les documents

•  Approche fondée sur les thèmes des documents

•  Quelques défis : •  Description difficile en raison de la richesse de la langue

•  Corpus multilingue

•  Visualisation difficile des gros réseaux de données liées

•  La quantité de données disponible pose cependant des enjeux – techniques, mais aussi épistémologiques - importants

Data & Analytics

Fouille de textes et cartographie thématique des corpus numériques