42
Ceci n'est pas une pipe Lou Burnard 1/40

Ceci n'est pas une pipe

Embed Size (px)

Citation preview

Page 1: Ceci n'est pas une pipe

Ceci n'est pas une pipe

Lou Burnard

1/40

Page 2: Ceci n'est pas une pipe

.

......La modelisation : clef des "humanités numériques"

2/40

Page 3: Ceci n'est pas une pipe

3/40

Page 4: Ceci n'est pas une pipe

Quelques oppositions

...1 sciences humaines, sciences dures

...2 disciplines scientifiques, ingénerie

...3 textes, données

...4 lecture rapprochée, lecture distante

4/40

Page 5: Ceci n'est pas une pipe

Sciences humaines vs: sciences dures

La grande querelle "deux cultures" C.P.Snow vs F.R. Leavis(1960)

Un "rematch" d'un débat victorien sur l'importance de laculture à la société

5/40

Page 6: Ceci n'est pas une pipe

Science vs. ingénierie‘Sans les ingénieurs, lascience ne serait quede la philosophie’

6/40

Page 7: Ceci n'est pas une pipe

Textes numériques vs. données numériques

Le traitement informatisé des données concerne les chiffres,les quantités, les tendances statistiques...

Le traitement informatisé des textes concerne les mots,l'écriture, la langue...L'informatique a donc systématiquement opposé les“donnees” aux “textes”

en traitant les textes comme si elles étaient des donnéesen traitant les données comme si elles n'étaient pas des textes

7/40

Page 8: Ceci n'est pas une pipe

(cf Burnard, 1984)

.

......Nous possédons actuellement des technologies (par ex XML) quipermettent de franchir toutes ces frontières

8/40

Page 9: Ceci n'est pas une pipe

Lecture rapprochée vs lecture à distance

La tradition d'explication de texte (Lanson) valorise surtout uneattention focalisée sur les mots, le contexte, les implicationsd'un nombre restreint de document/texte/oeuvres

Elle est actuellement souvent opposée aux méthodesstatistiques visant la contrôle et la compréhension des milliersvoire des millions de documents numérisés : "Distant Reading"(Moretti)

Mais les deux sont complémentaires : la lecture rapprochéeserait enrichie par une compréhension du contexte vu de loin

9/40

Page 10: Ceci n'est pas une pipe

Lecture des eBooks

Les textes numériques se présentent comme des livresimprimés... mais on ne doit pas se laisser séduire par lesmétaphores !Est-ce qu'on numérise les textes juste pour le plaisir de lesdistribuer aux lecteurs ?Qu'est ce qu'on pourrait en faire d'avantage?.

10/40

Page 11: Ceci n'est pas une pipe

Le numérique reste incontournable ...

Même les objets de recherche des SHS sont devenusnumériques

Les méthodes des SHS ne peuvent pas échapper àl'environnement technologique qui nous englobe tou(te)s

Une transition du “web de documents” vers le “web dedonnées” s'effectue

Les questions politiques et culturelles restent, mais leurcontexte évolue dans un monde de plus en plus “ouvert”

Comment sommes-nous arrivés à ce point? voici un peu del'histoire...

11/40

Page 12: Ceci n'est pas une pipe

12/40

Page 13: Ceci n'est pas une pipe

1950-1980

L'ordinateur est une immense machine partagée, gérée par desingénieurs sérieux en blouse blanche

On y lance ses travaux en batch ... ils sont transmis à une filed'attente puis exécutés pour produire des sorties impriméessur papier

Qu'est-ce qu'on peut faire avec?

13/40

Page 14: Ceci n'est pas une pipe

Quelques pionniers1949-56: Initiation des travaux de Roberto Busa SJ sur l'IndexThomisticus, une investigation du lexique d'Aquin sur cartesperforées, édités en 1975 Thomae Aquinatis Opera Omnia cumhypertextibus en CDROM; actuellement disponible àhttp://www.corpusthomisticum.org/1967 : Kucera et Francis produit le Computational Analysis ofPresent-Day American English dérivé d'un corpus d'un millionde mots1968: Maurice Tournier et d'autres à Saint Cloud travail surl'analyse statistique des documents politiques (Lesmots demai68)1970: Trevor Howard-Hill produit des concordances desquartos de Shakespeare pour soutenir une thèse doctorale surla production du First Folio

14/40

Page 15: Ceci n'est pas une pipe

LLC: ce qui compte, c'est de compter

Les objets et les résultats principales sontLes concordances (un objet en lui même)Des statistiques riches et complexes

Il y a une hypothèse plus ou moins explicite que le “style” ou“registre” seraient comme l'auctorialité identifiable de manièrestatistique

Mais les modèles statistiques sousjacentes de lafonctionnement de la langue n'ont guère avancé depuis le19ème siècle

15/40

Page 16: Ceci n'est pas une pipe

Ces méthodes ont évolué et sont toujours vivant et bienvivant en France ...

Analyse factorielle

Fouille de données (text mining)

http://textometrie.ens-lyon.fr

16/40

Page 17: Ceci n'est pas une pipe

... et en train d'être réinventés aux Etats UnisL'importance de ne pas lire

“What can you do with amillion books?” (Greg Crane)Une synthèse de méthodes :

linguistique de corpusstatistiques deco-occurrencetopic Modellingvisualisation

ou une réappropriation destechniques anciens ?

17/40

Page 18: Ceci n'est pas une pipe

18/40

Page 19: Ceci n'est pas une pipe

Années 80 : décennie d'une foi illimitée dans lestechnologies

Les ressources et méthodes numériques bien que perçuescomme étranges et difficiles s'installent dans les SHSFinancement public important pour des activitésd'infrastructure : à la fois national et européen : au RoyaumeUni par ex le Computers in Teaching Initiative et le Arts andHumanities Data ServiceUne nouveauté ou une amélioration du passé?L'arrivée du centre HC universitaire, et forcément des cours

19/40

Page 20: Ceci n'est pas une pipe

Apparition de la quellenkritik

En France, J-P Genet et d'autres proposent que les donnéeshistoriques une fois numerisées pourraient servir à enrichirune analyse

Encore systematisée en Allemagne par Manfred Thaller avec lelogiciel kleio, un sgbd textuel avant la lettre

Thaller (en 1989) lance un défi: si HC serait une disciplinescientifique, où est sa théorie sousjacente ?

20/40

Page 21: Ceci n'est pas une pipe

Théorification de HC

Quels principes peut on identifier pour permettre la mise enrelation des outils employés par le HC ?Unsworth (entre autres) évoque les traditions scientifiques(”scholarly primitives”)

La recherche effectuée selon des traits externesL'analyse selon des traits internesLes associations selon des perceptions partagées

Mais c'est surtout la modelisation des donnees textuelles quicaractérise le DH

21/40

Page 22: Ceci n'est pas une pipe

Ceci n'est pas un arbre

22/40

Page 23: Ceci n'est pas une pipe

23/40

Page 24: Ceci n'est pas une pipe

Les inconvénients des ressources numériques (circa 1989)Elles sont difficiles à trouver : ni disponibles en BU, nimentionnées dans les revuesElles ne sont pas cataloguées de manière cohérent, ou pas dutoutElles ne sont pas fiablesElles émergent d'un contexte inconnu, pas (toujours) trèsscientifiqueElles disparaissent, se transforment, ou deviennent inutisablessans préavisElles ne fonctionnent pas : ou il faut bien choisir son ordinateurpour les faire fonctionnerEt surtout...

.

......Elles utilisent vraiment trop de formats d'encodage mutuellementincompréhensibles !!

24/40

Page 25: Ceci n'est pas une pipe

L'effet Babel

La numérisation fige une interprétation quelconque -- une lecture --d'un documents

Bien sûr il existe plusieurs lectures possibles pour la plupart desdocuments...

... et (malheureseument) plusieurs manières d'exprimer ces lectures!

25/40

Page 26: Ceci n'est pas une pipe

Encodage ou babel?

Bonne nouvelle : il existe des logiciels capables de traduireentre 500 formats divers

Mauvaise nouvelle : on en a besoin

26/40

Page 27: Ceci n'est pas une pipe

Encodage ou babel?

Bonne nouvelle : il existe des logiciels capables de traduireentre 500 formats divers

Mauvaise nouvelle : on en a besoin

26/40

Page 28: Ceci n'est pas une pipe

Encodage ou babel?

Bonne nouvelle : il existe des logiciels capables de traduireentre 500 formats divers

Mauvaise nouvelle : on en a besoin

26/40

Page 29: Ceci n'est pas une pipe

La science repose sur une continuité des connaissances

Conserver les “bytes” d'un encodage ne suffit pas : il faut aussiune continuité de compréhension

L'encodage devrait être auto-descriptif

L'archive devient un vecteur pour transmettre nosinterprétations

.

......D'où l' importance de la TEI (Text Encoding Initiative)http://www.tei-c.org

27/40

Page 30: Ceci n'est pas une pipe

TEI: le produit le plus significatif de HC?

D'origine une réponse aux problèmes posés par l'incohérencedes formats et le manque des standards numériques

La TEI est devenue un seul modèle encyclopédique des“particularités significatives” des ressources textuelles

Et une infrastructure capable de répondre aux besoins etpriorités évolutifs de tous les tribus de la communautéscientifique

28/40

Page 31: Ceci n'est pas une pipe

Par exemple :

29/40

Page 32: Ceci n'est pas une pipe

Par exemple :

30/40

Page 33: Ceci n'est pas une pipe

1995 - ?

Pendant que nous théorisions...Le web est arrivé !Le tournant numérique transforme les archives et lesbibliothèques !La numérisation de masse s'effectue !Les traitements numériques se déplacent sur des grilles deservices, et/ou des systèmes domestiques !Les résaux sociaux emergent sur Internet !

Convergence et travaux collectifs : méthodes empruntées dessciences dures

Est-ce qu'on pourrait remplacer l'édition classique en utilisantles méthodes collectives (cloud/crowd computing) ?On s'aperçoit du besoin des infrastructures numériques

31/40

Page 34: Ceci n'est pas une pipe

Les humanités numériques sont partout

Comme M Jourdain, on fait des digital humanities sans lesavoir?

Les DH ne sont-elles qu'une gamme de technologies dans levent ?

32/40

Page 35: Ceci n'est pas une pipe

Le défi actuel : profiter de l'énormité des donnéesdisponibles

Quels outils pour traiter un million de livres ?http://books.google.com/ngramshttp://www.etalab.gouv.fr/http://rechercheisidore.fr/

Mais la transition de l'étude de l'oeuvre à l'étude du contextereste problématique ...

33/40

Page 36: Ceci n'est pas une pipe

34/40

Page 37: Ceci n'est pas une pipe

Quel est ce bruit dans la bibliothèque numérique ?

Traiter un texte c'est plusque le lire, plus quel'annoter, plus que l'associeravec d'autres textes.

Il s'agit d'exposer sastructuration afin depermettre un mondedistribué, où “les livres dansla bibliothèque savent separler entre eux”

35/40

Page 38: Ceci n'est pas une pipe

Comment effectuer une telle démarche?

It's not rocket science (pas besoin d'avoir fait saint cyr) !...1 Un balisage riche et sémantique ( par exemple TEI-XML), dérivé

d'une modelisation explicite des sources...2 Une politique d'accès ouverte...3 Une infrastructure permettant l'intégration et l'archivage

pérenne des données

36/40

Page 39: Ceci n'est pas une pipe

Repenser l'édition numérique

On est dans un monde où les documents prolifèrent, mais lestextes risquent de disparaitre

Nous avons besoin de conserver nos interprétations, noslectures, pour construire les éditions numériques

Sans perdre les vertus traditionelles d'un empirisme sceptique

Sans perdre de vue l'importance du synthèse

.

......Est-ce une édition ou une archive?

37/40

Page 40: Ceci n'est pas une pipe

Composants de l'édition numérique nouvelle

Images de pages (ou d'autres surfaces)

Transcriptions, éventuellement annotées

Edition/s synthètique

Traduction modernes, sommaires

Annotations paratextuelles, glossaires, prefaces,bibliographie...

Descriptions des sources; métadonnées

Pointeurs sur des “Factoids”

.

......et tout cela ouvert, prêt à être ré-approprié

38/40

Page 41: Ceci n'est pas une pipe

Un rôle majeur pour les SHSNous comprenons les objetstextuels

De quelle manière sepresente ce discours?Quelles sont les histoiresqu'il raconte?

Nous connaissonsl'hermeneutique

quelle est la portée de cediscours?Qu'est-ce qu'il veut dire –mais ne dit pas ?

Voici notre contribution auweb sémantique.

39/40

Page 42: Ceci n'est pas une pipe

Merci de votre attention!

40/40