L'unité documentaire sur le web

De la bibliothèque numérique au web de données

L’unité documentaire sur internetAteliers Méthodologiques DLWeb - Saison 2

3 décembre 2010Martin Lafréchoux

!

Je suis en doctorat à Paris Ouest Nanterre, au laboratoire MoDyCo. Ma thèse est en sciences du langage, je plutôt un TAListe. Elle concerne le document sur internet, en particulier le document textuel.

Je vais parler de documents, plus précisément, je vais vous présenter les difficultés conceptuelles et pratiques auxquelles je me heurte actuellement, à l’université et dans l’entreprise. Le point commun de ces difficultés est qu’il n’existe pas de modélisation permettant de conceptualiser et de manipuler tous les aspects d’une page web.

Je commence tout juste mes recherches, je vais donc plutôt évoquer des problèmes que des solutions. Et pour que ma présentation soit claire malgré tout, je partirai d’exemples concrets. Et comme je parlerai essentiellement de texte, je vous montrerai des images.

URL

Pages

DonnéesDans un premier temps, j’évaluerai l’adéquation entre la notion traditionnelle de document et le web. Ensuite je détaillerai le fonctionnement de plusieurs modes d’enregistrement du web - en particulier les conséquences théoriques de choix pratiques.Enfin, je vous présenterai les problématiques plus nouvelles, liées à ce qu’on appelle généralement le web de données.

URL

Qu’est-ce qu’un document ? Sur un plan théorique, ce n’est pas une question simple. Pour l’instant, il me suffit d’utiliser une définition fonctionnelle - je définirai le document par ses propriétés - qu’indexe-t-on quand on indexe un document web ?Ces propriétés sont celles qu’on utilise dans les systèmes d’information pour classer les documents.

• Titre

• Auteur

• Contenu

• Date

• ISBN

Un document standard : il a un titre, un auteur, une date de publication, un contenu délimité, et un identifiant unique - l’ISBN.

Pour définir le document web de manière fonctionnelle, c’est généralement de cet identifiant unique qu’on part - l’URL.A une URL correspond une page, et cette page devient de fait notre unité documentaire.

L’auteur !

Par exemple, un article de presse.Le web n’est plus une bibliothèque numérique, mais normalement il reste un certain nombre de contenus auxquels le modèle du document s’applique encore bien.

L’auteur !

On a un auteur

L’auteur !

Le titre, pas de problème.

On a bien une date. Bon, c’est la date de dernière modification, et non la date de première publication.

Le contenu principal, pas de problème.

• Titre

• Auteur

• Contenu

• Date

• URL

Tout va bien. C’est globalement ce qui a émergé petit à petit dans les années 90 et début 2000.

L’auteur !

Sauf qu’il y a un grand nombre d’autres contenus sur cette page dont nos propriétés ne tiennent pas compte.Au premier chef desquelles les ‘réactions’ ou ‘commentaires’.

C’est embêtant : les commentaires sont sur la même page. Ils ont la même URL.Leurs auteurs sont-ils des co-auteurs de l’article ? Non. L’article est clairement séparé des commentaires, ne serait-ce que typographiquement.Leur auteur est différent, donc c’est un autre document, non ? Ils ont pourtant la même URL.Et puis, font-ils sens, privés du document d’origine ? Non, pas vraiment, puisqu’ils s’y réfèrent implicitement en permanence.

• Dernière modification

• Contenu principal

• Auteur principal

• Titre principal

• URL

En général, on résout ce problème en identifiant un contenu principal et en nettoyant le reste.On obtient quelque chose qui correspond relativement bien au modèle du document traditionnel.

Je trouve que ça pose beaucoup de problèmes, notamment pour les commentaires.

Les commentaires représentent un volume de texte supérieur.Et, comme il s’agit de commentaires modérés, ce ne sont pas des dizaines ou des centaines de réaction d’une ligne ou deux. Il y a une certaine qualité de rédaction. Par exemple, ce commentaire des chiffres concrets, avec leur source, qui est un rapport officiel. L’article de départ citait un article du Parisien et le programme du parti socialiste.Où est le contenu principal ?

On voit que même avec un contenu web censément proche d’un document traditionnel, on rencontre quelques problèmes de modélisation.

L’auteur principal ?

On commence à avoir quelques soupçons. Allons plus loin.

Le contenu principal ?

A minima : un tweet

Le premier mouvement c’est d’aller vers une unité indivisible.

Un tweet a une date, un auteur, des bornes, une URL unique. Par contre, il est extrêmement court, et la majorité de son contenu sémantique - de sa valeur - est dans le lien, c’est-à-dire ailleurs.

ParenthèseSi on va par là, un like Facebook est sûrement enregistré avec le nom de celui qui a cliqué, le moment précis où le clic est intervenu, et la chose qui a été ‘appréciée’ par l’utilisateur.Il y a clairement une intention. En dépit de l’effacement progressif de la différence entre les outils de création / édition et les outils de consultation de documents, je ne pense pas qu’un like Facebook soit un document. Par contre, pour un tweet, la question se pose.

Reprenons l’exemple de twitter. Voici un tweet standard, essentiellement tourné vers l’extérieur.

Détaillons rapidement son contenu : ‘lagayascienza’ est le pseudonyme de la personne qui a écrit le tweet.

Ensuite, le texte du tweet.

Ensuite, un lien vers du contenu

Puis un hashtag, #Lego.Ce qui porte le sens, ici, c’est le lien. Le reste est mystérieux. Orgueil et Préjugés et Zombies est une réécriture parodique de Jane Austen, et on peut donc supposer que le contenu du lien sera dans la même veine.

Le hashtag #Lego nous apprend qu’il sera question de Legos. Il permet de donner un indice sur le contenu du tweet, et de le contextualiser en le faisant apparaître dans les recherches portant sur les Legos

On peut donc tagger le contenu extrêmement facilement.

Le lien.

Si on suit le lien du tweet d’origine, on passe d’abord par un service de raccourcissement d’URL (en l’occurence is.gd), qui redirige vers la page suivante :

Il s’agit d’un post sur un weblog personnel. La photo représente une reconstitution parodique du célèbre tableau Nighthawks d’Edward Hopper : les clients du bar du tableau d’origine subissent ici l’attaque de zombies semblables à ceux du film La Nuit des morts-vivants (Night of the Living- Dead) de George Romero. La scène est rendue au moyen de figurines et de briques Lego.

On trouve en dessous deux liens.

Celui de droite, précédé du mot ‘via’, indique comment le blogueur a découvert l’existence de la photo. Il pointe donc vers un autre site, qui commente la photo.

Celui de gauche, intitulé ‘Nighthawks of the Living Dead’, sert de légende à la photo : il donne son titre et pointe vers sa page d’origine.

Sous sa photo, l’auteur explique qu’il n’a fait que mener à son terme l’idée proposée par un autre membre de flickr, mais non terminée (WIP = work in progress). Si on suit le lien, on aboutit à la page suivante :

Ce dessin a été posté en 2008, et n’a jamais été terminé par son auteur d’origine.

Conclusion

•Qui est l’auteur ?

•Où commence le document ?

•Où s’arrête-t-il ?

•Comment l’enregistrer ?

Dans l’espace physique, le document est linéaire, attribuable et borné.

Dans ce contexte, il me paraît malaisé de répondre à des questions censément simples, telles que : - qu’est-ce qui constitue le contenu ? - qu’est-ce qui est original ?- qui est l’auteur ? - où le document commence-t-il et où s’arrête-t-il ?

Pourtant, cette incertitude ne gêne en rien les divers ‘auteurs’, ni encore moins les spectateurs / consommateurs.Il n’y a pas de problème pratique. Il y a un problème conceptuel : le web fonctionne très bien. Les problèmes deviennent manifestes lorsque nous cherchons à l’enregistrer.

Pages

Par rapport à l’intervention précédente, je serai très terre à terre.

Persistance ?

Dans la doxa, le web est censé s’auto-réguler, et donc s’auto-préserver. Il incomberait à chaque site de mettre en place des moyens de persistance de ses pages.

Le terme de ‘persistance’ est utilisé par les archives britanniques du web pour désigner leur démarche consistant à préserver les pages des sites gouvernementaux, même inutilisées.

Mais : c’est peu fiable, et totalement arbitraire. Un site peut disparaître du jour au lendemain, simplement parce que plus personne ne veut payer pour l’héberger.Ironie de la situation : ce que vous voyez à l’écran est la page actuelle du RTP-Doc

Auparavant, les gens enregistraient les pages sur leur propre ordinateur, pour tout un tas de raisons. Aujourd’hui, ce n’est plus le cas.

Archivage individuel

• Préserver ce qui pourrait disparaître

• Un archivage de ressources, et non de documents

• Enregistrement d’une cristallisation à l’instant t

A vieilli : c’est ce qu’on faisait dans les années 90. Aujourd’hui, on fait avec des favoris, voire avec des outils de bookmarking (type delicio.us). Montre bien la nature du net : ce qu’on enregistre va changer ou disparaître. On garde la ressource ou un snapshot du document. Dans tous les cas, il faudra redocumentariser.

Par exemple, le 19 novembre dernier, Jean-François Copé a signé une tribune dans Slate sur la question de l’illettrisme. Cette tribune a été publiée avec une faute à ‘illettrisme’ dans le titre. La faute a été corrigée près de deux heures après la publication, ce qui a laissé le temps à beaucoup de gens, moi compris, de faire une capture d’écran.

Un exemple de démarche individuelle collectivisée : The Internet ArchaeologyNé en réaction à la fin de geocities en octobre 2009, qui a effectivement entraîné la disparition de nombreux sites ‘antiques’Sont confrontés à des problématiques d’archivage (We ask that users provide at minimum the approximate date and source of the image.)Il y a quelque chose de la société savante.

On peut débattre de la valeur esthétique des choses qui sont préservées, évidemment.

Dans tous les cas, ce type d’archivage préserve les ressources, mais pas l’expérience utilisateur.

Screencast

Pour préserver l’expérience utilisateur, on en vient à faire du screencast.On a vu la semaine dernière les avantages et les inconvénients : - pas besoin d’émuler une expérience utilisateur avec un crawler, puisque c’est effectivement un utilisateur qui enregistre son parcours de navigation- mais : on garde la profondeur mais on perd l’interactivité.

Le web comme corpus

A l’autre bout du spectre, on trouve l’idée d’utiliser le web comme un corpus.L’idée intéresse énormément les linguistes, vu le coût que représente la constitution d’un corpus classique.Les démarches peuvent être très diverses : récupérer des n-grammes, constituer des corpus thématiques pour l’entraînement d’algos d’analyse syntaxique, etc.Il existe même des corpus constitués et tenus à jour automatiquement, à partir de flux RSS.Mais : textuel uniquement. Nettoyage très brutal. Aplatissement total et irrémédiable du contenu de la page.Comment faire pour préserver la profondeur ?

Faut-il conserver toutes les données ?Wikipedia, qui conserve les données d’édition de toutes ses pages, toutes les versions successives, etc. En septembre dernier, à l’occasion de la conférence dConstruct, James Bridle a décidé d’imprimer les 12.000 modifications effectuées sur la page Wikipedia « Iraq War », entre décembre 2004 et novembre 2009. Le résultat est plus ou moins de la taille d’une encyclopédie classique.Enfin ! Une archive qui fonctionne, complète !Imprimer ces données, leur donner une existence physique, permet de retrouver le sens des proportions et du ridicule. Si jamais on devait archiver sur papier, on ferait un tri. Pourquoi ne pas faire ce tri pour une archive numérique ?

Facebook, conscient de l’ambiguité de sa position, et désireux de donner à ses utilisateurs un os à ronger, redonne aux gens la place de l’archiviste en les incitant à télécharger l’ensemble de leur activité à des fins d’archivage. L’annonce est venue début octobre dernier, au même moment que Facebook Places. Symboliquement, ils rendent aux personnes le contrôle sur leurs données.

Les gens se trouvent avec un export de BDD qui n’a strictement rien à voir avec leur expérience de Facebook.

Les données, une fois sorties de Facebook, n’ont pratiquement aucune valeur pour l’utilisateur.

Facebook n’est pas la somme des données que les gens y déposent.Facebook est un service.

Conclusion

• Le web n’est accessible qu’au travers de la médiation de la page

• Enregistrer la page entraîne une perte d’information

Chaque méthode enregistre l’un ou l’autre aspect du web, en fonction des objectifs poursuivis, mais aucune ne parvient à rendre compte de ce qu’est le web dans son intégralité.L’objet digital (le web) est converti en analogique (page) pour que nous puissions y accéder, et c’est l’expérience produite par ces pages qu’on enregistre alors - essayer d’enregistrer le web revient à filmer un écran.

Par exemple, pour la recherche, on se trouve face à deux possibilités, dont aucune n’est satisfaisante :

- soit on utilise Google et le web lui-même, et on obtient des résultats impossibles à reproduire, puisqu’obtenus sur un corpus non délimité et figé - ce qui est quand même ennuyeux, sur un plan scientifique et sur un plan commercial.

- soit on délimite un corpus d’étude, et on se trouve avec un objet d’étude qui a perdu la majeure partie des propriétés du web.

Et en tout cas il me semble qu’on ne dispose pas encore d’une méthode permettant de rendre compte des aspects les plus originaux et les plus caractéristiques du web.

Données

On voudrait accéder au web ‘en soi’, et c’est la promesse actuelle.

Le web sémantique ?

Au cours de la décennie écoulée, la promesse du web sémantique a souvent été faite : dans l’avenir, les ontologies nous permettraient d’organiser tout le contenu dispersé sur le web, de transformer l’information en connaissance.

Le web syntaxique

(pour l’instant au moins)

Problème : le web sémantique est très coûteux à mettre en oeuvre, très contraignant, et il reste donc pour l’instant réservé à des applications très précises et délimitées. Ca n’empêche pas le web de s’organiser.Google et la SEO ont forcé les choses à s’organiser.

Des liens dans le langage

Sur twitter, les contraintes techniques obligent à utiliser des URL comme des symboles linguistiques.Le lien est la matérialisation de l’intention. Avec les liens et les tags, twitter a épuré

Cliquez <a>ici</a> pour en savoir plus

Plus d’informations sur <a>Laurent Gbagbo</a>

Du langage dans les liens

Google a forcé les gens à expliciter le contenu de leurs liens, faisant de tout webmaster capable un annotateur - et transformant ainsi indirectement le texte plat du web en texte complexe, relié, structuré.

Deep-linking

Un problème sans doute plus anecdotique pour l’instant, mais qui est appelé à devenir plus prégnant - les liens profonds. Youtube, maintenant le NYT et les blogs sous WordPress.

Le web de donnéesLe web of data, ce sont des données, et des services destinés à explorer ces données.

Exemple par excellence : twitterCi-dessus, par exemple, We Read We Tweet, un mash-up des API du NY Times, de twitter,

et de Google Maps. Les arcs relient la localisation d’un tweet avec les lieux évoqués dans les articles du NYT vers lesquels les tweets renvoient. Mais aussi Amazon, yelp, etc.

Des services permettent d’accéder à ces ressources, créant des documents à la volée.

Sur le web of data, les internautes accèdent aux données grâce à des services et des applications. Par exemple l’application de visualisation créée par les Français d’OWNI pour la dernière fuite de Wikileaks.

Un contenu, plusieurs sites

Qu’est-ce qui rend un document unique s’il est reproduit à l’infini ? Qu’est-ce qui différencie le plagiat de la citation ? L’attribution ? Mais s’il n’y a pas d’auteur ?

La répétition - citation / scraping. Comment distinguer ce qui est pertinent (citation, illustration, blog post, etc.) de ce qui ne l’est pas ? Pour un humain, c’est faisable.

Pour une machine, il faudrait réussir à lier automatiquement contenu, auteur, et adresse web (= ces trois données sont-elles cohérentes ?)

Public, collectif, privé

• Privé = ce qui est sur notre ordinateur

• Collectif = intranet, outils collaboratifs

• Public = ce qui est accessible à tous

En 2006, l’équipe de recherche RTP-Doc définissait trois zones peuplées de documents numériques.

Où en est-on, en 2010 ?

Privé ?

Mais qu’est-ce qui est encore sur notre ordinateur ? Google Docs, Dropbox, synchro desktop / laptop / iphone…Pour ma part, je panique si un fichier n’est pas encore synchronisé, et qu’il se trouve à un seul endroit. Si je peux encore lui donner une existence physique, je suis paniqué. Je sais qu’on peut me le voler, que je peux le perdre, qu’il peut être détruit.

Semi-public ?

A première vue, Facebook semble plutôt être un changement quantitatif qu’un changement qualitatif. On est impressionné par l’échelle du changement. Mais si on peut être condamné en justice pour des propos tenus sur Facebook, alors on n'est plus du tout dans le privé.

Facebook est dans une position particulière et très délicate : ses centaines de millions d’utilisateurs lui ont confié volontairement des données très personnelles, qui demeuraient traditionnellement dans la sphère privée (photographies) ou restaient cantonnées au collectif. Ce sont précisément les données auxquelles les publicitaires n’ont pas accès, et qu’ils essaient d’établir par des méthodes d’échantillonnage, d’études, etc.

La position est délicate, parce que les utilisateurs s’inquiètent périodiquement de ce qu’ils ont laissés trop de données en possession de Facebook. Facebook ne peut pas donner aux utilisateurs ce qu’ils veulent, c’est-à-dire un espace réellement privé-collectif, plutôt que collectif-public, parce que c’est comme ça que Facebook gagne son argent.

Public ?

Spécificités nationales

Autre facteur d’hétérogénéité - le web présente des spécificités nationales qui vont très au-delà de l’anecdotique. Le succès d’Orkut au Brésil. L’incapacité d’eBay à s’implanter en Asie - Yahoo Auctions au Japon, Tao Bao en Chine.

En particulier, tous les pans du web asiatique (en particulier chinois et japonais) sont extrêmement isolés.

Les Chinois doivent composer avec ‘the great firewall of China’. Leur web se développe très différemment du nôtre. Il y a des différences culturelles très fortes. Ils ont par exemple de gigantesques forums sur lesquels ils échangent des normes ISO piratées en échange de travail scolaire. Ils essaient absolument d’empêcher les non-Chinois d’y participer - ils veulent préserver ce qu’ils ont de l’attention des occidentaux - attention qui finirait, à force de tractations diplomatiques, par déchaîner sur eux les foudres des autorités chinoises.

Gala-Kei（ガラケー）

La barrière linguistique se double d’une barrière sociale : les japonais ont des sites très pauvres techniquement afin de les rendre accessibles sur n’importe quel téléphone portable.

Ces frontières techniques tendent à régresser (iPhone & iPad changent la donne au Japon, le web chinois s’ouvre timidement), mais tout cela reste sans effet sur l’isolement culturel.

Des robots et des hommes

En attendant le web sémantique, il faut tout de même trouver des solutions pour organiser la masse de contenus produits en permanence sur le web. Ce travail revient à des algorithmes et aux internautes.

Sur Google News, le rédac chef est l’algorithme. Il y a parfois des bizarreries (météo france), mais globalement ça marche pas mal.

Sur reddit, les visiteurs sont, individuellement et consciemment, leur propre rédac chef et, indirectement, ceux de tous les autres visiteurs du site.

Le point intéressant est que peu d’entre eux prennent le temps de participer - ceux qui participent ont donc un poids très important.

Le Huffington Post se targue d’être le premier organe de presse publié uniquement sur le web (pure player) à atteindre l’équilibre financier. Comment ont-ils fait ?

Une partie de la réponse, au moins. Sur le Huffington Post, les visiteurs sont, collectivement et sans le savoir, les rédac chef. Leurs clics et le temps qu’ils passent sur chaque page déterminent le positionnement du contenu de la une, y compris les top stories.

Les ajustements ont lieu en temps réel.

Ils envisagent d’adapter le contenu de la une en fonction de la situation géographique. du visiteur, aussi.

Content Curators

L’autre moyen pour remettre du sens, le content curator.Le terme a fait florès dans la presse technologique ces derniers mois. Une bonne définition : «Un “Content Curator” est quelqu’un qui continuellement trouve, regroupe, organise et partage le contenu en ligne le plus pertinent sur un sujet spécifique.»Par exemple, je m’intéresse au cinéma des pays nordiques. Malheureusement, je ne parle aucune langue scandinave, et les informations sont difficiles à trouver en français ou en anglais.

Quand Satoshi Kon est mort, de manière très subite, les détails ont émergé au compte-goutte : il est mort, il est mort du cancer, il est mort d’un cancer du pancréas, voilà où on en était après 24h. Et puis est arrivé une longue lettre qu’il avait rédigé dans les jours précédant sa mort. C’est sa femme qui l’a postée, en japonais. Il a ensuite fallu qu’un blogueuse la traduise en anglais, sans la moindre autorisation, pour qu’elle se mette à circuler sur le net anglophone, avant d’atteindre la France par le biais de twitter.

Pour que cette lettre parvienne jusqu’à moi, il aura fallu deux jours. C’est court, et c’est aussi très long.

Conclusion

• Le

• Le web est fragmentaire

• La circulation de l’information est sociale

• Le web est une barrière de corail

Ca me paraît extrêmement symptomatique de la situation. : techniquement, tout est connecté. Le net est uniforme. En pratique, le net est fragmentaire. Les processus de circulation des informations sont (a) locaux et (b) sociaux, c’est-à-dire, dans l’ensemble, étonnamment archaïques.

Reformulons : Des processus sociaux restent nécessaires pour accéder à l’information. Le web n’est pas sémantique : il est pragmatique.

C’est ce qui nous échappe pour l’instant lorsque nous essayons d’en faire des documents. Le « nettoyage » opéré par les outils de crawl (par ex. Ceux présentés ici par Exalead l’an dernier) transforme une page web en document manipulable, car correspondant au modèle classique du document. Il me semble que c’est une erreur si l’objectif est de comprendre le web. Il me semble qu’en nettoyant, en se focalisant sur ce que nous reconnaissons comme « le contenu », on évacue ce qui fait que le web est le web.

Enregistré, le document web est comme une branche de corail arrachée à la barrière - il meurt.

Technology

L'unité documentaire sur le web