13
Moteurs de recherche et compétition Sébastien Heymann Université de Technologie de Compiègne Boite Postale 60319 60603 Compiègne cedex, France [email protected] Avec le soutien de Mathieu Jacomy Maison des Sciences de l'Homme 54 bd Raspail Paris [email protected] Introduction Les moteurs de recherche, capables d'associer à la demande une liste de sites à des mots- clés, sont des dispositifs majeurs du web actuel. La tâche qu'ils remplissent mieux qu'aucun autre outil existant est de proposer des ressources relatives à des mots-clés, sans qu'il soit nécessaire de naviguer de lien en lien dans l'ensemble des pages qui les environnent : ils cherchent pour nous l'information, et proposent leurs résultats. Cette proposition, sous forme de liste, a des conséquences connues sur le nombre de visites des sites y figurant : plus un site apparaît souvent dans la « tête de liste », plus il est susceptible d'attirer des visiteurs. Pour attirer de nouveaux visiteurs, un webmestre peut donc mettre en œuvre des stratégies destinées à faire "monter" son site dans les listes de résultats. Mécaniquement, "monter" dans les moteurs signifie que d'autres « descendent », et on peut citer le cas d'acteurs du web l'ayant considéré comme un enjeu de compétition (en particulier des marques, cf. le cas de BMW : http://www.zdnet.fr/actualites/internet/0,39020774,39309221,00.htm). Cependant, nous pensons que le web n'est pas un espace de compétition, ou pas systématiquement, et en tout cas pas seulement. Nous pensons que les listes de résultats des moteurs sont en partie responsables de l'idée selon laquelle le web est un espace compétitif. L’enjeu de la lutte pour les premières places des résultats des moteurs est l’accès à une ressource limitée au sens biologique et économique du terme, symbolisé par le « Triangle d’Or ». Ayant démontré que l'accès aux ressources Web que proposent les moteurs est virtuel alors que les pages de résultats sont bien actuelles en ce qu'elles participent du Web, nous montrerons en quoi l’effet de pertinence des listes de résultats suscite le recouvrement et le débordement partiels de l'actuel du Web par le virtuel actualisé des moteurs. La perte occasionnée par cette simplification de l'espace de navigation concerne directement l'interprétation des liens hypertextes, entamant la capacité de l'internaute à percevoir la spatialité du Web, à identifier les controverses et à mobiliser son esprit critique. Mots-clés : virtualité, pertinence, compétition, ressource, espace

Moteurs de recherche et compétition

  • Upload
    seb-seb

  • View
    215

  • Download
    1

Embed Size (px)

DESCRIPTION

Mémoire réalisé suite au séminaire de sciences cognitives 2007 de l'UTC intitulé "Interaction et Cognition"

Citation preview

Page 1: Moteurs de recherche et compétition

Moteurs de recherche et compétition

Sébastien Heymann

Université de Technologie de Compiègne

Boite Postale 60319

60603 Compiègne cedex, France

[email protected]

Avec le soutien de

Mathieu Jacomy

Maison des Sciences de l'Homme

54 bd Raspail Paris

[email protected]

Introduction

Les moteurs de recherche, capables d'associer à la demande une liste de sites à des mots-clés, sont des dispositifs majeurs du web actuel. La tâche qu'ils remplissent mieux qu'aucun autre outil existant est de proposer des ressources relatives à des mots-clés, sans qu'il soit nécessaire de naviguer de lien en lien dans l'ensemble des pages qui les environnent : ils cherchent pour nous l'information, et proposent leurs résultats. Cette proposition, sous forme de liste, a des conséquences connues sur le nombre de visites des sites y figurant : plus un site apparaît souvent dans la « tête de liste », plus il est susceptible d'attirer des visiteurs. Pour attirer de nouveaux visiteurs, un webmestre peut donc mettre en œuvre des stratégies destinées à faire "monter" son site dans les listes de résultats. Mécaniquement, "monter" dans les moteurs signifie que d'autres « descendent », et on peut citer le cas d'acteurs du web l'ayant considéré comme un enjeu de compétition (en particulier des marques, cf. le cas de BMW : http://www.zdnet.fr/actualites/internet/0,39020774,39309221,00.htm). Cependant, nous pensons que le web n'est pas un espace de compétition, ou pas systématiquement, et en tout cas pas seulement. Nous pensons que les listes de résultats des moteurs sont en partie responsables de l'idée selon laquelle le web est un espace compétitif. L’enjeu de la lutte pour les premières places des résultats des moteurs est l’accès à une ressource limitée au sens biologique et économique du terme, symbolisé par le « Triangle d’Or ».

Ayant démontré que l'accès aux ressources Web que proposent les moteurs est virtuel alors que les pages de résultats sont bien actuelles en ce qu'elles participent du Web, nous montrerons en quoi l’effet de pertinence des listes de résultats suscite le recouvrement et le débordement partiels de l'actuel du Web par le virtuel actualisé des moteurs. La perte occasionnée par cette simplification de l'espace de navigation concerne directement l'interprétation des liens hypertextes, entamant la capacité de l'internaute à percevoir la spatialité du Web, à identifier les controverses et à mobiliser son esprit critique.

Mots-clés : virtualité, pertinence, compétition, ressource, espace

Page 2: Moteurs de recherche et compétition

2 Sébastien Heymann – Séminaire TSH 2007 Interaction et Cognition

Une description du Web

Le web est une construction qui met en présence des objets hypertextuels liés entre eux. Ces

éléments regroupés graphiquement constituent des pages qui, suivant une même unité

sémiotique, forment une entité que l'on appelle site Internet (il existe d'autres définitions du

site web et cette notion est source de nombreux débats). La distribution de ces sites et objets

liés entre eux forme un réseau complexe dont la topologie (distribution des liens) et la

distribution du sens suivent des règles qui nous sont, dans une large part, inconnues. La

diversité des formats sémiotiques des pages et la liberté de création des liens contribuent à

rendre le système hétérogène, augmentant d'autant la difficulté de mettre à jour son

organisation globale [Explorer et Appréhender le web, Jacomy, Pfaënder 2006]. Les travaux de

A. Barbarasi [Linked 2002] ont cependant permis de mettre en lumière des structures

identifiables à un niveau local. Les agrégats de sites ont la particularité d’être un ensemble

dense en termes de connexions internes mais faiblement reliés au reste du web. On parle

alors de « communauté d’acteurs ». Notons que le passage du site à l’acteur n’est pas trivial

car la cardinalité de cette association est variable. A un acteur on peut généralement associer

un ou plusieurs sites, mais un site peut être le fruit de plusieurs acteurs. La répartition des liens

à l’intérieur de l’agrégat suit une loi de puissance [The Laws of the Web Huberman 2001] : une

minorité d’éléments reçoit la majorité des liens. Pour parcourir le Web, les moteurs de

recherche tels que les célèbres Google et Yahoo se servent d’outils appelés « crawler », ou

surfeurs aléatoires, qui visitent et indexent les pages en navigant de lien en lien. Un algorithme

applique ensuite à ces pages un indice d’autorité basé sur la quantité de liens entrants, et

parfois sur leur qualité [Authoritative Sources in a Hyperlinked Environment Kleinberg 1998].

Cependant ils ne permettent pas de rendre compte de la structure explorée.

Figure 1 : Organisation du web [Explorer et Appréhender le web, Jacomy et Pfaënder]

Compétition biologique

Afin de développer la thèse selon laquelle les

moteurs de recherche suscitent la compétition,

entendons-nous sur ce terme pour commencer.

Nous choisissons de le comprendre selon le

sens donné en biologie, qui se définit comme la

« rivalité entre espèces vivantes pour l'accès

Compétition

« Rivalité entre espèces vivantes pour

l'accès aux ressources du milieu »

Page 3: Moteurs de recherche et compétition

3 Sébastien Heymann – Séminaire TSH 2007 Interaction et Cognition

aux ressources du milieu » [Encyclopédie Wikipedia]. Nous soutenons que la position de la

page ou d’un quelconque élément dans la liste des résultats d’une requête sur un moteur de

recherche est une ressource dont l’accès est source de rivalité. Définie sur le Web par la

RFC2396 [http://tools.ietf.org/html/rfc2396 1.1 > Overview of URI page 2] comme étant toute

chose possédant une identité, une ressource est ici entendue dans le sens de moyen, celle-ci

étant dans notre cas mobilisée pour satisfaire un objectif de fréquentation d’une page, mais

dont l’enjeu dépasse ce cadre. Nous proposons de montrer en quoi elle est une ressource

virtuelle construite, et de quelle manière la problématique de la pertinence met en lumière la

responsabilité du moteur de recherche envers la perte du contexte de la page, préjudiciable à

une interprétation critique.

Position dans l’espace des résultats

Les moteurs de recherche, par la manière dont ils proposent des ressources relatives à des

mots-clés sans qu’il soit nécessaire de naviguer de lien en lien dans l’ensemble des pages qui

les environnent, cherchent pour nous l’information, et nous proposent leurs résultats. Ils

offrent ainsi lors de leur présentation une vue sur des ressources du web, c’est à dire une

relation « virtuelle » construite à partir de relations sources. Les systèmes de gestion de bases

de données possèdent pour la plupart un mécanisme similaire qui réassocie différemment les

données entre elles le temps de la requête (les vues et les tables temporaires en sont des

mécanismes particuliers), sans affecter les associations originelles (les tables) de la base de

données. Dans notre cas, les relations sources correspondent aux liens structurant le Web, la

relation « virtuelle » construite étant une liste hiérarchisée dont les éléments valident les

critères de la requête et dont l’ordre est calculé par un algorithme. Nous justifions notre

position sur cette virtualité dans la partie suivante. Cette liste est présentée sur une seule

colonne occupant une ou plusieurs pages pour la plupart des moteurs de recherche. Notons

que le moteur KartOO offre une alternative à la liste, en affichant des cartes sous forme de

graphes dont les nœuds représentent

les sites, et les arcs des liens

hypertextes. Mettons-le de côté, car

l’analyse de virtualité et de

pertinence lui feront perdre sa

spécificité d’apparence.

Les moteurs de recherche influent

sur le nombre de visites des

ressources web proposées

relativement à des mots-clés. Celui-ci

est sujet à variation selon la position

dans la liste des résultats d’une

requête, soit la place du lien dans

l’espace de la page de résultats.

D’après une étude des sociétés

Enquiro, Did-it et Eyetools, l'œil de

Figure 2: Triangle d'Or de Google

Page 4: Moteurs de recherche et compétition

4 Sébastien Heymann – Séminaire TSH 2007 Interaction et Cognition

l'internaute explore en priorité un « Triangle d'Or », situé en haut à gauche du navigateur, puis

la visibilité chute de 100% pour les trois premiers sites à seulement 20% pour le dixième. Le

premier lien commercial sur Google obtient 50% de visibilité [Enquiro Eye Tracking Report].

La place est ainsi une ressource ayant la propriété d’augmenter le potentiel de l’objet

référencé à être accédé. Lorsque viennent se mêler des intérêts économiques, stratégiques ou

encore politiques, son enjeu prend de l’ampleur. En voici trois cas d’illustration. C’est tout

d’abord et de manière générale un élément augmentant la portée de la communication sur le

Web : plus le message est susceptible d’être lu par le plus grand nombre, plus il a de chance

d’atteindre sa cible. Un site militant placé dans le « Triangle d’Or » possède un meilleur

potentiel de diffusion de ses informations qu’un site opposant hors de la « tête de liste ». De

même, l’audience des sites de commerce est liée à leur visibilité, qui se restreint dans notre

étude à leur place dans la liste. Elle correspond à l’habitude des gens de passer devant le

magasin et de voir les produits, ce qui est similaire à la notion comptable d’achalandage, prise

en compte dans l’évaluation des fonds de commerce. Une place en début de résultats assure

un meilleur achalandage qu’une place en fin de liste, tout comme un commerce en centre-ville

aura un achalandage plus important qu’un commerce en bordure de ville. Enfin pour les sites

dont le modèle économique s’appuie essentiellement sur la publicité, qu’elle soit au clic ou au

visionnage, c’est un moyen de capter des visiteurs potentiellement source de revenus.

Virtualité

Nous reprenons la définition de « virtuel » telle qu’elle est employée par Gilles Deleuze dans

Différences et Répétitions et par Pierre Lévy dans Qu’est-ce que le virtuel ?, c'est-à-dire « ce qui

existe en puissance et non en acte » tel l’arbre virtuellement présent dans la graine, et qui

tend à s’actualiser. Il est important de préciser que le virtuel ne s’oppose pas au réel mais à

l’actuel, tandis que le réel s’oppose au possible, qui est déjà défini et dont il ne manque que

l’existence. Sur ces bases, une « réalisation » est une occurrence d’un possible prédéfini, son

contraire étant la « déréalisation », passage d’une réalité à un ensemble de possibles. Quant à

l’ « actualisation », c’est l’invention d’une solution exigée par une problématique. La

« virtualisation » est dès lors le passage d’une solution donnée à un (autre) problème.

Dans un environnement numérique, la notion de lieu se brouille. Le Web autorise l’accès à

une page à partir d’un nombre indéfini d’adresses grâce aux mécanismes de redirections

automatiques, et l’adresse d’une page dynamique ne fait que déterminer sa structure et non

son contenu. Une manière de concevoir la localisation d’une page est de partir des liens

hypertextes en tant que chemins entre les pages, pour y appliquer des notions relatives à la

territorialité, et ainsi poser l’activité de navigation comme étant l’exploration d’un espace [La

Navigation Ghitalla, Lenay 2003]. Ces liens sont des réalisations au sens de P. Lévy, c'est-à-dire

des occurrences d’un possible prédéfini [Qu'est-ce que le virtuel ? Lévy 1998]. Elles sont

reconstruites à chaque nouvel appel de la page, dont la stabilité dépend de son code source

qui détermine sa réalisation pour un ensemble de paramètres donnés ou calculés. En ce sens

la page présente une potentialité sans cesse renouvelée et non une virtualité. C’est un réel

latent dont il ne manque que la réalisation mais qui est totalement prédéterminé, au contraire

Page 5: Moteurs de recherche et compétition

5 Sébastien Heymann – Séminaire TSH 2007 Interaction et Cognition

du virtuel présentant dans un potentiel une part d’indéterminisme. Cette réalisation subit

cependant les altérations des navigateurs à l’affichage, qui peuvent déformer voire bloquer

certains éléments. Il est ainsi faux de qualifier le Web de virtuel en ce sens.

Un moteur de recherche mettant en œuvre des mécanismes d’exploration du Web et ainsi

de parcours des réalisations qui le constitue, présente-t-il pour autant des résultats actuels aux

requêtes de ses utilisateurs ? Ces résultats sont le fruit d’un calcul sur des données, ils sont

donc des réalisations d’un ensemble de possibilités calculables à partir de celles-ci. Etant des

solutions proposées à un problème de recherche d’information à l’intérieur des données

collectées, ils sont actuels si l’on considère uniquement le système formé par les données et

les algorithmes de traitement. Cependant, le point critique réside dans ces données. Pour bien

comprendre, il faut avoir en tête le mécanisme d’indexation employé par les moteurs : un

robot parcours le Web de lien en lien en enregistrant dans des bases de données le texte

complet de la page (on parle alors d’indexation « full text »), les ressources multimédias

(images, fichiers audio et vidéo …) ainsi que des métadonnées comme la langue. Il va aussi en

calculer certaines, dont les scores d’autorité. Le fait de conserver certaines données et pas

d’autres, ainsi que la mise en place d’algorithmes de traitement, sont déjà le produit d’une

conceptualisation de ce qu’est une page web et des informations utiles à collecter pour

répondre à une problématique de recherche d’information dans le cyberespace. C’est à cette

étape qu’intervient une virtualisation en tant que passage d’une solution donnée par la

navigation hypertextuelle vers la construction de données utiles à une résolution plus efficace

du problème.

A ce stade de la réflexion, nous pouvons encore concevoir que les résultats des moteurs de

recherche soient aussi actuels qu’est le Web, bien que la virtualisation entraine une

irréversibilité. Nous allons cependant mettre en lumière que l’évolution du Web précède

temporellement l’évolution des résultats des moteurs, les rendant de fait uniquement virtuels.

D’une part, les moteurs de recherche n’indexent qu’une partie du Web : Google a déclaré en

2005 indexer environ 8 milliards de pages et Yahoo plus de 20 milliards. Or des études

estiment qu’il existe 11,5 milliards de pages indexables directement [Gulli 2005] et jusqu’à 550

milliards en prenant en compte les pages générées dynamiquement, ou « deep web » [The

Deep Web : Surfacing Hidden Value Bergman 2001]. Les résultats ne peuvent donc couvrir

qu’une faible partie du Web. D’autre part, une page peut exister et être visitée par un

internaute avant son référencement par le moteur, et une page référencée qui a été

supprimée est un lien mort dans la liste des résultats des moteurs, soit une déficience de mise

à jour de ses connaissances. Enfin, ces données n’étant pas tenues à jour en continue, il peut

survenir un décalage entre elles et les pages d’origine. Les moteurs de recherche travaillent

donc toujours sur une modélisation non contemporaine du Web. Cette distance temporelle

varie selon les pages : les sites d’actualités sont visités très fréquemment par les robots, tandis

que certains sites ne sont revisités qu’au bout de plusieurs mois. Cette inadéquation entre ce

qui est sur le Web et ce qui est recensé sur le moteur est indéterminée et indéterminable,

c’est pourquoi ces résultats sont indéterminables à partir du Web : on ne peut les produire

qu’en acceptant des biais et des pertes. Nous pouvons dès lors affirmer que les résultats d’un

moteur de recherche sont virtuels, et que chaque position d’un élément est une ressource

« artificiellement » réalisée.

Page 6: Moteurs de recherche et compétition

6 Sébastien Heymann – Séminaire TSH 2007 Interaction et Cognition

Alors soit, un moteur propose un Web virtualisé comme approximation du Web actuel. Un

moteur n’est ainsi virtuel que dans la mesure où l’approximation qu’il réalise diffère de la

réalité, et nous concédons que l’on peut le qualifier d’ « actuel » si l'approximation est

suffisamment bonne. Leur efficacité tend d’ailleurs toujours plus à s’affiner. Or le problème

réside dans la restitution des données virtuelles : elles le sont comme si elles étaient actuelles,

en écrasant autoritairement l'écart entre le modèle (déterminant les données recueillies lors

de l’étape d’indexation) et la réalité, ce que nous reverrons en détail dans la partie suivante.

Cet écart est ce qui fait à la fois la force et la faiblesse du moteur, et se tient dans la différence

entre les données virtuelles et le Web actuel : les données virtuelles ne peuvent pas être

parcourues. C’est une force dans le sens où les moteurs proposent un accès à des ressources

qui n'ont pas besoin d'être parcourues, même si cet accès est calculé d'après un parcours

préalablement réalisé par des robots, et qui débouche sur un parcours dans le Web actuel et

non plus dans les données virtuelles. Mais c’est aussi une faiblesse car tout ce qui participe de

la pertinence des résultats dans le parcours des pages ne peut être pris en compte. Les robots

qui parcourent les pages pour calculer leur pertinence les parcourent virtuellement au sens de

l'activité interprétative d'un internaute. Autrement dit, l’interprétation et l’évaluation de la

pertinence qui en résulte par l’individu faisant appel au contexte d’apparition sur la page, soit

son parcours antérieur lors d’une activité exploratoire, implique que ce parcours est différent

de celui d’un robot qui ne prend pas en compte les pertinences des pages visitées

antérieurement. Son parcours étant à propos de la virtualisation des pages qui en résultera par

la prise en compte unique de ce qui lui est utile à cette fin, il peut être dit « virtuel » au regard

d’un internaute. Ainsi même si les moteurs indexaient parfaitement et instantanément le Web,

même si les robots parcouraient les pages en reproduisant fidèlement l'activité des

internautes, les résultats proposés resteraient des données virtuelles tout simplement parce

que l'internaute n'aurait pas accès au contexte interprétatif qui est présent lors de la

navigation active, lors de sa navigation. Les moteurs sont ainsi limités par le fait que les

parcours qui servent à leurs calculs ne sont pas réalisés, empêchant l'interprétation active du

Web. En effet, cliquer sur un lien (action) et arriver sur une page souvent

inconnue (perception) permet l'interprétation. Autrement dit, la « pertinence » proposée par

les moteurs de recherche est limitée par le fait qu'il n'y a pas de perception sans action, si l’on

Réalisation

virtuelle

Figure 3 : Réalisation d’une ressource d’une page Web par un moteur de recherche

Réalisation

actuelle

Virtualisation

Résultat -

ressource Pages Données

Moteur de recherche

Web

Page 7: Moteurs de recherche et compétition

7 Sébastien Heymann – Séminaire TSH 2007 Interaction et Cognition

se place dans la perspective d’une théorie sensori-motrice de la perception. Rappelons que

d’après celle-ci, il ne suffit pas d’ouvrir les yeux pour percevoir ce qui se trouve en face de

nous, et qu’un aller-retour est nécessaire entre le sujet et le monde qui l’entoure. La lecture

d’une page web est ainsi une activité dont une partie du jeu consiste à repérer les éléments

présentant un potentiel d’action (les « affordances » de Gibson), des liens hypertextes aux

objets multimédia interactifs, qui sont autant d’indices de pertinence. Cette lecture illustre

parfaitement Merleau-Ponty, qui écrit que « la vision, c’est la palpation par le regard ». La

pertinence des moteurs ne s'évalue donc pas par la différence entre leurs données indexées et

les données réellement présentes sur le Web, mais s'évalue en identifiant ce qui remplace

l'activité de navigation hors des moteurs. Les pages de résultat des moteurs sont

naturellement actuelles, dans la mesure où elles font partie du Web actuel. Les moteurs

« actualisent » leur virtualité en remplaçant les parcours sur le Web actuel par d'autres

parcours spécifiquement construits, sans quoi les résultats ne pourraient être interprétables.

Concrètement, partir d'une page sur « la pêche » et cliquer sur des liens en lisant les pages, ce

n'est pas comme taper « la pêche » dans Google et regarder chaque page de résultats en

partant de la première. Nous allons donc étudier quelle pertinence produisent les moteurs, et

la comparer à la pertinence des pages qu'ils proposent telles que celles-ci peuvent être

parcourues hors des moteurs.

Liste et pertinence

Il convient de bien distinguer la question de la pertinence des résultats, de la question de la

pertinence du format généralement utilisé pour présenter ces résultats, la liste. Intéressons-

nous tout d’abord à la première problématique. Pour donner une image des moteurs de

recherche, ils sont comme des satellites donnant un accès immédiat aux pages les plus visibles

issus d'une requête, avec une pertinence relative.

En effet, les moteurs de recherche n’indexant qu’une partie du Web, les résultats sont non

exhaustifs. De plus, les pages intégrées dans les résultats sont choisies grâce à une analyse

sémantique du texte de la page, selon qu’elle possède ou non les mots-clés écrits dans la

requête par l’utilisateur, ce qui est radicalement efficace lorsque l’objet de la recherche peut

être associé directement à un ensemble de mots, mais qui rend de fait plus laborieux une

recherche dont les termes ne sont pas définissables avec suffisamment de précision. Lorsque

les résultats d’une requête ne permettent pas de trouver l’information recherchée, l’utilisateur

va essayer de modifier sa requête, soit en changeant des termes, soit en en ajoutant ou en en

enlevant. Essayons-nous à analyser ces faits au travers de la pragmatique de Sperber et

Wilson, la Théorie de la pertinence : « Être pertinent, c'est amener l'auditeur à enrichir ou à

modifier ses connaissances et ses conceptions » [Relevance: Communication and Cognition

1986]. Communiquer reviendrait ainsi à modifier le contexte d’énonciation. Cependant à

supposer qu’affiner une requête soit un acte de communication de l’utilisateur au moteur de

recherche, et que le contexte de la requête soit le fruit des résultats donnés antérieurement,

ce contexte n’est pas conservé par la plupart des moteurs, rendant la pertinence des résultats

impossible à quantifier. Celui d’Exalead fait figure d’exception en proposant explicitement la

modification d’un contexte. Ne permettant pas une maximisation de la pertinence des

Page 8: Moteurs de recherche et compétition

8

résultats, la qualité d’un moteur de recherche n’est alors

pas évaluable. D’autre part, un acte de communication

faisant implicitement présomption de sa propre

pertinence, et la non prise en compte du

pas explicité, l’absence de résultats escompt

croire à l’utilisateur que son information ne peut être

trouvée sur le Web. C’est une conséquence possible du

mécanisme présenté par Sperber et Wilson

l'attention d'autrui, tout communicateur donne à entendre

que son message est pertinent. La tâche du destinataire

est alors de construire une interprétation du message

propre à confirmer cette présomption de pertinence.

Le temps d'un paragraph

« pertinence » au sens des moteurs de

regard des données sur lesquelles ils fondent leurs

résultats. Ceux-ci sont organisés la plupart du temps en

une liste plus ou moins longue. Cette liste est toujours

affichée en partant du déb

implique qu'il n'y a pas de page plus pertinente que le

premier résultat. Le fait que la liste soit ordonnée (fait connu) ou simplement le fait qu'elle ait

un début implique que plus les résultats sont loin du premier, moins ils

la liste est longue (souvent bien plus longue que ce qu

lointains sont peu pertinents. Quand la liste est courte (assez pour qu'on la consulte

entièrement), il n'y a pas de pages pertinentes au d

utilisateurs ne sont pas dupes des moteurs. Ils ne leur font pas entièrement confiance et ce qui

est pertinent pour eux est parfois ce qui ne l'est pas pour le moteur. On observe ainsi des

internautes qui vont directement voir après les 50 premiers résultats pour être satisfaits

[L'Outre lecture, 2003]. Il subsiste pourtant l'effet d

précédemment, et les trois premiers résultats paraissent les plus pertinents au sens de

l'internaute moyen. L'autre effet de pertinence qui nous intéresse naît des deux propriétés

principales de la liste de résultats. La première propriété est qu'elle contient des résultats

pertinents. La deuxième propriété est qu'elle peut être parcourue méthodiquem

de la liste produit un type de navigation particulier : la consultation méthodique d'un certain

nombre de pages proposées, souvent en partant du premier résultat.

[L'Outre Lecture] peut s'interpréter ainsi : lorsqu'il

lorsqu'un lien de résultat a été

page satisfaisante en revenant aux résultats du moteur qu'en parcourant le Web. Le rôle du

bouton « retour à la page

Dans ce cas, la pertinence proposée par les moteurs se substitue à la pertinence du Web

actuel, et non pas en raison de la qualité des ressources proposées, mais à cause du contexte

donné par la liste aux pages proposées.

correspond à une économie cognitive pour l'internaute. La notoriété de Google, par exemple,

lui accorde une crédibilité suffisante pour faire jouer un effet de pertinence,

de résultats « donne à entendre que son message est

Sébastien Heymann – Séminaire TSH 2007 Interaction et Cognition

ts, la qualité d’un moteur de recherche n’est alors

pas évaluable. D’autre part, un acte de communication

faisant implicitement présomption de sa propre

, et la non prise en compte du contexte n’étant

, l’absence de résultats escomptés peut laisser

croire à l’utilisateur que son information ne peut être

trouvée sur le Web. C’est une conséquence possible du

mécanisme présenté par Sperber et Wilson : « Demandant

l'attention d'autrui, tout communicateur donne à entendre

st pertinent. La tâche du destinataire

est alors de construire une interprétation du message

propre à confirmer cette présomption de pertinence. »

Le temps d'un paragraphe, nous allons utiliser le mot

au sens des moteurs de recherche, soit en

regard des données sur lesquelles ils fondent leurs

sont organisés la plupart du temps en

une liste plus ou moins longue. Cette liste est toujours

affichée en partant du début. L'existence de ce début

implique qu'il n'y a pas de page plus pertinente que le

premier résultat. Le fait que la liste soit ordonnée (fait connu) ou simplement le fait qu'elle ait

un début implique que plus les résultats sont loin du premier, moins ils sont pertinents.

la liste est longue (souvent bien plus longue que ce que l'on peut consulter), les résultats

lointains sont peu pertinents. Quand la liste est courte (assez pour qu'on la consulte

entièrement), il n'y a pas de pages pertinentes au delà des résultats proposés.

utilisateurs ne sont pas dupes des moteurs. Ils ne leur font pas entièrement confiance et ce qui

est pertinent pour eux est parfois ce qui ne l'est pas pour le moteur. On observe ainsi des

ectement voir après les 50 premiers résultats pour être satisfaits

. Il subsiste pourtant l'effet du « Triangle d'Or »

, et les trois premiers résultats paraissent les plus pertinents au sens de

L'autre effet de pertinence qui nous intéresse naît des deux propriétés

principales de la liste de résultats. La première propriété est qu'elle contient des résultats

pertinents. La deuxième propriété est qu'elle peut être parcourue méthodiquem

de la liste produit un type de navigation particulier : la consultation méthodique d'un certain

nombre de pages proposées, souvent en partant du premier résultat. Cette activité observée

peut s'interpréter ainsi : lorsqu'il est sur une page proposée

lorsqu'un lien de résultat a été cliqué, l'internaute estime qu'il a plus de chances d'obtenir une

page satisfaisante en revenant aux résultats du moteur qu'en parcourant le Web. Le rôle du

retour à la page précédente » présent dans tous les navigateurs est alors central.

Dans ce cas, la pertinence proposée par les moteurs se substitue à la pertinence du Web

actuel, et non pas en raison de la qualité des ressources proposées, mais à cause du contexte

ar la liste aux pages proposées. On peut supposer que cette stratégie de navigation

correspond à une économie cognitive pour l'internaute. La notoriété de Google, par exemple,

lui accorde une crédibilité suffisante pour faire jouer un effet de pertinence,

donne à entendre que son message est pertinent » [Théorie de la pertinence]

Figure 4 : contextualisation d'une

requête sur Exalead

Interaction et Cognition

premier résultat. Le fait que la liste soit ordonnée (fait connu) ou simplement le fait qu'elle ait

sont pertinents. Quand

'on peut consulter), les résultats

lointains sont peu pertinents. Quand la liste est courte (assez pour qu'on la consulte

elà des résultats proposés. Cependant, les

utilisateurs ne sont pas dupes des moteurs. Ils ne leur font pas entièrement confiance et ce qui

est pertinent pour eux est parfois ce qui ne l'est pas pour le moteur. On observe ainsi des

ectement voir après les 50 premiers résultats pour être satisfaits

que nous avons vu

, et les trois premiers résultats paraissent les plus pertinents au sens de

L'autre effet de pertinence qui nous intéresse naît des deux propriétés

principales de la liste de résultats. La première propriété est qu'elle contient des résultats

pertinents. La deuxième propriété est qu'elle peut être parcourue méthodiquement. Cet effet

de la liste produit un type de navigation particulier : la consultation méthodique d'un certain

Cette activité observée

est sur une page proposée, c'est-à-dire

l'internaute estime qu'il a plus de chances d'obtenir une

page satisfaisante en revenant aux résultats du moteur qu'en parcourant le Web. Le rôle du

présent dans tous les navigateurs est alors central.

Dans ce cas, la pertinence proposée par les moteurs se substitue à la pertinence du Web

actuel, et non pas en raison de la qualité des ressources proposées, mais à cause du contexte

cette stratégie de navigation

correspond à une économie cognitive pour l'internaute. La notoriété de Google, par exemple,

lui accorde une crédibilité suffisante pour faire jouer un effet de pertinence, au sens où la liste

[Théorie de la pertinence].

contextualisation d'une

requête sur Exalead.fr

Page 9: Moteurs de recherche et compétition

9 Sébastien Heymann – Séminaire TSH 2007 Interaction et Cognition

Même si la liste de résultats n'est pas interprétée au pied de la lettre, cet effet de pertinence

est suffisant pour transformer l'activité de navigation, jusqu'en dehors des pages de résultats.

Comme on l'a vu, le bouton « page précédente » permet à l'internaute de parcourir le web « à

cheval » sur la page de résultats, la liste se substituant aux liens présents sur le Web actuel

« hors moteurs », justement parce que la liste de résultats fait partie du Web actuel. Si cette

activité devenait unanime sur le Web, le lien hypertexte ne serait plus significatif que dans son

rôle de support de la navigation des robots - mais ce n'est pas le cas. Toujours est-il que les

moteurs ont la capacité de substituer une navigation « simplifiée » à la navigation

« exploratoire » de page en page. La navigation suscitée par les moteurs « déspatialise » le

Web en le rendant linéaire. De plus, l'espace linéaire qui supporte cette navigation est virtuel

et non actuel, au sens où il existe un Web actuel dans lequel les liens entre les pages sont

signifiants justement parce qu'ils ne sont pas automatiques, parce qu'ils sont le fruit d'une

activité réelle dans le monde physique : quelqu'un a délibérément référencé telle page et pas

une autre. Ce Web virtuel et « déspatialisé » entame la capacité de l'internaute à interpréter le

lien hypertexte, et partant son esprit critique. Il existe d'ailleurs sur le Web des domaines

entièrement bâtis par une seule entité morale et destinés à donner l'apparence d'une

structure vivante et riche. C'est le cas par exemple de l'église de scientologie. Mais si cette

structure pyramidale, destinée à propulser le site officiel de la scientologie dans les premiers

résultats est interprétable pour un internaute qui décèlera sa nature artificielle, elle ne l'est

pas pour un robot. Cette élimination de l’écart entre les données virtuelles et le Web actuel

dans la liste de résultats masque cet aspect du Web et restitue le site officiel devant Wikipedia,

et loin devant les sites opposants en version anglophone (mais pas en francophone). La perte

de la signification des liens rend le Web virtuel des moteurs plus manipulable que le Web

actuel, pour qui en a les moyens et l'utilité. Les sites des marques occupent ainsi les têtes de

listes au détriment des sites non marchands. Il est par exemple frappant de constater que sur

la requête « Cosmétiques » dans Google les marques occupent la quasi-totalité des 20

premières pages, tandis que la page correspondante dans Wikipedia (premier résultat) ne

référence aucune de ces marques et que les marques ne se référencent pas entre elles. D'où

viennent dès lors les liens hypertextes supposés justifier la pertinence attribuée par le moteur?

Rivalité autour d’une ressource limitée : une compétition économique

La compétition, et plus largement la rivalité, est une notion liée de différentes manières aux

moteurs de recherche. Elle se manifeste dans cet espace virtuel par la volonté de se

positionner au plus haut dans les résultats, mais aussi dans des outils comparatifs, voire des

actes d’hostilité déclarée. Les actes de coopération s’inscrivent dans un contexte global de

compétition dans lequel « l’union fait la force » pour accéder à une position dans la liste la plus

proche du début, c'est-à-dire à un territoire restreint dont les limitations empêchent le

développement de controverses, essentielles à l’esprit critique. C’est là le nœud du problème,

car c’est ce qui rend la compétition stérile et néfaste, au sens où elle ne repose pas sur des

échanges constructifs, mais sur une pratique coercitive de la compétition visant à occuper une

place, idéalement dans le « Triangle d’Or », en éliminant l’autre. Ce processus accentue la

tension autour de cette ressource dont la valeur augmente au fur et à mesure de la violence de

la lutte qui s’exerce pour l’atteindre, la faisant passer d’une ressource de type biologique vers

Page 10: Moteurs de recherche et compétition

10 Sébastien Heymann – Séminaire TSH 2007 Interaction et Cognition

le type économique, d’où la possibilité sur certains moteurs d’acheter des mots-clés pour

figurer en bonne place dans les résultats. Cette compétition virtuellement élaborée diffère de

la compétition sur le Web actuel, dans lequel l’espace n’est pas une ressource économique,

celui-ci étant sans limite. Des concurrents peuvent ainsi exister les uns à côté des autres, avec

une forme compétitive comme les blogosphères politiques [http://www.blogopole.fr]. Il n’est

pas possible d’éliminer un acteur ou de l’extraire de son espace, sauf cas exceptionnels de non

renouvellement de noms de domaine par exemple. Dans le Web actuel, la compétition peut

ainsi offrir une place à un épanouissement des modes de coopération. A noter qu’il existe

cependant une compétition coercitive sur les noms de domaine (premier arrivé, premier servi)

à cause du terme enregistré pour accéder à la page, qui fait sens pour l’internaute et qui

donne une présomption de pertinence, et dont la rareté est renforcée par le nombre restreint

d’extensions de domaine (.com, .fr, .net etc.). Le nom de domaine « utc.fr » porte ainsi en lui la

présomption pour le lecteur de rendre accessible un contenu relatif à l’ « UTC », quelque soit

la signification que l’on porte à ce sigle d’ailleurs.

Voici quelques facettes de réalisation de la rivalité par les moteurs de recherche, présentées

à travers différents cas concrets :

La concurrence (un contre tous) : L’objectif est de voir le lien de son site apparaître devant

celui des autres. En d’autres termes, il s’agit de faire reconnaître son site comme susceptible

de proposer plus et/ou de meilleures informations que les autres sites répondant aux critères

de la recherche. Nous avons vu précédemment que la place du site dans les résultats influence

le nombre de visites et qu’elle représentait dès lors un enjeu. Des techniques d’optimisation

de référencement sont alors mises en œuvre, pouvant parfois violer les règles d’utilisation des

moteurs, ce qui est assimilable à une tricherie, tel que le cas BMW en février 2006. L’achat de

mots-clés est aussi une méthode pour assurer sa couverture sur le moteur de recherche, bien

qu’elle soit moins efficace qu’un positionnement parmi les trois premiers de la liste principale.

Le duel (un contre un) : « Google Fight » [http://www.

googlefight.com] est un outil ludique d’exploitation des résultats

d’une requête sur Google basé sur l’idée de compétition. Le

principe est de taper deux mots contraires l'un de l'autre (msn

contre google, david contre goliath, euro contre dollar...) et le

vainqueur est celui qui génère le plus de résultats sur Google. Cet

outil gère plusieurs millions de combats par mois. Pour le blog

Marketing-Alternatif.com [http://www.marketing-alternatif.com/

2005/02/26/the-google-fight/], il permet de tester sa popularité et

celle des concurrents sur Google. Il existe même des concours de

référencement dont l’objectif est de voir son site en tête d’une

requête sur un mot clé particulier qui peut avoir été inventé pour

l’occasion [http://www.webrankinfo.com/forums/viewtopic_17076.htm ].

La lutte (tous contre un) : Le bombardement Google, ou « Google bombing », est une

technique de référencement visant à influencer le classement d'une page dans les résultats du

moteur de recherche Google. Elle exploite une caractéristique de l'algorithme PageRank qui

accorde un certain « poids » au texte avec un hyperlien vers une page. Si plusieurs sites

Figure 5: Animations

de Google Fight

Page 11: Moteurs de recherche et compétition

11 Sébastien Heymann – Séminaire TSH 2007 Interaction et Cognition

utilisent le même texte pour pointer sur la même cible, Google additionne ce poids et il

devient possible de faire apparaître la page cible dans les résultats d'une recherche sur le texte

contenu dans les liens pointant vers elle. Par exemple, « weapons of mass destruction »

(armes de destruction massive) [http://www.google.com/search?q=weapons+of+mass

+destruction] renvoyait une page d'erreur typique [http://www.coxar.pwp.blueyonder.co.uk/]

de domaine du navigateur Internet Explorer critiquant les raisons d'entrée en guerre des États-

Unis contre l'Irak en 2003.

La coopération (un pour un) : Plus un site est relié à des sites semblables, plus il est favorisé

dans les moteurs de recherche. Ceux-ci utilisent des algorithmes tels que le PageRank, HITS ou

SALSA pour calculer la place d’un site, qui est basé sur son indice d’autorité [Kleinberg 1998].

Cette autorité est fonction du nombre de liens entrants sur le site, et plus précisément sur le

nombre de sites ayant un ou des liens vers lui. Une pratique que nous avons déjà rencontrée

consiste à échanger des liens hypertextes ou des bannières cliquables, créant une relation à

double sens entre deux sites. Chacun bénéficie par cette opération d’un meilleur score

d’autorité, les faisant « monter » tous les deux dans la liste des résultats, toujours au

détriment d’autres sites.

Page 12: Moteurs de recherche et compétition

12 Sébastien Heymann – Séminaire TSH 2007 Interaction et Cognition

Conclusion

L’enjeu de la pertinence des moteurs de recherche se double ainsi d’un enjeu de compétition

sur des territoires virtuels sans controverse impactant sur l'espace du Web actuel et en

particulier les liens hypertextes. La présomption de pertinence des moteurs a incité à

remplacer en partie la pratique de la navigation actuelle par une méthode systématique de

parcours d’une liste de liens, dont la perte de signification est conséquence de la simplification

de l’espace de navigation. Elle est un obstacle au développement des capacités de perception

de la spatialité du Web ainsi qu’à l’amélioration de l’acuité de l’esprit critique.

Page 13: Moteurs de recherche et compétition

13 Sébastien Heymann – Séminaire TSH 2007 Interaction et Cognition

Bibliographie

Barabasi A. L., Linked : The New Science of Networks, Perseus Publishing, 2002

Bergman M. K., The deep web: Surfacing hidden value, The Journal of Electronic Publishing, 2001

Gibson J., The Theory of Affordances, 1977

Ghitalla F., Lenay C., Les territoires de l'information. Navigation et construction des espaces de

compréhension sur le web, in La navigation, Les cahiers du numérique, Hermès Edition, Paris, 2003

Ghitalla F., Boullier D., Neau A., Le Douarin L., Guoskhou P., L’Outre Lecture, Manipuler,

s'approprier, interpréter le web, Coll. Etudes et Recherches, Bibliothèque Publique d'Information -

Centre Georges Pompidou, Paris, 2004

Gulli A., Signorini A., The Indexable Web is More than 11.5 Billion Pages, in Proc of WWW 2005

Conference, ACM, Chiba, Japan, 2005

Huberman B., The Laws of the Web, 2001

Jacomy M., Pfaënder F., Explorer et Appréhender le web, 2006

Kleinberg J., Authoritative Sources in a Hyperlinked Environment, in Proc. of the ACM-SIAM

Symposium on Discret Algorithms, ACM Press, 1998

Lévy P., Qu’est-ce que le virtuel ?, 1998

Merleau-Ponty M., Le Visible et l’invisible, Gallimard 1964, p.173, 177

Sperber D., Wilson D., Relevance: Communication and Cognition, 1986

Webographie

Cas BMW http://www.zdnet.fr/actualites/internet/0,39020774,39309221,00.htm

Compétition http://fr.wikipedia.org/wiki/Comp%C3%A9tition

RFC2396 http://tools.ietf.org/html/rfc2396

Enquiro Eye Tracking Report http://www.enquiro.com/eyetrackingreport.asp

Google Fight http://www.googlefight.com