Upload
julie-alves
View
104
Download
0
Embed Size (px)
Citation preview
Les moteurs de recherche
Paul de Theux QuickTime™ et undécompresseur
sont requis pour visionner cette image.
Sommaire
• Google: leader presque incontesté
• Fonctionnement
• Syntaxe
• Limites
Domination de Google en France
Moindre aux Etats-Unis
Google ne domine pas partout
Pays où Google
n’est pas leader:
- Chine
- Russie
- République tchèque
Google ne domine pas partout
Pays où Google n’est pas leader:
- Japon
- Corée du Sud
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
Les japonais préfèrent les portails
Les Coréens préfèrent questions-réponses
Fonctionnement des moteurs de recherche
Fonctionnement simplifié
• Trois composants d ’un moteur– Le « spider » (fouineur) qui référence les sites
– L ’« index », qui organise les informations collectées
– Le « moteur » proprement dit, qui répond aux requêtes
Spider
Moteur
Index
Fonctionnement plus détaillé
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
Traces de la base de données: le cache
Le classement
• C’est le défi de tous les moteurs de recherche. Google se base sur de multiples critères dont:
• la présence du mot dans la page
• le pagerank, c’est à dire la popularité de la page
La popularité est un critère de satisfaction mais aussi de nivellement
Principe du Pagerank
Une multitude de petits sites (verts) à faible PR vont mettre un lien vers un autre site (bleu) qui verra son PR augmenter.
Un site à fort Pagerank (jaune) possède des liens provenant vers des sites à faible, moyen et fort Pagerank.
Un site peut posséder un Pagerank important, alors qu’un seul lien mène à lui.
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
• Pagerank: valeur (ou score) proportionnelle au nombre de fois que passerait par cette page un utilisateur parcourant le graphe du Web en cliquant aléatoirement
Problème du Pagerank
• Les résultats se modifient de temps à autre, ce qui provoque la colère du secteur
• Le Pagerank, trop complexe, serait remplacé par un Pagerank allégé, moins précis
• Google lutte contre la triche, sans détailler ses méthodes
• Bref: manque de transparence
Comment faire les requêtes
• Utiliser plusieurs mots; l’ordre des mots est important
• Utiliser les guillemets pour obtenir une expression exacte
• Éliminer certains mots en utilisant le -
• Utiliser la recherche avancée
Note: 1000 liens maximum…
Les limites
• Il est impossible de tout indexer:- pages dynamiques qui se renouvellent
constamment- Bases de données accesibles avec des outils
spécfiques- etc
Google a mis en place les « actualités » pour coller à l’évolution de l’information
Comparer les moteurs
• Exemple: seeky http://www.seeky.net/
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
Les métamoteurs
• Des outils qui utilisent les moteurs existants
• Limites: les syntaxes et le classement ne concordent pas
Pour en savoir plus ? Abondance.com ?
• Une entreprise spécialisée dans le référencement
• Des informations synthétiques gratuites
• Une newletter pour le grand public
Comment référencer un site dans un travail
• L’auteur, le titre, l’adresse URL, la date de mise à jour ou de consultation
• Exemple: Gingras François-Pierre, Comment citer des
sources sur Internet dans un travail scientifique, http://aix1.uottawa.ca/~fgingras/metho/citation.html, mis à jour le 24 septembre 1999.
L’auteur
• Pas toujours facile à déterminer
• De nombreuses pages ne sont pas signées
• Beaucoup de pages institutionnelles
Le titre
• Titre de la fenêtre ou de la page ?– Exemple:
Adresse URL
• Sans ou avec http:// (utile pour cliquer sur le lien)
• Problème des sites n’utilisant qu’une adresse
La date
• Date de mise à jour: pas toujours présente ou exacte
• Date de consultation: repère imprécis
• Choisir la moins mauvaise solution
Les six thématiques
Producteurs
Publics
Langages
Technologies
Représentations
Typologies
= qui, pourquoi, quand, où
= quoi, pourquoi
= comment
= pourquoi, pour qui
= comment
Analyse critique de sites
http://users.skynet.be/ameurant/francinfo/validite/index.html