10
Les moteurs de recherche Aperçu général Les différentes technologie Et plus en détail : les spiders

Fonctionnement des moteurs de recherche

Embed Size (px)

Citation preview

Les moteurs de recherche

• Aperçu général

• Les différentes technologie

• Et plus en détail : les spiders

Comment fonctionne un moteur de recherche ?

•La collecte d’information•L’indexation des données collectées•Classement des résultats en fonction de leurs pertinences

•Affichage des résultats les uns en-dessous des autres

Fonctionnement

Technologie utilisée

Donnée valable pour 2009

La collecte d’information avec les

spiders

Les spiders qu’est ce que c’est ?

• Les spiders (bots) sont des programmes de navigation visitant en permanence les pages web et leurs liens en vue d’indexer leurs contenus.

• Il détecte les liens des pages est les visites 24h/24h.

Les différents bots

• Les bots les plus connu : Googlebot de Google, Yahoo! Slurp de Yahoo!, MSNBot de Microsoft Bing, Exabot d’Exalead.

• https://support.google.com/webmasters/answer/182072?hl=fr

Les spiders ou crawler

Qu’est ce qui font ?

• Contrôles des différentes versions enregistrer dans les bases de données du spider.

• Avant la visite était mensuel, maintenant les bots visites des sites plusieurs fois par jour.

Les spiders

Politique de sélection

• Une étude de 2009 a montré que seulement 40% à 70% du web est indexé.

• 1999 : Un moteur de recherche indexe pas plus de 16% du web.

Le web profond ou le deep web

• Le web profond : les robots sont incapables de trouver les pages qui n’ont aucun lien qui pointe vers eux.

• Google a développé les Sitemaps et mod_oai pour permettre la découverte des ces ressources.

• TOR : http://fr.wikipedia.org/wiki/Tor_%28r%C3%A9seau%29

Source

• Olivier Andrieu - Reussir son referencement web

• http://en.wikipedia.org/wiki/Web_crawler/

• http://roxors.pbworks.com/w/page/87922261/Lucas%20Roche