17
DAFCO CDR 1 TECHNIQUE DE VEILLE INFORMATIQUE LE WEB INVISIBLE

Présentation du Web Invisible

Embed Size (px)

DESCRIPTION

Diaporama présentant le Web invisible, les ressources que l'on peut y trouver et les principaux outils de recherche. Auteur : Annick Lao-Thiane (DAFCO- CDR)

Citation preview

Page 1: Présentation du Web Invisible

DAFCO CDR 1

TECHNIQUE DE VEILLE INFORMATIQUE

LE WEB INVISIBLE

Page 2: Présentation du Web Invisible

DAFCO CDR 2

Sommaire

• Définition

• Les bases de données gratuites

• Les sites spécialisés : Les répertoires sélectifs et portails verticaux

• Les outils et moteurs de recherche sur le web invisible

Page 3: Présentation du Web Invisible

DAFCO CDR 3

Définition

• Qu’est-ce que le web invisible?

Le "web invisible" (deep web, hidden web) désigne la partie du web non accessible aux moteurs de recherche classiques.

Le web invisible comprend des bases, banques de données et bibliothèques en ligne gratuites ou payantes...

Page 4: Présentation du Web Invisible

DAFCO CDR 4

Le web invisible

• Des moteurs comme Google, MSN/Live Search, Yahoo! Search ou des répertoires tels que Yahoo! Directory ne donnent accès qu'à une petite partie (inférieure à 10%) du web, le Web Visible.

• La technologie de ces moteurs conventionnels ne permet pas d'accéder à une zone immense du web, le Web Invisible, espace beaucoup plus important que le web visible.

Page 5: Présentation du Web Invisible

DAFCO CDR 5

Le web invisible

• Les ressources du Web Invisible sont en moyenne : – de plus grande qualité, – plus pertinentes que celles du web de

surface, parce qu'elles sont élaborées ou validées par des experts, faisant autorité dans leurs domaines.

Page 6: Présentation du Web Invisible

DAFCO CDR 6

Le web invisible

Une partie du web est non accessible aux moteurs parce que :

• Les documents, pages et sites web ou bases de données sont trop volumineux pour être entièrement indexés.

• des pages sont protégées par l'auteur (balise meta qui stoppe le robot).

• des pages sont générées seulement dynamiquement, lors d'une requête par exemple.

• les pages sont protégées avec une authentification par identifiant (login) et mot de passe.

• le format des documents n'est pas reconnu par les moteurs.

Page 7: Présentation du Web Invisible

DAFCO CDR 7

Le web invisible

• Voici une sélection de ressources permettant d'accéder à ce web invisible , le web "mal" ou non indexé par les moteurs.

Page 8: Présentation du Web Invisible

DAFCO CDR 8

Les bases de données gratuites

• Les bases de données gratuites sur Internet (URFIST de Lyon) L'URFIST (Unité Régionale de Formation et de Promotion pour l'Information Scientifique et Technique) de l'Université Lyon I propose sur DADI une sélection de plus de 800 bases de données gratuites. Parmi les catégories accessibles, l'agriculture, les brevets, les marques, la chimie, l'environnement, l'économie, la génétique, l'histoire, l'informatique, la linguistique, les mathématiques, la médecine, les sciences et puis le cinéma, l'art, la photographie..

Page 9: Présentation du Web Invisible

DAFCO CDR 9

Les bases de données gratuites

• Sites de références scientifiques gratuits ou payants (Université de Bordeaux I)

Ce site recense des centaines de ressources (sites, base de données) gratuites ou payantes dans le domaine scientifiques : Bibliographies générales et ressources pluridisciplinaires, Bibliographies spécialisées, Anthropologie, Astronomie et astrophysique, Agriculture, Biologie, Botanique, Brevets, Chimie, Energie, Géologie, Informatique, Insectes-entomologie, Environnement, Matériaux, polymères, Mathématiques, Mécanique, Médecine, Minéralogie, Pédagogie, Physique, Phytochimie, Pluridisciplinaire en sciences, Sciences de l'éducation, Sciences de l'ingénieur, Science des aliments, Sciences humaines, Thèses en ligne, Toxicologie.

Page 10: Présentation du Web Invisible

DAFCO CDR 10

Les bases de données gratuites

• Les bases de données gratuites (URFIST de Nice) L'URFIST de l'Université de Nice-Sophia Antipolis propose elle aussi une sélection de bases de données gratuites.

• The Internet Archive The Internet Archive est une bibliothèque digitale destinée à conserver tous les documents numériques issus de l'internet pour les préserver d'une disparition complète.

Page 11: Présentation du Web Invisible

DAFCO CDR 11

Les bases de données gratuites

• Google News ArchivesGoogle News Archive permet de rechercher parmi les archives des actualités de ces.....200 dernières années ! (Google News n'archive que 30 jours d'actualités)La recherche se fait via des mots clés au sein d'actualités issues de sources gratuites ou payantes. 2 type de recherches sont disponibles :- Search Archives : en tapant un mot clé, on obtient tous les articles en relation avec la requête.- Show Timeline : permet d'afficher la chronologie d'un événement ou l'actualité d'une personne à travers les années.

Page 12: Présentation du Web Invisible

DAFCO CDR 12

Les sites spécialisés

• Ce sont les :- Répertoires sélectifs, guide multi-thèmes, qui sélectionnent les sites qualitativement .- Portails horizontaux : portes d'entrées spécialisées dans des outils transverses (moteurs, annuaires)

- Portails verticaux : portes d’entrées spécialisées dans un secteur d'activité (la chimie, le commerce, l'automobile...).

Page 13: Présentation du Web Invisible

DAFCO CDR 13

Les répertoires sélectifs

• Les répertoires sélectifs recensent :

- des ressources internet professionnelles sélectionnées sur des critères qualitatifs (les sites sont choisis par des professionnels de l'information afin de couvrir les domaines de l'université, de la recherche et donc plus globalement de l'enseignement).

Page 14: Présentation du Web Invisible

DAFCO CDR 14

Les répertoires sélectifsLes ressources recensées sont de

plusieurs types : - sites web de référence, - bases de données,- ouvrages, - journaux électroniques, - listes de diffusion, - articles et études d'universitaires,

chercheurs ou journalistes..

Page 15: Présentation du Web Invisible

DAFCO CDR 15

Les portails

• Ce sont des sites fédérant de nombreuses ressources (articles, forums ,actualités, fiches produits...) organisées autour d'un annuaire thématique.

• Le portail horizontal concerne une activité transversale (le droit, les moteurs de recherche).

• Le portail vertical (ou vortail, vortal) cible une communauté professionnelle et donc un secteur d'activité (l'agriculture, l'aéronautique...). 

Page 16: Présentation du Web Invisible

DAFCO CDR 16

Les outils et moteurs de recherche

• Wikio (moteur de recherche spécialisé dans les blogs) http://www.wikio.fr

• Google (moteur qui indexe des formats de documents de plus en plus nombreux et même certaines pages "confidentielles" oubliées par les webmasters sur le net.)

• …

Page 17: Présentation du Web Invisible

DAFCO CDR 17

Le web invisible

• Pour en savoir plus sur le web invisible :

http: //c.asselin.free.fr/french/invisible