58
SCD Rennes 2 - 2010 Recherche et évaluation de l’information sur Internet

Cm internet 2010 2011

Embed Size (px)

Citation preview

Page 1: Cm internet 2010 2011

SCD Rennes 2 - 2010

Recherche et évaluation de l’information sur Internet

Page 2: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 2

Cours en ligne http://cursus.uhb.fr

Accès : complément de cours en présentiel / Méthodologie / Méthodologie documentaireTests 2 et 3 sur recherche et évaluation de l’information sur internet

Page 3: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 3

Methodoc : http://www.sites.univ-rennes2.fr/scd/methodoc/

Page 4: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 4

Plan

1 / La recherche d’information sur Internet (RII) : notions et contexte

2 / Les principaux enjeux et la méthodologie de la « RII » en 10 règles

3 / Fonctioonement des moteurs de recherche

4 / Protéger son identité numérique

5 / Faire de la veille informationnelle

6 / Evaluer l’information

7 / Lutter contre le plagiat et pour le respect de la propriété intellectuelle

Page 5: Cm internet 2010 2011

SCD Rennes 2 - 2010

1 / La recherche d’information sur Internet (RII) :

notions et contexte

Page 6: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 6

1 / Notions

Internet : INTERconnected NETwork (début des années 1960)

Protocole : TCP/IP (cf. cours C2i)

Applications d’Internet : web mais aussi courrier électronique, messagerie instantanée, partage de fichiers (peer-to-peer), etc.

Le web : World Wide Web (début des années 1990)

Protocole : HTML* (cf. cours C2i)

architecture client-serveur : le client à l’aide d’un programme appelé le navigateur ( Internet Exporer, Firefox, etc.) se connecte à une machine distante, le serveur web, qui contient les données sous forme de pages web, structurées par un langage commun (HTML*)

* Hypertext Makup Language

Page 7: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 7

1 / Le contexte : complexité d’Internet

Un paradoxe : l’illusion de facilité qu’offrent certains outils de recherche alors qu’Internet se complexifie à mesure de son expansion. Quelles sont les raisons de cette complexité :

Sa nature (à l’origine un outil de communication pas documentaire)

Son contenu

• Enchevêtrement des applications (web, messagerie, forum, etc.)

• Diversité croissante du web (sites, blogs, réseaux sociaux, etc.)

Son développement rapide et continu

Quelles conséquences pour l’information?

Page 8: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 8

1/ Le « déluge informationnel »

Le « déluge informationnel »

Réalité documentaire :

• 1996 : entre 100 et 250 000 sites web

• 2006 : entre 80 et 100 millions de sites

• En 2008 : plus de 1000 milliards de pages web ?

En deux ans, plus de contenu créé que dans toute l’histoire de l’humanité

• 93 % de ce contenu = électronique

• 70 % des données créées par des individus

Réalité sociale :

250 millions d’utilisateurs sur Facebook

Page 9: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 9

1 / Contexte : abondance de l’information

Croissance du nombre de sites depuis 1995 (Netcraft)

Page 10: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 10

1 / Contexte : Seule une minorité des pages est visible à partir des moteurs de recherche

WEB invisible :

Bases de données

Catalogues en ligne des bibliothèques

Intranet

Pages jaunes / blanches

Publications archivées

Page 11: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 11

1 / Contexte : web entre babil et Babel

Hétérogénéité : des sources, documents, contenus, supports, points de vue)

Fragmentation : dispersion sur l’ensemble de la toile (image du puzzle à reconstituer)

Manque de structuration : pages HTML (langage de description ≠ indexation), coexistence pages statiques et dynamiques

Changement continuel : contenu et adresse url, naissance et disparition des pages (importance des outils de capture et de mémorisation)

Multilinguisme (barrière des langues, caractères non latins)

La fiabilité en question : Web 2.0 : diversité des producteurs de données. Web = outil d’expression personnelle autant que vecteur d’information

(d’après V. Mesguish et A. Thomas, Net Recherche, 2009, ADBS, 2009)

Page 12: Cm internet 2010 2011

SCD Rennes 2 - 2010

2/ Les principaux enjeux et la méthodologie de la « RII » en 10

règles

Page 13: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 13

2 /Des problèmes liés à l’indistinction des contenus et des outils du web…

Quels changements majeurs de la recherche d’information, avec Internet ? Du monde professionnel au grand public :

• Usager « seul face aux outils » De l’ordre au désordre :

• Usager « seul face aux documents » De la confiance a priori à la validation personnelle:

• Usager « seul face à l’information » Du monde non-marchand à l’économie de l’attention:

• Usager « seul face aux liens commerciaux » De la transparence à la traçabilité généralisée :

• Usager « seul face à ses traces »

Page 14: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 14

2 /qui requièrent des aptitudes et une méthode : les 10 règles de la RII (1)

Maîtriser les outils de navigation

• maîtriser l'interrogation avancée

• connaître différents outils

Savoir questionner

• identifier l'objet de la recherche

• bien cerner le sujet

• traduire concepts en mots-clés

• identifier les sources pertinentes

Choisir les bons mots-clés

Chercher l'information à la source

• trouver les sites de référence

• privilégier les sources primaires

Page 15: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 15

2 / Les 10 règles de la RII (2)

Toujours analyser l'information

• recouper, critiquer, comparer...

conserver les données

• bookmark du navigateur

• outils de gestion de signets

Zotero, Delicious...

Maîtriser le temps

• faire plan de recherche

• éviter l'exhaustivité

Rester clair sur ses objectifs

Page 16: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 16

2 / Les 10 règles de la recherche d'information (3)

Utiliser différents types d'outils

• combiner moteurs, annuaires, métamoteurs...

Etre "agile"

• lecture rapide

• rebondir d'un document à l'autre

• Mais… éviter le zapping

(d’après V. Mesguich, A. Thomas, Net Recherche 2009, ADBS, 2009)

Page 17: Cm internet 2010 2011

SCD Rennes 2 - 2010

3/ Fonctionnement des moteurs de recherche

Page 18: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 18

3 / Panorama des outils de recherche

Les catégories d’outils (cf. cours C2i) :

Les annuaires thématiques (cf. TP)

Les moteurs de recherche

Les métamoteurs

Les portails spécialisés (cf. TP)

Les outils collaboratifs

Domaine en perpétuelle innovation, qui propose de nombreux outils mais soumis à des enjeux économiques et financiers très importants.

Page 19: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 19

3 / Les moteurs de recherche

Définition : outil automatisé d’indexation et de recherche des ressources du web

Fonctionnement : 3 modules autonomes :

• robot collecteur : collecte des données

• module d’indexation : base de données du moteur (mémoire)

• module de requête : gestion des requêtes et des résultats

Page 20: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 20

3 / Fonctionnement des moteurs de recherche

Source : R. Viseur, CETIC

Page 21: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 21

3 / Moteurs de recherche : la gestion des résultats

Méthodes de classement des résultats

– Enjeux du classement des résultats (ranking) selon leur pertinence

– Deux grandes méthodes de classement :

• tri par indice de pertinence : calculs statistiques sur la fréquence des termes…

• tri par popularité : indice de popularitéGoogle

Présentation des résultats : affichage des résultats, description des documents, exploitation

Page 22: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 22

3 / La recherche avancée dans Google

Page 23: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 23

3 / Les moteurs : Quelques exemples

Moteurs de recherche Adresse URLExemples de moteurs utilisant

cette technologie

Topsy http://www.topsy.com Indexation des tweets

Exalead http://www.exalead.fr/search

catégorisation

Oamoshttp://www.oamos.com

Le moteur de demain ?

Google Scholar

http://www.scholar.google.fr

Moteur de recherche scientifique

Page 24: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 24

3 / Un exemple : le moteur Exalead

Page 25: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 25

3 / Les métamoteurs

Définition :

Un métamoteur est un outil de recherche qui interroge simultanément plusieurs outils (moteurs et annuaires). Après une élimination des doublons, les résulats sont compilés et classés selon un indice de pertinence.

Diversité des métamoteurs :

• En ligne / hors-ligne

• Généraux / spécialisés

• Catégorisation des résultats (dossiers thématiques)

• Exemple : Ixquick

Page 26: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 26

3 / Les métamoteurs : Ixquick

Page 27: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 27

3 / Le positionnement payant

Différence entre liens naturels et liens sponsorisés ?

Problèmes et enjeux :

– De plus en plus d’usagers arrivent sur des sites via les liens sponsorisés

– De plus en plus d’entreprises investissent dans des campagnes de liens sponsorisés

– Question : savoir distinguer un lien sponsorisé d’un lien naturel

• Question par rapport à la recherche, l’accès à l’information, son usage

• Problème : près de 60 % des gens ignorent la différence

– Risques des liens sponsorisés : 8,5% des liens sponsorisés conduiraient vers des sites représentant un risque pour l’internaute (étude McAfee Site Advisor, Mai 2006)

Page 28: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 28

3 / Le positionnement payant (2) savoir repérer les liens sponsorisés

Liens « naturels »

Liens commerciaux : 97 % du CA (5, 7 Mrds de $, fin 08)

Page 29: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 29

3 / Le positionnement payant (3) La vente de mots clés

Juin 2010 : rachat de mots clés dont « oil spill » par BP à Google.

Page 30: Cm internet 2010 2011

SCD Rennes 2 - 2010

4 / Protéger son identité numérique

Page 31: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 31

4 / La googlisation

Source : S2M

Page 32: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 32

4 / La googlisation

Googlisation : utilisation exclusive des services de Google

Différents problèmes :

– Dangers du monopole :

• “le monde selon Google”, monopole d’une entreprise sur tous les secteurs de l’information

– Problèmes du classement, de pertinence des résultats

– Problèmes de la traçabilité, de la conservation des données personnelles

– Risques d’addiction, de “googlisation” des usages

Enjeux de la formation pour diversifier les outils, prendre du recul

Page 33: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 33

4 / L’économie de l’attention

Enjeu majeur sur le web : comment capter et garder l’attention des usagers ?

– La variante internet du « temps de cerveau disponible » :

• « Les internautes vous paient avec le temps qu'ils passent sur vos contenus, ils vous paient avec leur attention. C'est cette attention, que les annonceurs veulent » . David Eun, responsable des partenariats de contenus chez Google à New York (janv 08)

Page 34: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 34

4 / Propriétés des données personnelles

Types de données détenues par les grands portails :

– Les requêtes sur les moteurs (logs) :

• Ce qui m’intéresse

– Les blogs :

• Mes opinions

– Les réseaux sociaux:

• Mes réseaux personnels

– La messagerie, les forums, le « chat » :

• Avec qui je communique et sur quoi

Création de gigantesques base de données sur les goûts et habitudes des internautes

Enjeux :

Profilage marketingPouvoir considérable accordé aux outilsRisques d’intrusion de pouvoirs autoritaires (cf Chine, Iran...)

Cf exemple récent de la vie d’un internaute reconstituée sur Le Tigre

Page 35: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 35

Qui constitue les fichiers ?

1. Les fournisseurs d’accès

>Directive Data retention, mars 2006) lutte contre le terrorisme

2. Les moteurs de recherche

> Publicité comportementale grâce aux cookies

3. Les réseaux sociaux (Facebook et Twitter)

> Facebook : bouton like (recommandation par un pair)

4. L’internaute qui se fiche lui-même sur Facebook. Profil / re-documentarisation

Page 36: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 36

La géolocalisation par le mobile :

Votre position dans l’espace est une donnée personnelle très intéressante pour les publicitaires.

Les smartphones, branchés en permanence sur Internet permettent à une myriade de sociétés privées de vous envoyer des messages publicitaires pour des services ou commerces de proximité.

La technologie Bluetooth, au départ destinée à permettre l’usage des oreillettes sans fil permet de vous pister dans certains lieux (aéroports, musées, centres commerciaux)

Twitter relève les coordonnées de l’expéditeur et les revend à Foursquare qui envoie de la publicité géolocalisée

Page 37: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 37

4/ Propriétés des données : réponse de Google aux demandes des Etats

Voir aussi la carte des bloggeurs incarcérés

Page 38: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 38

4 / Réponse de Google aux demandes des citoyens

“Si vous souhaitez que personne ne soit au courant de certaines choses que vous faites, peut-être que vous ne devriez tout simplement pas les faire”

Eric Schmidt, PDG de Google

Page 39: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 39

4 / Propriétés des données : La notion d’identité numérique

Page 40: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 40

4 / L’e-reputation (1)

Exemple : Marc L. (Le Tigre)

• Traces difficilement effaçables (serveurs étrangers inaccessibles physiquement ou légalement)

• Identité fractionnée (composée à des moments et dans des registres différents ex. : blog de jeunesse et CV professionnel)

• Recomposition aveugle (les moteurs de recherche remixent automatiquement et sans discernement des traces hétérogènes)

L’écosystème de l’e-réputation

Définition : l’identité numérique est la collection de traces (écrits, vidéos, messages, achats etc.) laissée consciemment ou non durant notre navigation sur le réseau. Ces traces, réarrangées par les moteurs de recherche et les sites de réseaux sociaux dessinent notre réputation numérique.

Page 41: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 41

Les 2 CV : le vôtre et Facebook

En 2009 :

77% des recruteurs américains "googlisaient" systématiquement les noms des candidats

45% d'entre eux ont complété cette recherche par une visite sur des réseaux sociaux (en particulier Facebook)

35% d'entre eux ont déclaré avoir déjà rayé un candidat de leur liste en raison de ce qu'ils avaient trouvé à son propos sur la Toile

Dessin de Vidberg

Page 42: Cm internet 2010 2011

SCD Rennes 2 - 2010

5 / Faire de la veille informationnelle

Page 43: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 43

5 / Les outils de veille (recherche automatisée)Google Alertes

Service de Google qui permet de mettre en place des veilles (collecte et exploitation d’informations) à partir de mots-clés. Selon l’actualisation de la base de données de Google, on reçoit périodiquement des mails qui annoncent quels sont les nouveaux liens/articles/pages qui contiennent les mots de la recherche.

Avantages de Google Alertes :

Utilisation très simple

Aucun logiciel à installer

Réception périodique des résultats dans son courrier électronique

Page 44: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 44

5 / Les outils de veille (recherche automatisée)Google Alertes

Page 45: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 45

5 / Les outils de veille (recherche automatisée)Outils de syndication de contenus

Définition :

– Agrégation de contenus divers sur un même navigateur

– possibilité de publier automatiquement sur un site web des informations issues d‘autres sites web

Plusieurs fonctions des fils RSS :

• Suivre l’actualité d’un site : réception de toutes les nouveautés

• Se tenir informé :

• Sur l’actualité : tous les journaux proposent des fils RSS

– Presse : ex. Le Monde

Sur un domaine : suivi de blogs et de sites spécialisés

– ex. L'Atelier des icônes

– Outil de veille et de surveillance, technique du push

Format RSS = Rich Site Summary, ou Really Simple Syndication

Page 46: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 46

5 / Les outils de veille (recherche automatisée)Outils de syndication de contenus

Comment reconnaître les fils RSS ? Logos sur les sites, ou bien RSS, ou ATOM :

En lien, derrière le logo : l'adresse URL du fichier texte permettant la syndication Exemple : passer la souris sur un fil RSS et observer la

barre d'état du navigateur

• Lors de la mise à jour d’un site web, un fichier texte au format XML contenant une description synthétique des nouveautés du site est généré en temps réel

• Plusieurs formats de fils RSS : 0.91, RSS 1.0, RSS 2.0 et Atom ; compatibles

Page 47: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 47

5 / Les outils de veille (recherche automatisée)Exemple d’agrégateur : Netvibes

Page 48: Cm internet 2010 2011

SCD Rennes 2 - 2010

6 / Evaluer l’information

Page 49: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 49

6 / Evaluation de l’information

Difficultés sur Internet:

– « déluge informationnel »

– pollution de l ’information : l’infopollution

– hétérogénéité des sources

– fiabilité incertaine

– identification difficile des auteurs

Page 50: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 50

6 / Evaluation de l’information

La notion « d’infopollution »:

– La surabondance

– La désinformation, la médiocrité de l’information« Intoxication » : rumeurs, Redondance…

– La contaminationProlifération des informations indésirables (sites négationistes, sectes…). Contamination des informations « saines »

– L’invasion publicitaire

Remèdes :

– rôle clé de l’évaluation de l’information : demande des compétences disciplinaires (évaluation du contenu) mais aussi des compétences informationnelles et des savoir-faire

Page 51: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 51

6 / Evaluation de l’information

Quelques principes

1/ Bien identifier :

la source : le site, l ’organisation

l’auteur

la nature du document

2/ Evaluer :

la source ou l’auteur : fiabilité, notoriété, compétences

le contenu : la pertinence et la qualité du document

Page 52: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 52

6 / Evaluation de l’information

L’identification : savoir-faire

– Décodage des URL

– Décodage de la page d’accueil d’un site

– Mesure de la notoriété d’un site

– Identification du réseau de l’auteur : liens, bibliographie...

– Identifier la nature du document

– Repérage des dates, des liens externes, des sources…

Consulter le cours en ligne : chapitre « Evaluation de l’information »

Page 53: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 53

6 / Réutilisation de l'information

Gérer ses liens ou favoris, utiliser les RSS

Comment citer les documents électroniques

- Methodoc sur Cursus

http://www.sites.uhb.fr/scd/Methodoc_citation.html

- Comment citer un document électronique ? Bibliothèque de l'Université de Laval (Québec)http://www.bibl.ulaval.ca/doelec/doelec29_abrege.html

La question du plagiat

Page 54: Cm internet 2010 2011

SCD Rennes 2 - 2010

7 / Lutter contre le plagiat et pour le respect de la propriété intellectuelle

Page 55: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 55

7 / Vous plagiez quand vous :

Copier textuellement un passage d’un livre, d’une revue ou d’une page Web sans le mettre entre guillemets et/ou sans en mentionner la source

Insérer dans un travail des images, des graphiques, des données, etc. provenant de sources externes sans indiquer la provenance

Résumer l’idée originale d’un auteur en l’exprimant dans ses propres mots, mais en omettant d’en indiquer la source

Traduire partiellement ou totalement un texte sans en mentionner la provenance

Réutiliser un travail produit dans un autre cours sans avoir obtenu au préalable l’accord du professeur

Utiliser le travail d’une autre personne et le présenter comme le sien (et ce, même si cette personne a donné son accord) Acheter un travail sur le Web

Source : Infosphères

Page 56: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 56

Moyens mis en œuvre contre le plagiat

1. Détection grâce à Google en cas de soupçon

2. Logiciels de détection de similitudes utilisés dans certaines facs. Certains sont gratuits (http://www.plagium.com, copytracker). Les universités s’abonnent de plus en plus à des sites de détection payants (http://www.compilatio.net)

3. Un arsenal de sanctions dissuasives :

Le plagiat est en théorie un délit passible de poursuites judiciaires, mais il entraîne plus souvent pour celui qui en est convaincu des sanctions disciplinaires allant du blâme à l’annulation du diplôme.

Page 57: Cm internet 2010 2011

SCD Rennes 2 - 2010Page 57

7 / Comment puis-je citer et copier de la musique et des films ?

La loi DADVSI interdit le téléchargement irrégulier (piratage)

Ne pas dépasser un certain volume (musique : pas plus de 6 minutes ou 15% de l’œuvre)

Ne jamais rendre accessible la ressource copiée sur internet

Dans le cadre d’un travail scolaire (exception pédagogique) ne rendre la citation accessible qu’en intranet

Copie privée : à des fins de conservation uniquement