130
Recherche d’informations sur Internet (perfectionnement) méthodologie et outils disponibles A. Bouchard

Recherche d'informations sur internet

Embed Size (px)

DESCRIPTION

Support de la formation "Recherche d'informations sur internet (perfectionnement) : méthodologie et outils disponibles" organisée par l’URFIST de Paris en 11/2014. Carte de la présentation orale : http://www.mindmeister.com/fr/162751003.

Citation preview

Page 1: Recherche d'informations sur internet

Recherche d’informations sur Internet (perfectionnement)méthodologie et outils disponibles

A. Bouchard

11/2014

Page 2: Recherche d'informations sur internet

Pour commencer

Page 3: Recherche d'informations sur internet

Principes

Moteurs de recherche

Sites internet

Bases de données bibliographiques

Autres bases de données textuelles

Images et multimédia

Web social

Actualités et temps réel

Quelques outils complémentaires

Veille automatisée

Exercices de synthèse

Bibliographie

Page 4: Recherche d'informations sur internet

Principes

Page 5: Recherche d'informations sur internet

Internet ? web ?

• internet • réseau de réseaux

• fin des années 1960• protocole TCP/IP• applications et services divers : courrier électronique (mail),

messagerie instantanée (IM), forums de discussion, transfert de fichiers (FTP), pair à pair (P2P), web (www)…

• données• utilisateurs : 2,8 MM. dans le monde (Internet World Stats)

• langues : 55,7 % du contenu en anglais, 4,1 % en français (W3Techs)

Page 6: Recherche d'informations sur internet

Internet ? web ?

• Web• World Wide Web (www)

• milieu des années 1990• ensemble de pages HTML (textes, images, liens…) avec une URL et

accessibles avec le protocole HTTP

• web visible / web invisible• web invisible ou web profond : partie du web non indexée et qui ne

peut être trouvée par les moteurs de recherche (pages protégées par un mot de passe, générées dynamiquement à la suite d’une requête…)

• taille• + 1 MM. de sites (Netcraft, 10/2014), 30 x 1012 pages individuelles (Google,

03/2013)

• web indexé : au moins 4,4 milliards de pages (Worldwidewebsize, 10/2014)

• taille du web identifié (URL connues) ? web général ?

Page 8: Recherche d'informations sur internet

Méthodologie

• DEBUSQUER l’information

Différents outils

Esprit critique

Bookmark organisé

URL significative

Syntaxe de recherche

Questions préalables

Utilisation réfléchie

Evaluation

Règles à respecter

d’après Eduscol. Rechercher sur internet

Page 9: Recherche d'informations sur internet

Méthodologie

• définir le sujet (mots-clés)

une stratégie de recherche des critères d’évaluation : crédibilité, qualité

et pertinence

Questions préalables

Prendre du temps au départ pour en gagner par la suite... Ne pas se lancer tout de suite dans la requête. Se poser des questions :- Au minimum :   Qu’est-ce que je cherche exactement ? Le web est-il le moyen le plus rapide ?- Pour aller plus loin :   Qui (profil du demandeur) ? Quoi (nature de l’information) ? Où (limites géographiques, lieux ressources) ? Quand ? Pourquoi (objectifs) ? Comment (outils, méthodologie, stratégie) ?

d’après Eduscol. Rechercher sur internet

Page 10: Recherche d'informations sur internet

Méthodologie

• dictionnaires : abréviations, synonymes, hiérarchies, associations• généralistes• Dictionnaires Larousse : http://www.larousse.fr/dictionnaires

21 dictionnaires de langue (français et bilingues)

• Trésor de la langue française (TLF) : http://atilf.atilf.fr/tlf.htm • FranceTerme : http://www.culture.fr/franceterme

à noter : vocabulaires spécialisés : http://www.culture.fr/Ressources/FranceTerme/Librairie

• Grand dictionnaire terminologique (GDT) : http://gdt.oqlf.gouv.qc.ca/dictionnaire québécois, propose également une traduction en anglais

• Dictionnaire électronique des synonymes (DES) : http://www.crisco.unicaen.fr/des/

• dictionnaires multilingues• WordReference : http://www.wordreference.com/fr/

intérêt des forums

• OneLook : http://www.onelook.com/ • Lexilogos : http://www.lexilogos.com• Acronym Finder : http://www.acronymfinder.com/

Page 11: Recherche d'informations sur internet

Méthodologie

• thésaurus bibliothéconomiquesabréviations, synonymes, hiérarchies, associations• RAMEAU : http://catalogue.bnf.fr

Autorités > RAMEAU > Choisir un critère : Nom commun RAMEAUthésaurus utilisé par la majorité des bibliothèques françaises et notamment le catalogue de la BnF et dans le SUDOC

• MOTBIS : http://www.cndp.fr/motbis/thésaurus utilisé dans les CDI de l’enseignement secondaire, les IUFM…

• Library of Congress Authorities : http://authorities.loc.gov/ équivalent de RAMEAU pour la bibliothèque nationale des Etats-Unis

• MeSH : http://www.ncbi.nlm.nih.gov/meshthésaurus utilisé pour indexer les articles dans la base de données PubMed (médecine)

Bartoc (Basel Register of Thesauri, Ontologies and Classifications) : http://bartoc.org/

répertoire de vocabulaires contrôlés (thesauri, ontologies…)600 ressources, 65 langues

+

Page 12: Recherche d'informations sur internet

Méthodologie• outils multilingues

• scientifiques• TermSciences : http://www.termsciences.fr /

portail terminologique multidisciplinaire français (CNRS, INIST, INRIA…)termes français, anglais, espagnols, allemandsarbre des concepts+ 190 000 concepts et 650 000 termes

• AGROVOC : http://aims.fao.org/standards/agrovocFAO (Organisation des Nations unies pour l’alimentation et l’agriculture)+ 32 000 concepts, 21 langues : nourriture, agriculture, environnement…

• Atlas sémantiques du CNRS : http://dico.isc.cnrs.fr/dico_html/fr/index.html

• Eurovoc : http://eurovoc.europa.eu/ thésaurus multilingue et multidisciplinaire de l’Union européenne (27 langues),à compléter par la base IATE (Inter-Active Terminology for Europe) : http://iate.europa.eu/SearchByQueryLoad.do?method=load

• Exemplar : http://springerexemplar.com/index.aspx Springerterminologie scientifique (« words in context »)

• Lexique Techniques de l’ingénieur : http://www.techniques-ingenieur.fr/lexique.html sur inscription - secteurs industriels majeurs4 langues, schémas et figures

• Pearl : http://www.wipo.int/wipopearl/search/home.html OMPI (Organisation Mondiale de la Propriété Intellectuelle)10 langues ; recherche par langue ou par carte de concepts

• Thésaurus de l’UNESCO : http://databases.unesco.org/thesfr / termes français, anglais, espagnols, russes : éducation, culture…

! différences entre l’anglais et l’américain : Ex. : fiber /fibre, flavor /flavour, sulfur /sulphur…

Page 13: Recherche d'informations sur internet

Méthodologie

• suggestions des moteurs de recherche

• générateurs de mots-clés• KwMap : www.kwmap.net/

présentation des mots-clés en relation et les variations possiblesen anglais

ExaleadGoogle

Page 15: Recherche d'informations sur internet

Méthodologie

• connaître les outils

Différents outils

Il n’y a pas que Google ! - bien comprendre les différences entre moteurs, métamoteurs et annuaires,- distinguer les outils généralistes et les outils spécialisés, - repérer les sites portails utiles pour vos recherches les plus fréquentes,- essayer et comparer des outils de types différents, et d’autres du même type,- lire l’aide en ligne, l’imprimer, mieux encore, faire sa propre fiche,- mieux vaut maîtriser 1 ou 2 outils que sous-utiliser un grand nombre.Utilisation

réfléchieEn fonction des réponses apportées, utiliser de façon réfléchie- l(es) outil(s) adapté(s), avec au besoin des filtres pays/langues,- de bons mots clés avec une syntaxe correcte (en saisissant bien la requête).

Syntaxe de recherche

Se familiariser avec la syntaxe - les principes d’interrogation des bases de données,   (opérateurs booléens et de proximité, signes + et -, troncature...),- la syntaxe de saisie spécifique à chaque outil (recherche simple et recherche avancée).

d’après Eduscol. Rechercher sur internet

Page 16: Recherche d'informations sur internet

Méthodologie• syntaxe de recherche

• opérateurs booléens AND, OR, AND NOT/BUT NOT/ NOT/- , plus rarement ET/OU/SAUFparenthèses : ex. : [Versailles (parc OR jardin)]

• syntaxeordre des motsmots vides : ex. : [travail enfants Chine] pour trouver des documents sur le travail des enfants en Chine guillemets pour expression exacte : ex. : [« base de données »], notamment pour chercher des noms de personnes! aux abréviations : ex. : limites de [« George Bush »] : distinction George W. Bush / George H. W. Bush ?

• orthographecasse (majuscules/minuscules ?)+mot et –mot pour indiquer ou soustraire un terme exact, ex. [+De Wilde], [+marché] (pour exclure « marche »)troncature : ex. : [jardin*] pour jardinage, jardiner, jardinier…accents et signes diacritiques (notamment pour outils non francophones)pluriels : ex. : [« textiles techniques »] et [« textile technique »]

• proximité

• syntaxe de saisie• recherche simple et avancée• filtres avant ou après la saisie de la requête

variable selon les outils consulter l’aide

Page 17: Recherche d'informations sur internet

Méthodologie

• analyser les résultats

Esprit critique

Tout au long de la recherche : faire preuve d’esprit critique, prendre du recul...Est-ce fiable ? S’agit-il d’un fait réel ? d’une idée reçue ? d’une rumeur ?S'agit-il d’une opinion ? Quels autres points de vue sur le sujet ? Est-ce bien ce que je cherche ? Ma méthode de recherche est-elle adaptée ?

d’après Eduscol. Rechercher sur internet

Evaluation

Evaluer- l’information (fiabilité, intérêt), - l’intérêt du site (richesse du contenu) et son ergonomie (clarté, navigation dans le site),- les résultats (performance des outils, pertinence de la requête).Adopter au besoin une nouvelle stratégie (élargir ou restreindre la requête).Conserver éventuellement la requête (termes et opérateurs utilisés) dans le bookmark.

URL significative

L’URL donne des informations importantes.- Décrypter la structure des adresses url pour identifier la nature du site,- Modifier une adresse url pour accéder à une page web.

Page 18: Recherche d'informations sur internet

Méthodologie

• exploiter les résultats

Bookmark organisé

Un bookmark bien organisé facilite les recherches et permet de retrouver les informations.- Avoir le réflexe (marque-pages sur Mozilla, favoris sur Internet Explorer, signets sur Netscape),- Identifier ses sources pour bien structurer le bookmark,- Constituer des dossiers en fonction de ses centres d’intérêt et les actualiser,- Constituer un dossier spécifique à l'occasion d'une recherche.

Règles à respecter

Respecter les règles- respecter la nétiquette mais aussi naviguer en internaute averti,- respecter le droit d'auteur, citer la source d’un document et ses références.

d’après Eduscol. Rechercher sur internet

Page 19: Recherche d'informations sur internet

Méthodologie

• « Keep wading to a minimum : Size of the search tool does not matter »

« Si vous n’avez pas trouvé ce que vous cherchez dans les 20 à 50 premiers sites, abandonnez et n’allez pas plus loin. Soit reformulez votre recherche, soit essayez un autre outil de recherche […]. Aucun moteur de recherche n’est le meilleur. Une recherche complexe nécessite des outils de recherche nombreux.Le nombre de sites appropriés est plus important que le nombre de sites recherchés. »

(D. Vidmar. Tips to Effective Internet Searching)

Page 20: Recherche d'informations sur internet

Moteurs de recherche

Page 21: Recherche d'informations sur internet

Moteurs de recherche

Documents diversité des documents et des formats :- pages web- sites - documents (texte, images, vidéos…)

Recherche RECHERCHE PAR MOTS-CLES (texte intégral, titre, URL…)spécifique à chaque outilprésence généralement d’une recherche avancée avec des possibilités de recherches complexes (requêtes construites)existence possible de tris et de filtres, d’une aide

Périmètre généralement web visiblepeu d’interrogations du web invisibleexistence de moteurs généralistes et spécialisésmais indexation et présentation des résultats automatiquesdifficile de trouver des documents originaux et peu connus

Outils moteurs de recherche généralistesmétamoteursmoteurs de recherche spécialisés (scientifiques notamment) ou « verticaux » (thématiques)

+ / - ! pas d’exhaustivité+ pour informations, données factuelles (dates, adresses…) ou questions générales! présence de publicités et validité des sources non vérifiéeévolution vers une prise en compte du langage naturel et une reconnaissance des termes

Page 22: Recherche d'informations sur internet

Etat des lieux

d’après AT Internet, 08/2014

Monde France

Google 88,4%

Bing

4.6%

Yahoo! 4% autres3%

Parts de marché des mo-teurs de recherche dans le

monde

d’après StatCounter, 09/2014

Google 92,9%

Bing

2,6%

Yahoo! 2,8% autres 1,7%

Parts de marché des moteurs de recherche

en France

Page 23: Recherche d'informations sur internet

Moteurs et métamoteurs de recherche

• Comment fonctionne un moteur de recherche ?

Link2

city

.com

! chaque moteur a sa propre couverture du web, ses propres index, algorithmes et fonctionnalités

Page 24: Recherche d'informations sur internet

Moteurs de recherche

• fonctionnalités générales possibles• combinaison des différents opérateurs (AND/OR…, parenthèses, guillemets…)

• filtres de recherche- titres des pages

! aux accents- nom de domaine ou site

+ fonctionnalités plus avancées que moteur de recherche sur le site! seulement sur les pages indexées par le moteur

- URL des pages! pas d’accent

- type de fichier- date (Google, Exalead)

! date de publication (1e indexation des pages) et pas toujours date de rédaction de la page

• « backlinks » d’une page ou d’un site• suggestions de recherches associées• formulaires de recherche avancée

- ne permettent pas des combinaisons très poussées

• préférences de recherche (langue, résultats, sécurité)

Page 25: Recherche d'informations sur internet

GoogleGoogle

• révolutionnaire en 1998mode de recherche (AND par défaut)simplicité de l’interface (one box) – recherche simple

• données chiffres inconnus (30-40 MM. de pages indexées ?)ne concerne qu’une partie du web100 milliards de requêtes par mois

• recherche avancée• classement des résultats

algorithme tenu secret prenant en compte plusieurs éléments :- ordre des mots dans la requête- fréquence et place des mots- fraîcheur de l’information- PageRank (notoriété d’une page grâce aux liens)

pages connues et non les plus pertinentes dans les premiers résultats prise en compte des nouveaux sites pas encore populaires ?

! tendance de plus en plus fréquente de Google (cf. aide) à : • suggérer des corrections orthographiques et d’autres orthographes (ex. sing./plur.)• personnaliser la recherche en utilisant les données de l’utilisateur (notamment localisation et compte

Google) se déconnecter de tout service Google (Gmail, Google+, YouTube…) quand on cherche sur Google nettoyer son historique Google (http://history.google.com/) et son navigateur (historique, cookies…) utiliser des services qui anonymisent la recherche (ex. : https://www.startpage.com/, http://duckduckgo.com/?t)

• inclure des synonymes des mots cherchés (recherches considérées comme similaires)• chercher sur la racine d’un mot (inclusion du pluriel quand on cherche un singulier, etc.)• exclure certains termes recherchés

Cf. How search works

Page 26: Recherche d'informations sur internet

fonctionnalités

de recherche

opérateurs booléens

AND : tous les mots (implicite) : ex. [jardin jardinage]OR : au moins un des mots : ex. [jardin OR jardinage]* : joker : ex. [«le «* de Sisyphe »] pour le mythe ou le supplice de Sisyphe (opérateur de proximité)-mot : mot exclu

critères de recherche avancée

«mot» : mot exact, sans synonyme ni variante orthographique : ex. [Mickael «Jacson»] pour exclure Jackson«  » : expression exacte : ex. [« réchauffement climatique »]intext: : pour forcer Google à prendre en compte le terme sans le laisser de côtéintitle: pour un mot ou une expression entre guillemets dans le titre de la page et allintitle: pour plusieurs mots inurl: pour un mot ou une expression entre guillemets dans l’URL et allinurl: pour plusieurs mots site: : site ou domaine : ex. [site:google.fr], [site:.edu]filetype: : type de fichier : ex. [filetype:ppt]chiffre..chiffre (+ unité de mesure au besoin) : fourchette de chiffres (comparaison, prospective…) : ex. [Michel Platini 1970..1980]

autres fonctionnalités

troncature : implicite et aléatoireproximité : AROUND(n) mais aléatoire

résultats

filtres

variables selon le type de document recherché (web, images…) : pays, région, langue, date, localisation, réutilisation+ mot à mot (in plus > tous les résultats) : chaîne exacte de caractères : ex. [littérature tibétaine] ne donnera ni littératures ni tibétain

rech. associées en bas de la page de résultats ( ! : traitement automatique)

autresfonctionnalités

cache, sites similaires

en face d’un résultat, en cliquant sur le petit triangle au bout de l’URLrelated: : pages similaires (en fonction des mots-clés)link: : pages mentionnant l’URL d’une page spécifique, mais peu satisfaisant

vocabulaire define: : définition (ne fonctionne plus bien ?)

préférences

filtre SafeSearchrésultats par pageblocage des résultats indésirableshistorique web

indexation d’un site par Google info: : ex. [info:google.fr] (page en cache, pages similaires, liens entrants…)

Google

Voir également : Aide sur Google

Page 27: Recherche d'informations sur internet

Moteurs de recherche

• moteurs multilingues•Bing : http://www.bing.com/

Microsoft- moins de critères de recherche avancée et de filtres que Google

•Yahoo! : http://search.yahoo.com/technologie : Bing- moins de critères de recherche avancée et de filtres que Google

•Yandex : http://www.yandex.com moteur de recherche russe, avec une version anglophone- moins de critères de recherche avancée et de filtres que Googleà suivre cependant

•Ask : http://www.ask.com/?o=312ancien moteur de recherche AskJeeves+ indication de related searches et de related questions (en langage naturel)

•Blekko : http://blekko.com/ moteur de recherche participatifsouhaite présenter des résultats fiables à partir de sites de qualité et sans spam déclare respecter les droits de recherche (algorithmes ouverts…)+ slashtags (fonctionnalité permettant notamment de sélectionner des sites jugés pertinents et de limiter les résultats à ces sites)

Page 28: Recherche d'informations sur internet

Moteurs de recherche

• moteurs territoriaux et nationaux (listes)• FinderSeeker : http://www.finderseeker.com/ • Search Engine Colossus : http://searchenginecolossus.com/

répertoire de moteurs de recherche (317 pays et territoires)

• Search Engines of the World : http://www.searchenginesoftheworld.com/

Page 29: Recherche d'informations sur internet

Moteurs de recherche

• moteurs francophones• Exalead : http://www.exalead.com/search/

Dassault Systèmes, plus de 16 MM. de pages indexéesmoteur ciblant plus les professionnels que Google (grand public)+ opérateurs (notamment)

- OPT : terme dont la présence est optionnelle- NEXT et NEAR : opérateurs de proximité (NEAR/n pour le nombre max. entre les deux

termes)- soundslike: recherche phonétique- spellslike: orthographe approchée

+ filtres par termes associés que l’on peut rajouter à la requête (clic) ou exclure (shift + clic)+ troncature par *+ outils d’affinage

• Qwant : http://www.qwant.com/moteur de recherche français, ouvert en 2013présentation en 5 colonnes (images, web, actualités, live, social, shopping + « Qnowledge graph »)- pas de recherche avancée, tris…sources ? (Bing, Amazon, Wikipedia)

• Voila : http://www.voila.fr/Orange+/- par défaut : indexation du web francophone, notamment domaines .org, .com, .net, mais nombreux sites commerciaux dans les résultats

Page 30: Recherche d'informations sur internet

Métamoteurs de recherche

Métamoteurs de recherche• outils interrogeant simultanément plusieurs outils de recherche

• peuvent retraiter les résultats de façon structurée• peuvent disposer de fonctionnalités propres• permettent d’élargir la recherche

• mais : • recherche sur des critères a minima communs aux outils interrogés• ne disposent pas de leur propre index

de bons outils pour commencer une recherche (mots-clés, informations)! aucun outil n’indexe la totalité du web

Page 31: Recherche d'informations sur internet

Métamoteurs de recherche

• Ixquick : https://eu.ixquick.com/ (https://www.startpage.com/ aux EU)+ confidentialité des recherches (pas d’enregistrement des adresses IP ni des cookies)+ indication par une étoile des sites figurant parmi les dix meilleures réponses d’un des moteurs interrogés+ recherche en 18 langues, avec des moteurs de recherche locaux et internationauxsite associé Startpage.com permet d’interroger anonymement Google- pas de liste des moteurs interrogés

• PolyMeta : http://www.polymeta.com/+ clustering des résultats+ possibilité de choisir les sources interrogées (dont Google, Bing et Exalead)+ filtre sur web, actualités, vidéos, images, blogs

• Info.com : http://info.com/ + recherche sur Google, Bing, Yahoo et Yandex

Page 32: Recherche d'informations sur internet

Moteurs de recherche scientifiques

Moteurs de recherche scientifiques • spécialisés dans la littérature scientifique et académique• privilégient les sources d’information des chercheurs (articles, congrès, brevets…)• destinés à la communauté universitaire et scientifique• gratuits• parmi leurs fonctionnalités, peuvent proposer l’exportation de références bibliographiques et l’analyse bibliométrique

Page 33: Recherche d'informations sur internet

Moteurs de recherche scientifiques

M.-L. Malingre et A. Serres

Page 34: Recherche d'informations sur internet

Moteurs de recherche scientifiques• Google scholar : http://scholar.google.fr/

2004, métamoteurarticles scientifiques approuvés ou non par des comités de lecture (plupart des journaux en

ligne, en accord avec les éditeurs), thèses, citations… ; prend également en compte les sites internet des auteurs et des laboratoires

100 M. de références anglophones sur les 114 M. accessibles sur le web (source) ?

+ « autres articles »+ versions (différentes versions, avec mise en avant de la version en accès libre)- couverture pas connue précisément (journaux, disciplines, mises à jour)

exhaustivité et fraîcheur de la recherche ?

- premiers résultats : souvent articles très cités (popularité cf. PageRank) place des nouveaux articles encore peu cités ?

- indexation automatique (auteurs, date, mots-clés)- accès au texte intégral pas systématique

voir avec les bibliothèques et les laboratoires pour les abonnements

- nombre de citations peu fiable, cf. l’exemple de Ike Antkare (C. Labbe)

ne peut servir d’indicateur

un outil moins efficace que les bases de données payantes ? (H. Basset)

recherche avancée

Page 35: Recherche d'informations sur internet

Moteurs de recherche scientifiques

• Isidore : http://www.rechercheisidore.fr/TGE Adonis – CNRS (acronyme pour Intégration de services, Interconnexion de DOnnées de la Recherche et de l’Enseignement

métamoteur de données francophones en SHS prioritairement en libre accès (bases de données, fonds numérisés, carnets de recherche, actualités…, notamment HAL, Revues.org, Calenda et Hypotheses.org)

plus important projet d’open data scientifique en France

3,5 M. de ressources et 94 collections de 2 500 sources différentes, classées selon plusieurs référentiels scientifiques (dont RAMEAU)

+ filtres (périodes historiques, disciplines…)

! formulaire de recherche avancée : passer par une page de résultats

Page 36: Recherche d'informations sur internet

Moteurs de recherche scientifiques• Microsoft academic search : http://academic.research.microsoft.com/

2009 ; 45 M. de références ?accès par domaine, puis auteurs, publications, sources, mots-clés, organisations+ graphiques de tendances (citations, réseaux et généalogies, tendances d’un domaine…)

• WorldWideScience : http://worldwidescience.org/2007, réalisé par un consortium de 17 organismes de l’IST + portail mondial scientifique multilingue (recherche fédérée et technologie de traduction)80 bases de données et portails de 70 pays+ nombreux filtres, y compris un filtre visuel

• Science.gov : http://www.science.gov/portail des ressources officielles scientifiques américaines (annuaire et moteur de recherche)60 bases de données, 2 200 sites, 200 M. de pages+ nombreux filtres, y compris un filtre visuel

• ScienceResearch : http://scienceresearch.com/scienceresearch/métamoteur (portails comme Science.gov, WorldWideScience et autres sources comme PubMed…)+ clusterisation des résultats

• FreeFullPDF : http://www.freefullpdf.com/80 M. de publications scientifiques en PDF (articles, brevets, posters, thèses), 15 000 sources- limité aux 100 premières réponses (Google CSE)

pour des moteurs de recherche disciplinaires, cf. M.-L. Malingre et A. Serres. Connaître les moteurs de recherche de l’information scientifique… (2012)

Page 37: Recherche d'informations sur internet

Evolutions des moteurs de recherche

• périmètre• personnalisation de la recherche• insertion de réseaux sociaux dans la recherche (temps réel et

géolocalisation)mais un appauvrissement du web ? (E. Pariser)

• pour exclure des résultats les plus populaires (100 à 1 M. de sites) : Million Short

(sites récents ou sans référenceur)

• recherches • tags• recherches non textuelles : par l’image, le son…• recherche dans les contenus non textuels

ex. : Voxalead : http://voxaleadnews.labs.exalead.com/

• outils • extensions des navigateurs (moteurs de recherche, fonctionnalités)• marché du mobile et des apps

Page 38: Recherche d'informations sur internet

Evolutions des moteurs de recherche

• présentation des résultats• visualisation des données

- graphiques de tendances : ex. : Microsoft academic search : http://academic.research.microsoft.com/DomainTrend

- représentations visuelles : ex. : Spezify.com : http://spezify.com/, ManagedQ : http://managedq.com/

- cartographie : ex. : Kartoo † ; TouchGraph : http://www.touchgraph.com/seo,

- réseaux : ex. : Microsoft academic search : http://academic.research.microsoft.com/

• technologie • géolocalisation• recherche sémantique : langage naturel, entités nommées, réponse aux

questions ex. : DuckDuckgo : http://duckduckgo.com/?t (désambiguïsation)ex. : WolframAlpha : http://www.wolframAlpha.com (données factuelles)ex. : évolutions de Google (Knowledge Graph) et Bing US (Satori)

Page 39: Recherche d'informations sur internet

Sites internet

Page 40: Recherche d'informations sur internet

Sites internet

Documents sites et portails internet (y compris catalogues en lignes, revues en lignes, corpus, bases de données)liste de sitesplus rarement sections ou pages de site, dossiers internet

Recherche RECHERCHE THEMATIQUEalphabétique/arborescente/moteurs de recherche portant généralement sur les notices descriptives et non sur les sites sélectionnés« sourcing » (identification de sources)

Périmètre information sélectionnée, organisée et hiérarchisée : identification de sites spécialisés ou localisés dans un pays donné(validée voire commentée : répertoires)généralistesthématiques et spécialisés

Outils annuaires généralistesrépertoires sélectifs (signets)outils thématiquespages de liens

+/- + identification d’une liste de sites (domaines, pays…)! mises à jour ? ! liens commerciaux

Page 41: Recherche d'informations sur internet

Annuaires généralistes• international

•Dmoz (open directory project) : http://www.dmoz.org/ modèle open source4,2 M. de sites, 1 M. de catégories, 90 000 rédacteurs bénévoles, multilingueFrançais : 220 000 sites, 20 000 catégories : www.dmoz.org/World/Français/

•Yahoo! Directory : http://dir.yahoo.com/ 5 MM. de pages ?, dont France : 19 200 sites (http://dir.yahoo.com/Regional/Countries/France/)

soumission payante orientation commerciale ?va être abandonné par Yahoo! ?

•Virtual Library (Vlib) : http://vlib.org/premier répertoire du web (1991), association à but non lucratif

•IPL2 : http://ipl.orgsélection de sites par un réseau de bibliothécaires américains

•Best of the web (BOTW) : http://botw.org/soumission partiellement payante+ indication de blogs et forums

•Infomine : http://infomine.ucr.edu/ + ressources éducatives

• France• Les annuaires : http://www.lesannuaires.com/

+ annuaires régionaux et des pays d’Europe+ repérage d’outils spécialisés

Page 42: Recherche d'informations sur internet

Répertoires de signets

• France•Signets de la BnF : http://signets.bnf.fr/accueil.html7 300 sites, 16 000 liens, 1 150 rubriquesclassement selon le classement des salles de lecture du site François-Mitterrand

accès alphabétique, thématique , moteur de recherche, nouveautés

•Signets des universités : http://www.signets-universites.fr/partenariat CERIMES/ABES, catalogue collectif alimenté par les bibliothèques de l’enseignement supérieur, notamment par des CADIST3 200 signetsaccès thématique par établissement, moteur de recherche, indication du niveau et de la catégorie du site- ne reprend pas les signets de toutes les bibliothèques de l’enseignement supérieurà compléter notamment par

- BIU Cujas (droit)- BIU Santé (santé)

- INHA (art et archéologie) - Sociopôle (sociologie)

Page 43: Recherche d'informations sur internet

Répertoires de signets

• international - universités• Intute : http://www.intute.ac.uk/

123 000 ressources, 60 établissements contributeursguides interactifs d’autoformation (Virtual Training Suite)! arrêté en juillet 2011

•Academicinfo : http://www.academicinfo.net/subject-guides25 000 ressourcesnombreuses ressources sur les Etats-Unis, mais pas exclusivement

• quelques répertoires thématiques• Annuaire environnement, écologie et nature :

http://www.environnement-annuaire.net/

1 600 ressources, 125 catégories• Annuaire 1000 sites utiles pour l’entreprise : http://

www.lyon.cci.fr/site/cms/18735/Recherche-d-informations-sur-Internet? par la CCI de Lyon

Page 44: Recherche d'informations sur internet

Informations sur les sites

• informations factuelles• Alexa : http://www.alexa.com/topsites

Amazonclassement des sites selon leur traffic rank (usagers + pages vues) : top 500 mondial et par pays, catégories

• SimilarWeb : http://www.similarweb.com

• bases « Whois »! mise à jour des données• registres : organismes gérant les noms de domaines

• AFNIC (Association française pour le nommage internet en coopération) : http://www.afnic.fr/registre des noms de domaines .fr et .re (La Réunion) (Whois)

• interfaces de recherche• WHOIS : http://whois.domaintools.com/

base de noms de domaines

Page 45: Recherche d'informations sur internet

Informations sur les sites

• date de publication d’un site / d’une page web [B. Foenix-Riou, 2012]

• bases « Whois » (cf. supra)• « archives du web » (cf. infra)• recherche par date des moteurs : date de publication estimée /

d’indexation par les robots! recouper les différentes informations

• historique• Internet Archive – Wayback Machine : http://archive.org/web/web.php

Internet Archive (organisme à but non lucratif)« archives du web »archivage de 435 MM. de pages web visibles depuis 1996recherche uniquement par l’URLpermet de retrouver des pages supprimées, d’anciennes versions de site (ex. : bibliothèque Mazarine)! liens brisés, images supprimées et délai d’archivage- peu intéressant pour les données du web 2.0

• Google : pages en cache sur la liste de résultatsinstantané de la page telle qu’elle était affichée lorsde l’indexation par Google+ peut permettre de résoudre une erreur 404 (page not found)

Page 46: Recherche d'informations sur internet

Informations sur les sites

• sites similaires• Google : related:url ou « pages similaires » de la liste de résultats ( à

côté du lien vert)

! attention construire sur le modèle : [related:google.fr] visible également via l’outil TouchGraph : http://www.touchgraph.com/seo (10 premiers sites similaires)

• SimilarSites : http://www.similarsites.com/ • SimilarSiteSearch : http://www.similarsitesearch.com/

• identifier des pages de liens• intérêt des pages de liens (liens / bookmarks / signets) et des portails

(portails / annuaires / répertoires) avec une requête de type : intitle:, inurl:

ex. [« réchauffement climatique » intitle:liens OR intitle:sites OR inurl:liens OR inurl:sites] permet de trouver des pages contenant soit « liens » soit « sites » dans le titre de la page ou l’URL et portant sur le « réchauffement climatique »

• liens entrants et sortants• [aléatoire selon les moteurs] link:url : liste des pages web qui proposent

un lien vers une URL! attention pour Google, construire sur le modèle : [link:google.fr ]

• outils spécifiques webmasters : Bing webmaster tools, Google Analyticscf. B. Foenix-Riou sur le sourcing

Page 47: Recherche d'informations sur internet

Bases de données

bibliographiques

Page 48: Recherche d'informations sur internet

Bases de données bibliographiquesDocuments

références bibliographiques de livres, périodiques, articles, rapports, congrès, thèses…informations sur un auteur, un directeur de thèseinformations sur les travaux d’un établissement, laboratoire…réseaux de co-auteurséléments de bibliométrie(localisation et/ou accès au texte intégral)

Recherche

recherche par mots-clés, parfois par indexspécifique à chaque outilprésence généralement d’une recherche avancée et de filtres (a priori et/ou a posteriori)

Périmètre

disciplinairepluridisciplinairelittérature blanche (édition commerciale : livres, revues, bases de données…)littérature grise (édition non commerciale : thèses, mémoires, rapports, articles non publiés…)

Outils catalogues de bibliothèques (ressources possédées par un/des organismes documentaires)

bibliothèques numériquesbases de données bibliographiques (signalement de

l’information produite, indépendamment de son lieu de conservation ; souvent dépouillement d’articles)

+ / - + recherche documentaire (références de documents ou documents eux-mêmes)! pas d’exhaustivité! mises à jour ?penser également aux catalogues d’éditeurs et aux sites commerciaux (comme Amazon), notamment pour les nouveautés et les annonces de sortie

avec ou sans accès au texte intégral

Page 49: Recherche d'informations sur internet

Catalogues de bibliothèques

• France• SUDOC : www.sudoc.abes.fr

ABEScatalogue collectif des bibliothèques et centres de documentations de l’enseignement supérieur et de la recherche10 M. de références+ localisation- pas d’exhaustivité des établissements concernés

• BnF catalogue général : http://catalogue.bnf.fr BnFcatalogue général de la BnF, à compléter par d’autres catalogues pour certains documents spécialisés12 M. de références bibliographiques et 5 M. de notices d’autorité+ dépôt légal français- catalogage parfois plus tardif et moins de langues étrangères que SUDOCfuture interface de consultation : http://cataloguelabs.bnf.fr/index.do (ouverture fin 2015)

• CCFr : http://ccfr.bnf.fr BnF+ fonds anciens des bibliothèques françaises rétroconverties- peu de critères de recherche, lenteurs

! : pas/peu de dépouillement de périodiques (autres outils)indexation aléatoire (périodes, type de documents…)ressources numériques peu prises en compte (autres outils)

Page 50: Recherche d'informations sur internet

Catalogues de bibliothèques

• international• WorldCat : http://www.worldcat.org/

OCLC+ plus grand catalogue mondial (2 MM. de références) (y compris SUDOC, BnF…)- références majoritairement anglo-saxonnes+ localisation des documents

• KVK : http://www.ubka.uni-karlsruhe.de/kvk.html + et - métamoteur (WorldCat, catalogues collectifs et/ou de bibliothèques nationales français, anglais, espagnols, allemands, italiens…) : peu de critères de recherche+ possibilité de choisir les moteurs interrogés

• Library of Congress : http://catalog.loc.gov/

! : pas/peu de dépouillement de périodiques (autres outils)

indexation aléatoire (périodes, type de documents…)ressources numériques peu prises en compte (autres

outils)

Page 51: Recherche d'informations sur internet

Catalogues de bibliothèques et archives

• archives et manuscrits• Calames : http://www.calames.abes.fr/pub/

BU, établissements de recherche, sociétés savantes

• CCFR manuscrits : http://ccfr.bnf.fr/portailccfr/jsp/index.jsp CGM (catalogue général des manuscrits), BnF archives et manuscrits et PALME (manuscrits littéraires français du XXe s.)

• voir également les rubriques archives et manuscrits des signets de la BnF et Portail européen des archives : http://www.archivesportaleurope.net/

! : catalogues non exhaustifs

Page 52: Recherche d'informations sur internet

Bases de données bibliographiques

• pluridisciplinaires • JSTOR : http://www.jstor.org/

archives de revues de sciences humaines et sociales1 M. de références, 1 000 revuesprincipalement en anglais

• Refdoc : http://www.refdoc.fr/ INIST, 53 M. de référencesmention de la version en libre accès : encore très rare

• Ingenta : http://www.ingentaconnect.com/ 5,9 M. de références, 12 000 publications

• EZB (Elektronische Zeitschriftenbibliothek) : http://rzblx1.uni-regensburg.de/ezeit/about.phtml?bibid=AAAAA&colors=7&lang=en

répertoire de revues électroniques en ligne, 75 000 titres (accès libre ou non)

! : pas/peu de références de documents autres qu’articles accès au texte intégral pas systématique et souvent payant

voir avec les bibliothèques et les laboratoires

Page 53: Recherche d'informations sur internet

Portails de revues• bases en accès libre

• Persée : http://www.persee.frprogramme de numérisation des archives de revues savantes françaises en sciences humaines et sociales (revues scientifiques, publications et séries)160 collections (+ 50 en traitement) , 188 000 articles en texte intégralparticipe à la plateforme canadienne Erudit : http://www.erudit.org/revue/ + nombreux filtres sur la page de résultats dont illustrations diffusables, documents en accès libre…

• Revues.org : http://www.revues.org/fédération de revues en sciences humaines et sociales442 revuesrecherche par moteur et par navigation

• base en accès restreint• Cairn : http://www.cairn.info/

plateforme de publications de revues en langue française385 revues, mais également magazines, ouvrages collectifs et encyclopédies et ouvrages de référencesaccès possible par discipline

! quelle complémentarité entre les programmes ?

à consulter : Mirabel : http://www.reseau-mirabel.info/réservoir d’informations sur les revues (dont accès au texte intégral), mais pas exhaustif (2 200 revues)

Page 54: Recherche d'informations sur internet

Bibliothèques numériques• France

• Gallica : http://gallica.bnf.fr/réalisée par la BnF mais rassemble des collections de différentes autres bibliothèques (bibliothèques, centres de recherche : BIUM, BIU Cujas, CNAM, INHA…) et des partenaires commerciaux3,1 M. documents (textes, images, presse…)accès par thèmes- présence de documents accessibles sous conditions- interrogation du texte intégral pas possible pour l’ensemble des fonds

• Europe• Europeana : http://www.europeana.eu./portal/

projet européen réunissant des institutions européennes

! : ouvrages en texte intégral = essentiellement libres de droit numérisation de documents anciens sans édition critique

Page 55: Recherche d'informations sur internet

Bibliothèques numériques

• Google books (Google livres) : http://books.google.fr/ projet de numérisation et d’OCRisation de Google, dont « programme partenaires » et « projet bibliothèque »20 M. d’ouvrages scannés (03/2012)interrogation plein texte

+ recherche avancée- surreprésentation des ouvrages anglo-saxons- pour les ressources académiques, voir Google scholar (deux programmes de mise en ligne différents)

! : accès au texte intégral partiel (aperçu), voire inexistant

Page 56: Recherche d'informations sur internet

Bibliothèques numériques

• World Digital Library / Bibliothèque numérique mondiale : http://www.wdl.org/fr/

projet porté par l’UNESCOnavigation par lieu, période, thème, type d’élément et institution

• Archive.org : https://archive.org/details/texts6 M. de documents

à compléter par le projet Open Library : http://openlibrary.org/projet de créer une page web pour chaque livre publié dans le monde1 M. de livres gratuits

• Project Gutenberg : http://www.gutenberg.org/plus ancien projet de numérisation (e-books gratuits)46 000 ouvrages (! libres de droit aux Etats-Unis)+ plusieurs formats de téléchargement

• HathiTrust : http://www.hathitrust.org/ bibliothèque numérique de bibliothèques universitaires américaines (90 partenaires)6,3 M. de livres dont 4,4 M. dans le domaine public (50 % en anglais) et 324 000 titres de périodiques

à compléter par la catégorie « Bibliothèques numériques » des signets de la BnF et par liste Wikipedia

Page 57: Recherche d'informations sur internet

Parutions et critiques

• JournalTOCs (Journal Tables of Contents): http://www.journaltocs.ac.uk/Heriot-Watt University d’Edimbourgplus grande collection de tables de matières de revues scientifiques24 700 revues, dont 7 800 en open accessalertes lors des nouveaux numéros

• Sign@l : http://doc.sciencespo-lyon.fr/Signal/service de la documentation de SciencesPo Lyonsignalement des contenus de 301 périodiques en sciences humaines et sociales

• Parutions.com : http://parutions.com/ site animé par un collectif de chercheurs, de journalistes classement par disciplinecomptes rendus

• Nonfiction.com : http://www.nonfiction.fr/site animé par un collectif de chercheurs, de journalistesclassement par disciplinecomptes rendus

• Recensio.net : http://www.recensio.net/front-page-frplateforme de recensions d’ouvrages pour la recherche historique européenne

• voir également les sites internet des éditeurs et les sites commerciaux (comme Amazon, FNAC, Le choix des libraires…), et notamment leurs suggestions automatiques

Page 58: Recherche d'informations sur internet

Autres bases de données

textuelles

Page 59: Recherche d'informations sur internet

Autres bases de données textuelles

Documents

données factuelles et/ou bibliographiquestout type de documents, dont articles scientifiques, pré et post-publications, littérature grise…calendriers et offres d’emploi

Recherche

spécifique à chaque outilprésence généralement d’une recherche avancée

Périmètre disciplinairepluridisciplinairelittérature blanche (édition commerciale : livres, revues, bases de données…)littérature grise (édition non commerciale : thèses, mémoires, rapports, articles non publiés…)

Outils moteurs de recherche spécialisésmoissonneurs OAI plateformes de dépôt et publication (archives ouvertes)

+ / - mise en ligne et accessibilité parfois dès la publication et/ou la soumission à des éditeurs

Page 60: Recherche d'informations sur internet

Open access et archives ouvertes

20 % des articles publiés / an : libre accès (H. Dillaerts)

• 8 % : revues scientifiques électroniques en accès libre (gold open access)publication d’articles dans des journaux à comités de lecture (peer-reviewed) immédiatement et librement accessibles, sans restriction d’utilisation, c’est-à-dire sans barrière financière, légale ou technique (protocole OAI notamment)

• 12 % : archives ouvertes (1,5 M. d’articles ?) (green open access)archives ouvertes : réservoirs de dépôt et de publications créés par des réseaux de chercheurs ou des institutions pour favoriser l’auto-archivage (sans contrôle) (open archives)

• + 2 000 réservoirs dans le monde (France : 65)• types de documents :

pre-prints et prépublications (manuscrits soumis pour publication)post-prints ou postpublications (manuscrits révisés par les pairs et acceptés pour publication,

mais avant leur mise en page par l’éditeur)littérature grise (thèses et HDR, colloques, manuscrits non publiés ailleurs…)

! : de plus en plus de chercheurs déposent leurs productions non pas sur des plateformes d’archives ouvertes mais sur leurs blogs et/ou leurs profils de réseaux sociaux (Academia, ResearchGate…)

Page 61: Recherche d'informations sur internet

Archives ouvertes• réservoirs d’archives ouvertes (disciplinaires et thématiques)

• arXiv : http://arxiv.org/ première archive ouverte au monde (1991)Cornell University, physique, mathématiques, informatique, statistiques980 000 « e-prints »

• CogPrints : http://cogprints.org/ notamment psychologie, neurosciences, linguistique

• e-Lis (E-prints in Library and Information Science) : http://eprints.rclis.org/sciences de l’information et des bibliothèques14 000 documents

• PMC (PubMed Central) : http://www.ncbi.nlm.nih.gov/pmc/biomédical et sciences de la vie3,2 M. d’articles (notamment postpublications)

• RePEc (Research Papers in Economics) : http://repec.org/ sciences économiques – se veut exhaustif (collecte d’autres archives ouvertes)1,4 M. de documents, 79 pays

• OpenAIRE (Open Access Infrastructure for Research in Europe) : https://www.openaire.eu/

projet européen de dépôt de résultats de recherche financées par l’Union européenne

Page 62: Recherche d'informations sur internet

Open access et archives ouvertes• international

• pluridisciplinaires (moissonneurs OAI)• OIAster : http://oaister.worldcat.org/

premier moissonneur OAIuniversité du Michigan et OCLC, accessible dans WorldCat25 M. de références, 1 100 participants (archives ouvertes essentiellement)n’indexe pas le texte intégral

• BASE (Bielefeld Academic Search Engine) : http://www.base-search.net/bibliothèque de l’université de Bielefeld65 M. de documents (75 % accessibles en texte intégral), 3 200 sources+ intègre une recherche « synonymes multilingues »

• DRIVER (Digital Repository Infrastructure Vision for European Research) : http://www.driver-repository.eu/ projet européen de métamoteur – l’une des bases du projet européen OpenAIRE3,5 M. de références, 295 réservoirs, 38 pays

• Open Science Directory : http://www.opensciencedirectory.net/ EBSCO, bibliothèque de l’université de Hasselt et UNESCO, + 13 000 journaux

• CORE (COnnecting REpositories) : http://core.kmi.open.ac.uk/search20,6 M. d’articles

• JURN : http://www.jurn.org/indexe + 4 800 revues en open access (arts et humanités)

Page 63: Recherche d'informations sur internet

Open access et archives ouvertes

• répertoires (et moteurs de recherche personnalisés)• OpenDOAR (Directory of Open Access Repositories) : http://www.opendoar.org/

université de Nottinghamannuaire de réservoirs d’archives ouvertes (+ 2 500 références)moteur de recherche sur leur contenu (Google CSE, n’affiche que les 100 premières réponses)

• ROAR (Registry of Open Access Repositories) : http://roar.eprints.org/ université de Southamptonmêmes principes qu’OpenDOAR : répertoire et moteur de recherche sur leur contenu (Google CSE, n’affiche que les 100 premières réponses)

• Ranking web of repositories : http://repositories.webometrics.info/en

• DOAJ (Directory of Open Access Journals) : http://www.doaj.org/ université de Lündrépertoire de journaux en open access et en texte intégral, 10 000 journaux dont 5 900 interrogeables au niveau de l’article, 1,8 M. d’articles

• DOAB (Directory of Open Access Books) : http://www.doabooks.org/ OAPen Foundationrépertoire de livres peer-reviewed en open access, 2 400 livres peer-reviewed, 78 éditeurs

• ROAD (Registry of Open Access scholarly Resources) : http://road.issn.org/ centre ISSN et UNESCOressources librement accessibles comportant un ISSN (revues, collections, actes de conférences…)encore en version bêta (10 000 ressources)

Page 64: Recherche d'informations sur internet

Archives ouvertes

• France• HAL (Hyperarticles en ligne) : http://hal.archives-ouvertes.fr/

CCSD-CNRS, pluridisciplinairecomposée de plusieurs portails (génériques, thématiques, institutionnels) : 340 000 documents en texte intégral, de niveau recherchepre-prints, articles, thèses, HDR, communications…recherche avancée : https://hal.archives-ouvertes.fr/search/index

autres plateformes institutionnelles (exemples) : Archimer (Ifremer) : http://archimer.ifremer.fr/Horizon (IRD) : http://horizon.documentation.ird.fr OATAO (Open archive Toulouse archive ouverte) :

http://oatao.univ-toulouse.fr/

Page 65: Recherche d'informations sur internet

Thèses• France

• thèses en préparation voire soutenues• Theses.fr : http://www.theses.fr/

application STEP (Signalement des Thèses En Préparation, qui succède au Fichier central des thèses de Nanterre)doit signaler l’ensemble des thèses de doctorat soutenues en France depuis 1985, y compris des thèses de la CGE (confédération des Grandes Écoles, après la fermeture de Thesa en 2013)339 000 thèses (dont 271 000 thèses soutenues, 66 000 en préparation et 35 000 thèses accessibles en ligne)! informations parfois incomplètes et pas toujours à jourà compléter notamment par TEL (http://tel.archives-ouvertes.fr/ , cf. infra) pour le texte intégral de thèses qui ne seraient pas concernées par l’application STAR (Signalement des Thèses électroniques, Archivage et Recherche)

• thèses soutenues• à regarder en priorité : SUDOC (version de soutenance) : http://

www.sudoc.abes.frréférence des thèses françaises toutes disciplines depuis 1972 (et 1982 pour les thèses de

médecine et chirurgie dentaire)toutes les données du SUDOC n’ont pas été versées dans theses.fr, même pour les thèses

après 1985 (source)

• à compléter éventuellement parBIUS (santé) : http://www2.biusante.parisdescartes.fr/theses/theses_rech.htm IFE (ex-INRP, éducation et formation) : http://

ife.ens-lyon.fr/vst/Recherches/AccueilTheses.phpANRT : http://www.diffusiontheses.fr/anrt-catalogue-theses-doctorat.html

•guides de la BnFComment trouver les thèses de doctorat à la BnF : http://

bnf.libguides.com/theses_doctorat?hs=a

! : HDR : dépôt facultatif ; signalement non exhaustif

Page 66: Recherche d'informations sur internet

Thèses• France

• texte intégral• TEL (Thèses En Ligne) : http://tel.archives-ouvertes.fr/

CCSD archive ouverte d’auto-archivage par les auteurs (sous-partie de HAL) et de dépôt par les établissements des thèses déposées au format électronique (application STAR)45 000 thèses et HDRpeut compléter Theses.fr pour trouver des thèses en texte intégral

! : voir également le site et /ou les archives ouvertes de l’établissement de soutenance ou de sa bibliothèque

notamment Pastel (ParisTech) : http://pastel.archives-ouvertes.fr/ Petale (Lorraine) : http://petale.univ-lorraine.fr/index.html

cf. « Trouver des thèses françaises en texte intégral » (ABES)

• DUMAS (Dépôt universitaire de mémoires après soutenance) : http://dumas.ccsd.cnrs.fr/ CCSD, 5 600 mémoires de M1 et M2 déposés par les établissements

Page 67: Recherche d'informations sur internet

Thèses

• international Par pays : voir « Thèses étrangères » (BnF)

texte intégral• DART-Europe E-theses Portal : http://www.dart-europe.eu/basic-search.php

28 pays européens, 566 universités, 552 000 thèses (dont TEL)

• OATD (Open Access Theses and Dissertations) : http://oatd.org/ moissonneur de thèses et de mémoires (universités et institutions

de recherche)+ 2,5 M. de références indexées

• NDLTD (Networked Digital Library of Theses and Dissertations) : http://www.ndltd.org/ (moteur)

100 établissements, 3,2 M. de références de documents (en open access ou non)- pas toujours très performant (lien à la source…)

• par pays : voir « Trouver des thèses étrangères en texte intégral » (ABES)• la base de données ProQuest Theses and Dissertations

(PQDT) est payante voir avec les bibliothèques et les laboratoires

Page 68: Recherche d'informations sur internet

Colloques

• littérature grise (non publiée)• plateformes de dépôt d’archives ouvertes

HAL : http://hal.archives-ouvertes.fr/ recherche avancée : conférences invitées, communications avec ou sans actes, projets européens…

• web social (blogs, réseaux sociaux académiques…)

• publication• bases de données bibliographiques

Page 69: Recherche d'informations sur internet

Littérature grise

• littérature grise« Tout document dactylographié ou imprimé, produit à l’intention d’un public restreint, en dehors des circuits commerciaux de l’édition et de la diffusion et en marge des dispositifs de contrôle bibliographiques »

(AFNOR)

• GreySource : http://www.greynet.org/greysourceindex.html sélection de ressources en littérature griseclassification par thèmes

• Open Grey Repository : http://www.opengrey.eu SIGLE (système pour l’information en littérature grise en Europe) : base de données multidisciplinaire européenne, gérée et maintenue par l’INIST-CNRSsignale les ressources des grands centres européens d’information et de fourniture de documentsaccès à 1 M. de références bibliographiques produites en Europe

• Lara : http://lara.inist.fr/ accès au texte intégral des rapports scientifiques et techniques français (INSERM, INRP…)

Page 70: Recherche d'informations sur internet

Données et statistiques• institutions

• INSEE : http://www.insee.fr/fr/sites statistiques français, européens et internationaux

• EUROSTAT : http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/site de la Commission européenne

• UNdata : http://data.un.org/site de l’ONU (UNICEF, UNESCO…)

• Data.gouv.fr : http://www.data.gouv.fr/plateforme française d’ouverture des données publiques (open data)

• European Union Open Data Portal : https://open-data.europa.eu/en/datasite de l’open data de la Commission européenne

• moteurs de recherche et répertoires• FindTheBest : http://www.findthebest.com

métamoteur de comparaison de donnéessources primaires (bases de données gouvernementales, universitaires…)accès possible par thématique

• Zanran : http://www.zanran.com/q/moteur de données et statistiques (PDF, Excel, HTML)recherche uniquement en anglais+ copies de pages internet et documents qui ont pu être supprimés depuis

• Knoema : http://knoema.com/ cartes, infographies, données…accès par mots, catégories, mots-clés

• RechStat : http://www.kyxar.fr/~jalac/ répertoire des sites des institutions fournissant des statistiques officielles mondialesaccès par moteur, pays et thème

Page 71: Recherche d'informations sur internet

Brevets, marques…

• moteurs de recherche• Google search patents : http://www.google.fr/webhp?tbm=pts

• sites spécialisés• INPI :

http://www.inpi.fr/fr/services-et-prestations/bases-de-donnees-gratuites.html

marques, brevets, dessins et modèles, jurisprudence

• OEB (Office européen des brevets) : Espacenet : http://www.epo.org/searching/free/espacenet.html 80 M. de documents, 1836

• USPTO (US Patent and Trademark Office) : http://www.uspto.gov/ patents, trademarks

Page 72: Recherche d'informations sur internet

Presse en ligne

• presse francophone• Le moteur (Orange) : http://www.lemoteur.fr/?bhv=web_fr

- sources limitées

• Giga Presse : http://www.giga-presse.com/612 journaux francophones10 000 journaux internationaux

• Guide Presse : http://www.press-directory.com/annuaire francophone de la presse en lignenotamment presse quotidienne et hebdomadaire régionale

• presse internationale• Newspaper Map : http://newspapermap.com/

annuaire, accessible via une carte

• Online Newspapers.com : http://www.onlinenewspapers.com/annuaire de journaux en ligne ; possibilité d’interroger par pays, catégorie

• Paperboy : http://www.thepaperboy.com/12 000 journaux en lignepossibilité de voir les unes

• Planète Presse : http://www.courrierinternational.com/sources_overview annuaire de journaux en ligne ; possibilité d’interroger par pays, région, périodicité

Page 73: Recherche d'informations sur internet

Type de documents

• généralistes (PDF, PPT, Excel…)penser en premier lieu aux filtres de recherche sur certains moteurs de recherche généralistes

sur Google, opérateur filetype: (cf. recherche avancée)

• e-books• ebibli.fr : http://www.ebibli.fr/

recherche d’e-books gratuits (Google recherche personnalisée)

• cartes heuristiques• BiggerPlate : http://www.biggerplate.com/ • voir également les galeries des plateformes de logiciels : Mindmeister,

Mindomo, Xmind…

Page 74: Recherche d'informations sur internet

Information circulante• forums et listes de discussion

• Google groups : https://groups.google.com/forum/?fromgroups#!overviewarchive des groupes de discussion Usenet et d’autres forums depuis 1981recherche dans le texte (1 MM. de messages)

• 1001 forums : http://www.1001forums.fr/annuaire (20 000 forums, 4 240 catégories pour la version française)

• BoardReader : http://boardreader.com/moteur de recherchegraphiques de tendances

• Omgili : http://omgili.com/ moteur de recherche américain : 100 000 forums, listes de discussions, listes

de diffusions

• listes de diffusion• CataList : http://www.lsoft.com/lists/listref.html

catalogue des listes LISTSERV, 61 000 listes publiques+ recherche par pays, par nombre d’inscrits…

• JISCMail – National Academic Mailing List Service : http://www.jiscmail.ac.uk/annuaire et moteur de recherche de listes anglophones, 8 000 listes

Page 75: Recherche d'informations sur internet

Web invisible• bases de données

•Dadi : http://dadi.univ-lyon1.fr/ répertoire de bases de données gratuites disponibles sur

internet! dernière mise à jour : juillet 2012

Page 76: Recherche d'informations sur internet

Calendriers et offres d’emplois

• calendriers• Calenda : http://calenda.org/

plus important calendrier scientifique francophone en sciences humaines et sociales27 000 événements

• Lanyrd : http://lanyrd.com/répertoire mondial de conférences

voir également les réseaux sociaux académiquespar exemple

• ResearchGate : http://www.researchgate.net/plus grande base de données d’emplois scientifiques et plus gros agenda dans le monde ?

Page 77: Recherche d'informations sur internet

Images et multimédia

Page 78: Recherche d'informations sur internet

Images et multimédia

Documents images, dessins et graphiquessonpodcastsvidéos (colloques, conférences…) et screencasts

Recherche recherche par mots-clésrecherche inversée (par images, par sons)recherche textuelle

Périmètre documents du domaine public et libres de droitsdocuments sous droit

Outils recherches avancées des moteurs de recherchemoteurs de recherche spécialisésplateformes de dépôt et publication

+/- + moteurs spécifiques- peu de recherches non textuelles, mais développement de la recherche inversée

Page 79: Recherche d'informations sur internet

Moteurs de recherche d’images

• généralistes• Google images : http://www.google.fr/imghp?hl=fr&tab=wi

+ recherche inversée par image

• Bing images : http://www.bing.com/?scope=images&FORM=Z9LH

• Yahoo! images : http://images.search.yahoo.com/images;_ylt=A0oG7nlVwJdPkTMADFCl87UF?ei=UTF-8&fr2=tab-web&p=

• Exalead images : http://www.exalead.com/search/image/

proposent généralement les mêmes filtres : taille, couleur, style, contenu (visage…)

• spécialisés• Everystockphoto : http://www.everystockphoto.com/

+ recherche avancée, avec licence

• voir également les moteurs de recherche de plateformes de dépôt et publication : Flickr (Yahoo!), Picasa (Google), Pixabay (nombreuses images en CC0), deviantART, Fotolia, Alamy…

Page 80: Recherche d'informations sur internet

Moteurs de recherche d’images

• spécialisés• Culture.fr : moteur Collections : http://

www.culture.fr/Ressources/Moteur-Collections métamoteur du patrimoine culturel français numérisé1 900 collections numérisées et productions multimédia associées (bases de données, expositions virtuelles, sites internet), 660 institutions (Gallica, Musées nationaux, Direction des archives de France…)tous sujets, tous types de documents5,6 M. de documents, 4,2 M. d’imagesà noter : Joconde (collections des musées de France), bases Architecture et patrimoine et Histoire des artspatrimoine numérique : http://www.numerique.culture.fr/pub-fr/index.html

• Medihal : http://medihal.archives-ouvertes.fr/archive ouverte de photographies et d’images scientifiques17 600 documents

Page 81: Recherche d'informations sur internet

La recherche par image

• la recherche inversée par image• Google images : http://www.google.fr/imghp?hl=fr&tab=wi

• TinEye : http://www.tineye.com recherche des pages où l’image est utilisée sur le web

• PicsLikeThat : http://www.picslikethat.com/ images Fotolia, recherche par similarité

• la recherche par couleur• MulticolorEngine (TinEye) : http://labs.tineye.com/multicolr (images Flickr en

CC)• Chromatik (Exalead) : http://chromatik.labs.exalead.com/ (référence des images

?)

Ex. d’intérêt pour la recherche : Netsources, n°97

Page 82: Recherche d'informations sur internet

Moteurs de recherche de cartes

• généralistes• Google maps : http://maps.goog le.com/• Bing maps : http://www.bing.com/maps/• Yahoo! maps : http://maps.yahoo.com/

proposent généralement les mêmes fonctionnalités : cartes, images aériennes et satellites, voire

streetview

• spécialisés• Géoportail : http://www.geoportail.gouv.fr/accueil

IGN et BRGMportail des territoires et des citoyens qui a pour but de «  faciliter l’accès à l’information géographique de référence »+ cartes thématiques

Page 83: Recherche d'informations sur internet

La recherche de sons• podcasts

• Digital Podcast : http://www.digitalpodcast.com/répertoire : 25 000 podcasts en 97 catégories

• sons• FindSounds : http://www.findsounds.com/

moteur de recherche d’effets sonores (animaux, instruments de musique, TV et cinéma…)

• Freesound : http://www.freesound.org moteur de recherche d’effets sonores

• Soundcloud : http://soundcloud.com/ plateforme de partage avec moteur de recherche

• Midomi : http://www.midomi.com/ recherche de musique+ recherche textuelle et recherche vocale

• Music Smasher : http://www.musicsmasher.netmétamoteur de recherche de chansons

Page 84: Recherche d'informations sur internet

Moteurs de recherche de vidéos

• généralistes• Google vidéos : http://www.google.fr/videohp?hl=fr• Bing vidéos : http://www.bing.com/?

scope=video&FORM=Z9LH2 possibilité de visionner les vidéos dès la page de résultats

• Yahoo! vidéo : http://video.search.yahoo.com/video;_ylt=A0oG7lT8wZdPxTUAhZel87UF?ei=UTF-8&fr2=tab-web&p=

• Exalead vidéos : http://www.exalead.com/search/video/

proposent généralement les mêmes filtres : durée, date, résolution, source

• voir également les moteurs de recherche de plateformes de dépôt et publication : YouTube (Google), Dailymotion, Vimeo…

Page 85: Recherche d'informations sur internet

Moteurs de recherche de vidéos

• spécialisés• AOL video (anciennement Truveo) : http://on.aol.com/ • Blinkx : http://www.blinkx.com/

interroge également sur le contenu sonore par reconnaissance automatique

proposent généralement des catégories et des indications de tendances

• Voxalead (Exalead) : http://voxaleadnews.labs.exalead.com/ + reconnaissance automatique de texte (mais plus alimenté ?)

• thématiques• IMDb (Internet Movie Database) : http://www.imdb.com/

plus importante base sur le cinéma900 000 titres

• INA : http://www.ina.fr/ recherche vidéo, audio, publicitésnombreux accès thématiques

• EUscreen : http://www.euscreen.eu/projet européen (20 pays), lié à Europeanaaccès par moteur, sujet, genre, langue et fournisseur

Page 86: Recherche d'informations sur internet

Plateformes multimédia

• universitaires et académiques• UNT Universités numériques thématiques [Open CourseWare France]: http://

www.universites-numeriques.fr/ocw/index.html ressources pédagogiques rassemblées par domaines et disciplines (sciences fondamentales, santé et sport, sciences humaines et sociales, environnement et développement durable, lettres et langues, droit économie-gestion, sciences de l’ingénieur et technologie)- grande disparité de contenus selon les domaines

• CERIMES (Centre de ressources et d’information sur les multimédias pour l’enseignement supérieur) : http://www.cerimes.fr/

plusieurs sites dont CanalU, vidéothèque numérique de l’enseignement supérieur (conférences, cours) et Canalc2 (colloques…)

• YouTube :dont YouTube EDU : http://www.youtube.com/educationchaînes d’établissements ou d’événements (ex. : Collège de France, TEDTalks)

• Dailymotion :chaînes d’établissements ou d’événements (ex. : Les Ernest de l’ENS)

• Khan Academy : https://www.khanacademy.org/ classement thématique

• voir également les sites des établissements

Page 87: Recherche d'informations sur internet

Web social

Page 88: Recherche d'informations sur internet

Web social

Documents 1° informations outils 2.0 (blogs, wikis)références bibliographiquessites et pages internetdocuments multimédiaarticlessupports d’interventionsoffres d’emploiactualités (colloques, recensions…)

2° personnes individus : professionnels, experts, veilleurs…groupes d’intérêts et de discussions

Recherche peu d’indexation dans les moteurs de recherche « classiques » comme Googleoutils spécifiquesmodalités variables selon les outilssérendipité

Périmètre web visible et partie du web invisibleweb 2.0 / social / collaboratif

Outils moteurs de recherche généralistesannuairesplateformes de bookmarkingplateformes de partagemoteurs de recherche sociale

+/- + pour des documents originaux et peu connus (signaux faibles) : complément aux bases de données professionnelles [C. Tisserand-Barthole, 2012] et aux moteurs de recherche « traditionnels »+ pour des personnes ressources dont activité peut être suivie - pas d’outil unique spécifique à tout le web social / web 2.0- information non validée

Page 89: Recherche d'informations sur internet

Wikis

Wikis1995 : mode de publication rapide (« wiki » = rapide)• présentation

architecture et contenu modifiablesstructuration en rubriques reliées par des liens hypertexteprésence d’un historique

Ex. de fonctionnement : Wikipedia

Page 90: Recherche d'informations sur internet

Wikis

recherche de wikis• Qwika

moteur de recherche 1 200 wikis, 22 M. d’articles en 12 langues (notamment les différentes Wikipedia)

• WikiIndex • Liste Wikipedia

voir également les listes des hébergeurs, comme Sites MediaWiki , Wikia

le cas Wikipedia• Exalead Wikipedia : http://www.exalead.com/search/wikipedia/

recherche dans six Wikipedia (fr, en, de, es, it, nl) avec la technologie Exalead

Page 91: Recherche d'informations sur internet

Blogs

Blogsmi-1990’s : mode de publication rapide (blog = web + log)• présentation

architecture et contenu modifiablesstructuration en billets (présentation ante-chronologique) et catégoriesliens permanentspossibilité de commentaires

• chiffres 2011 160 millions de blogs dans le monde (France : 15 M.) ?1,5- 2 millions de billets/j. ?

• cas particulier du blogging scientifique carnets de recherche et d’expérimentations, ex. : plateforme Hypothèses

Ex. de fonctionnement : URFISTInfo

Page 92: Recherche d'informations sur internet

Blogs

• recherche de blogs• annuaires

• Top Blogs Teads: http://fr.labs.teads.tv/top-blogs classement de blogs : disponible en .fr, .com., .uk, .de, .es, .it, .mx, .ar, avec des catégories variablesinformations sur le blog : thématiques, billets remarquables, statistiques

• EatonWeb : http://portal.eatonweb.com/ annuaire de blogs+ metrics : overall, strength et momentum

• voir également les signets de bibliothèques• voir également les annuaires et répertoires (BOTW)

• blogrolls des blogs

• voir également les plateformes de blogs, comme OverBlog

Page 93: Recherche d'informations sur internet

Blogs• moteurs de recherche sur les blogs

• généralistes :• Google recherche de blogs : https://

www.google.fr/webhp?tbm=blg&gws_rd=ssl se veut exhaustif à la condition que les blogs proposent un flux (RSS ou Atom)recherche dans le texte- ne ramène pas que des blogsà compléter par une recherche sur Google actualités avec filtre « Outils de recherche » > blogs

• Icerocket blogs : http://www.icerocket.com/+ critères de recherches avancées supplémentaires (titre du billet, auteur, tag)

• académiques :• Researchblogging : http://researchblogging.org/

agrégateur de billets de blogs académiques, disposant d’un moteur de rechercheplutôt anglophone et sciences et techniques

• Isidore : http://rechercheisidore.fr/ moteur de recherche pour la plateforme Hypothèses (plutôt SHS francophones)filtre a posteriori sur les résultats d’une recherche (types de ressources : « billets de blog »)

+ recherche sur un moteur de recherche avec une équation de type inurl:blog OR intitle:blog

Page 94: Recherche d'informations sur internet

La folksonomie

indexation automatique… ou indexation humaine

• tags : mot-clé sous forme d’étiquette pour décrire le contenu

Ex. nuage de tags de DiigoEx. tags du texte brut de l’article « Web 2.0 » de Wikipédia, par Wordle

Ex. nuage de tags des sujets dans l’OPAC de l’Ecole nationale des Chartes

Page 96: Recherche d'informations sur internet

Bookmarking

Plateformes de « social bookmarking »• outils de stockage et de gestion de contenus numériques

URL, références bibliographiques, images, texte…• présentation de chaque élément

titre ou références bibliographiques(tags)

• outil de mise en commun et de réseautagegroupes, abonnements à des comptes...

Ex. de fonctionnement : Diigo

intérêt de ces plateformes pour la recherche : Diigo : top 10 des outils de recherche (CNET, 2006)

Page 97: Recherche d'informations sur internet

Bookmarking

• bibliothèques et avis• LibraryThing : http://www.librarything.com/

majoritairement anglo-saxon1,9 M. membres ; 93 M. de livres catalogués ; 112 M. de tags

• Babelio : http://www.babelio.com/majoritairement francophone

• bookmarks• généralistes

• Delicious : https://delicious.com/plateforme de favoris internetaccès au moteur de recherche par la rubrique Help

• Diigo : https://www.diigo.com/ plateforme de favoris internetformulaire de rechercheformulaire de recherche de personne : champs, opérateurs! pour des termes associés, construire sa requête ainsi : eau_potable (avec _) ou « eau potable » (avec «  »)

• Pearltrees : http://www.pearltrees.complateforme de favoris internet- nécessité de passer par un Pearltree pour accéder au moteur de recherche et à la fonction « découverte » possibilité d’interroger via Google avec une requête site:pearltrees.com+ fonctionnalité « pearltrees voisins » pour d’autres Pearltrees similaires

Page 98: Recherche d'informations sur internet

Bookmarking

• références bibliographiques• Bibsonomy : http://www.bibsonomy.org/

+ bookmarks et références bibliographiques

• citeulike : http://www.citeulike.org 7,8 M. de référencescritères de recherche avancée (titre, revue, auteur, numéros internationaux, tags, utilisateur…)

• Mendeley : http://www.mendeley.com/Elsevier3 M. de membres, 260 000 groupes, 486 M. de références (2013)est également un véritable gestionnaire de références bibliographiquesformulaire de recherche avancée (critères : titre, auteur, résumé, MeSH, type de document, date, disciplines)

• Zotero : http://www.zotero.org/ est avant tout un gestionnaire de références bibliographiques local (installation sur l’ordinateur)- peu de possibilités de recherche (via formulaire : utilisateur, groupe, support ; forum : sujet, commentaire et utilisateur ; utilisateurs par discipline)

Page 99: Recherche d'informations sur internet

Plateformes de contenu

• généralistes• Slideshare : http://www.slideshare.net/

LinkedIn16 M. de comptes (2013)essentiellement des présentations (supports de formations et d’interventions…)vu par un maître de conférences (O. Ertzscheid)- moteur de recherche peu satisfaisant, tris et filtres a posteriori

• Calameo : http://www.calameo.com/

• Issuu : http://issuu.com/

• scientifiques• Figshare : http://figshare.com/

partage de données, de résultats négatifs et de schémas

• myExperiment : http://www.myexperiment.org/ partage de schémas de workflows, 7 500 membres, 300 groupes, 2 500 workflows

• SciVee : http://www.scivee.tv/vidéos et podcasts scientifiques, synchronisés avec des documents

Page 100: Recherche d'informations sur internet

Outils de curation

• Scoop.it : http://www.scoop.it/plateforme de curation de ressources (veille thématique) diffusion de la veille suivi de l’actualité d’un domaine

• Netvibes : http://www.netvibes.com tableaux de bord personnalisés (thématiques…) sélection de sites (signets) agrégateur de flux RSS (outil de veille)

• Storify : http://storify.com/plateforme de curation (dossiers éditorialisés)

+ support URFIST Rennes

à interroger via Google avec une requêtede type site:

Page 102: Recherche d'informations sur internet

Microblogging

• Twitter : http://twitter.com/ 271 M. de comptes mensuels actifs (7e site mondial, 9 langues) tweets : messages limités à 140 caractères (d’où syntaxe et vocabulaire spécifique : @, RT, tinyurl...)utilisation du # (hashtag) pour ajouter des mots-clésréseau d’information en temps réel (cf. pratique du live-tweet - LT)recherche simple : https://twitter.com/search-home et recherche avancée : https://twitter.com/search-advanced (mots, personnes, lieux, autre avec croisements possibles)vu par un maître de conférences (O. Ertzscheid) : filtre humain et non algorithmes d’un moteur- exhaustivité des résultats ?- classement ante-chronologique des résultats

• autres moteurs pour Twitter• Topsy : http://topsy.com

archives de Twitter depuis 2006, y compris des tweets supprimésrecherche avancée : http://topsy.com/advanced-search et filtres+ recherche de liens partagés, tweets, photos, vidéos, experts, tendances avec filtres+ classement des tweets en fonction des RT (retweets)+ alertes

• Trendsmap : http://trendsmap.com/ carte de tendances temps réel géolocalisées

! : par défaut, n’indique que le « top »

Page 103: Recherche d'informations sur internet

Réseaux sociaux

Réseaux sociaux• social networking (« service de réseautage social en

ligne ») : liens bilatéraux ou via des groupes• réseaux d’affinités, de pratiques et / ou d’intérêts• proposent notamment des espaces de

discussions/forums, offres d’emploi, manifestations voire plateformes de dépôt de documents

+ possible indexation dès les premières pages des moteurs de recherche généralistes (Google)

! recherche parfois possible seulement après inscription essayer cependant une recherche de type site: sur un moteur comme Google

! résultats de la recherche pouvant varier selon la taille du réseau et les abonnements (notamment payants) souscrits

Page 104: Recherche d'informations sur internet

Réseaux sociaux

• généralistes• Facebook : http://www.facebook.com/

1,3 MM. de comptes (2e site mondial, 80 langues), +3,5 MM. de contenus partagés/sem.à l’origine de 20% de l’ensemble des pages web consultées aux États-Unis

• Google+ : https://plus.google.com/540 M. de comptes

• professionnels• LinkedIn : http://www.linkedin.com/

300 M. de comptes (10e site mondial, 10 langues)à prédominance anglophone! résultats de recherche variables selon la taille du réseau et l’abonnement souscrit [M. Guibert, 2012]

• Viadeo : http://www.viadeo.com/ 60 M. de comptes (6 langues)à prédominance francophone, mais en perte de vitesse

Page 105: Recherche d'informations sur internet

Réseaux sociaux

• académiques• ResearchGate : http://www.researchgate.net/

5 M. de comptesréseau à prédominance scientifiquemoteur de recherche sémantique interne portant sur plus de 45 millions d’articles (dont Pubmed, ArXiv, IEEE et CiteSeer)

• Academia : http://academia.edu/ 14,5 M. de comptes, 3 M. d’articlescentré sur le partage de papiers de recherche (open science)

• IamResearcher : http://www.iamresearcher.com/ 10,2 M. de publications, 17 000 établissements

• BiomedExperts : http://www.biomedexperts.com/ 471 000 comptes et 1,8 M. de profils pré-remplisspécialisé en sciences de la vievisualisation de réseaux de co-auteurs (via Elsevier)

Page 106: Recherche d'informations sur internet

Moteurs de recherche sociale

• Moteurs portant sur le web 2.0 (réseaux sociaux, microblogging…) et la présence en ligne en général

• peuvent interroger le web invisible

• moteurs de personnes• Pipl : http://pipl.com • WebMii : http://www.webmii.com• Yasni : http://www.yasni.com

! penser à utiliser également : - les moteurs de recherche (ex. avec une recherche de

type [fédération OR association] pour trouver un groupe d’expert)- des annuaires généralisés ou non

ex. : annuaire de l’administration pour le service publicCismef pour les sites médicauxIndexa pour les entreprises françaises

Page 107: Recherche d'informations sur internet

Moteurs de recherche sociale

• moteurs du web 2.0! pas de moteur de recherche unique, et résultats généralement peu pertinents (exhaustivité ?, classement ?, services concernés...)

! les moteurs de recherche généralistes indexent peu/mal le contenu des réseaux sociaux• Social mention : http://socialmention.com

métamoteur : plus de 80 sources (blogs, microblogging, bookmarking, multimédia…)recherche avancée : http://socialmention.com/advanced_search et filtres+ possibilité de choisir les sources concernées+ flux RSS et alertes+ nombreuses analyses (trends, top users, top hashtags…)- lent (interrogation en temps réel), non exhaustif et dysfonctionnements fréquents

• Tagboard : http://tagboard.com moteur de recherche de hashtags (mots-clés marqués par le signe #) en temps réel sur différents réseaux (Twitter, Facebook…)+ possibilité de créer un tagboard personnalisé sur un tagvoir également Cur.to : http://www.cur.to

Page 108: Recherche d'informations sur internet

Actualités et temps réel

Page 109: Recherche d'informations sur internet

Actualités et temps réel

Documents actualités et informations (presse, dépêches, communiqués…)tendances (trends, buzz)événements dont colloques

Recherche pas d’indexation en temps réel par les moteurs de recherche « classiques » comme Googlespécifique à chaque outilprésence généralement d’une recherche avancéepossibilité de recherches géolocalisées

Périmètre généralistesthématiques

Outils annuaires, répertoires…outils de recherche sur les médias d’actualitésagrégateurs et bases de données de pressemoteurs de recherche en temps réelréseaux sociaux (Twitter…)

+/- + possibilité de fonctionnalités supplémentaires (visualisations, répartitions thématiques, alertes…)! mises à jour ? (vrai temps réel ?)! classement des résultats ?! informations pas (encore) toujours validées

Page 110: Recherche d'informations sur internet

Actualités

• moteurs de recherche généralistes• Google

Google web puis filtre par date (notamment moins d’une heure)Google Actualités : http://news.google.fr

+ recherche avancée dont filtres par date d’ajout dans Google actualités (depuis une heure, période personnalisée…), source+ différentes éditions nationales (+ 72 éditions, 30 langues, 55

000 sources)+ possibilités de personnalisations

• BingBing actualités : http://www.bing.com/news

• Yahoo!Yahoo ! actualités France : http://fr.news.yahoo.com/ : agences de presse et journaux dont pure-players

• moteurs de recherche spécialisés• Pickanews : http://www.pickanews.com

+ 50 000 sources médias (presse imprimée, web, radio et TV) européennes

• Rocket News : http://www.rocketnews.com/

Page 111: Recherche d'informations sur internet

Temps réel

• Eufeeds : http://www.eufeeds.eu/fragrégateur européen de plus de 1 000 journaux, mis à jour toutes les 20 minutes

• NewsBrief : http://emm.newsbrief.eu/NewsBrief/clusteredition/fr/latest.htmlagrégateur de journaux européens, mis à jour toutes les 10 minutes+ 4 000 sites, 1 600 portails, 43 languesgraphique de tendances, détection d’événements, clusterisationà compléter par NewsExplorer : http://emm.newsexplorer.eu/NewsExplorer/home/fr/latest.html (un des autres portails Europe Media Monitor du Joint Research Center de la Commission europenne)

• NewsMap : http://newsmap.jp/agrégateur mondialvisualisation graphique des résultats (thématiques en couleurs)

• Silobreaker : http://news.silobreaker.com/agrégateur mondial et analyse de l’information (lieux, réseaux, tendances…)

• WebPlanete news : http://news.webplanete.net/ 884 sources d’informations francophonesgrandes thématiques

+ ces outils proposent souvent des fonctionnalités supplémentaires (graphiques, thématiques, etc.)voir également du côté du web social

à compléter par M.-L. Malingre et A. Serres. Plus de 80 outils… et Outils de recherche et de veille sur l’actualité

Page 112: Recherche d'informations sur internet

Tendances

• tendances • Google tendances de recherches :

interroge le volume de recherches de mots-clés sur Google depuis 2004

- http://www.google.com/trends/ : recherches du moment- http://www.google.com/trends/explore#q : possibilité de choisir un ou plusieurs termes pour voir/comparer leur évolution

+ recherche par pays, période, catégories

Page 113: Recherche d'informations sur internet

Quelques outils complémentaires

Page 114: Recherche d'informations sur internet

Appel à la communauté• « Ask a librarian »

Pour commencer : métamoteur de différents services de questions/réponses : sqrpro.fr• Rue des facs : http://www.ruedesfacs.fr/

25 établissements documentaires d’Ile-de-France ; accès par disciplinedestiné en priorité aux étudiants et aux enseignants-chercheursarchives sélectionnées

• SINDBAD : http://www.bnf.fr/fr/collections_et_services/poser_une_question_a_bibliothecaire/s.sindbad_votre_question.html

service de la BnFarchives sélectionnées

• BiblioSésame : http://www.bibliosesame.org réseau d’une vingtaine de bibliothèques publiques, lancé par la BPIarchives

• Guichet du savoir : http://www.guichetdusavoir.org/ service de la bibliothèque municipale de Lyon

• forums et listes de discussion• Ex. : Ask community : http://www.ask.com/answers/browse/home?qsrc=360

• réseaux sociaux • Ex. : Quora : http://www.quora.com/

Page 115: Recherche d'informations sur internet

Les droits

• ! question des droits d’auteur• les licences Creative Commons

• CC search : http://search.creativecommons.org/recherche sur Google, Flickr, YouTube… ; vérifier cependant pour chaque document

« L

icence

Cre

ati

ve C

om

ons 

». W

ikip

éd

ia. 1

8/0

3/2

01

2

Page 116: Recherche d'informations sur internet

La navigation

• navigation sur internet = enregistrement possible de l’adresse IP, de l’historique, des cookies…

• avoir de bonnes pratiques• Google : prend en compte les pages indexées, mais aussi le lieu, l’historique

de recherche, l’activité d’autres usagers et Google + ne pas effectuer de recherche en étant connecté sur un service Google (Gmail,

YouTube…) détruire l’historique et les personnalisations : aide, notamment via Google history

• avoir une bonne gestion de son navigateur nettoyer régulièrement l’historique de navigation, le cache et les cookies utiliser des navigations en mode privé

• naviguer anonymementlimites : plus de suggestions orthographiques

ou en fonction de l’historique de navigation• DuckDuckGo : http://duckduckgo.com/?t• Ixquick : https://eu.ixquick.com/

pas d’enregistrement des adresses IP et des cookies d’identificationpossibilité de visiter des sites tiers via Ixquick

+ dossier Comment ça marche, 15/08/2011

Page 117: Recherche d'informations sur internet

Les extensions de navigateur

• insertion du moteur de recherche dans la barre du navigateur• analyse de la recherche

• Search cloudlet : nuage de tags sur la page de résultats

• Better search

• Clear Forest Gnosis : repérage d’entités nommées

• Fast search by Surf Canyon : réorganisation des résultats

• capture de pages• ScrapBook, Screengrab

• gestion des favoris en ligne• Delicious

• Diigo

• Zotero

• sécurité • AdBlockPlus : stop pub

• Better Privacy : suppression des cookies

• Disconnet , DoNoTrackMe : navigation anonyme

• WOT : évaluation des sites

Ex. Christophe Deschamps

Page 118: Recherche d'informations sur internet

Moteurs personnalisables

• traduction• Google traduction : http://translate.google.fr/

• moteurs de recherche personnalisables• Google recherche personnalisée : http://www.google.com/cse/ • Eurekster Swicki : http://www.eurekster.com

Page 119: Recherche d'informations sur internet

Veille automatisée

Page 120: Recherche d'informations sur internet

Outils de veille• newsletters et lettres d’informations

• Ezine Directory : http://www.ezine-dir.com/répertoire de newsletters

• voir également sur les sites concernés (sites, blogs…)

• alertes sur la recherche• Google alertes : https://www.google.com/alerts#1:0

paramétrage de la fréquence et du volume d’envoi et des sourcespossibilité de s’abonner à des alertes en plusieurs languesavec un compte Google : possibilité de recevoir les alertes via RSS- nombreux dysfonctionnements

• voir également : autres moteurs de recherche directement sur les ressources concernées (bases de

données, catalogues…) outils de veille en ligne

• agents de surveillance : modification de pages…• extensions de navigateurs : ex. : Update scanner• outils internet : généralistes : ex. : Diphur : https://diphur.com/intro...• services professionnels : ex. : WebSite Watcher : http://www.website-watcher.fr/,

KB Crawl : http://www.kbcrawl.net/…• outils pour les médias sociaux : Bringr : http://www.bringr.net/, Mention :

https://fr.mention.com/

Page 121: Recherche d'informations sur internet

Les flux RSS

Page 122: Recherche d'informations sur internet

Les flux RSS

• suivi de l’actualité

• veillenouvelles publications

bases de données bibliographiquesEx. Gallica

Ex. citeulike

Ex. Le Figaro Ex. le blog de B. Foenix-Riou

Ex.

Cairn

Page 123: Recherche d'informations sur internet

Exercices de synthèse

Page 124: Recherche d'informations sur internet

Bibliographie

Page 125: Recherche d'informations sur internet

Pour commencer Marie-France Andral. Recherche documentaire et recherche d’information. URFIST de Bordeaux, 2013. [en

ligne]. Disponible sur : http://weburfist.univ-bordeaux.fr/wp-content/uploads/2013/02/2013.02.18-Recherche-doc-info2.pdf.

Béatrice Foenix-Riou. Recherche éveillée sur internet : mode d’emploi. 12/2011. 40 p. [en ligne]. Disponible sur : http://fr.slideshare.net/bfoenix/recherche-eveille-bfr.

---. Recherche éveillée sur Internet : mode d'emploi : outils et méthodes pour explorer le Web, Web visible, Web invisible, Web social, Web temps réel . Paris : Lavoisier : Bases publications, DL 2011. 367 p.

Marie-Laure Malingre et Alexandre Serres. Plus de 80 outils spécialisés pour différentes recherches sur le web. [en ligne]. Disponible sur : http://www.sites.univ-rennes2.fr/urfist/ressources/des-outils-specialises-pour-divers-types-de-recherches-sur-le-web.

---. Quels outils pour quelles recherches ? Panorama des outils de recherche du web. URFIST de Rennes, 13 /03/2012. Présentation, 88 f. [en ligne]. Disponible sur : http://fr.slideshare.net/UrfistRennes/quels-outils-pour-quelles-recherches-panorama-des-outils-du-web.

Véronique Mesguich et Armelle Thomas. Net recherche 2009 : le guide pratique pour mieux trouver l'information utile et surveiller le web. Préface d’Olivier Andrieu. 3e éd. refondue et mise à jour. Paris : ADBS éd., DL 2009. 320 p. (« Sciences et techniques de l’information ») et nouvelle édition : Net recherche 2013. Surveiller le web et trouver l’information utile. Préface d’Olivier Andrieu. 5e éd. refondue et mise à jour. Paris-Bruxelles : ADBS éd.-De Boeck, 2013. 263 p. (« Information et stratégie »).

Université européenne de Bretagne. Form@doct. Formation à distance en information documentation pour les doctorants. [en ligne]. Disponible sur : http://guides-formadoct.ueb.eu/.

Bibliographie

Page 126: Recherche d'informations sur internet

Pour aller plus loinGénéralités sur internet

Hans Dillaerts. « L’information scientifique et technique en libre accès : recherche et veille ». My Science Work. 05/09/2011. [en ligne]. Disponible sur : http://blog.mysciencework.com/2011/09/05/linformation-scientifique-et-technique-en-libre-acces-recherche-et-veille.html.

Internet World Stats. Usage and population statistics. [en ligne]. Disponible sur : http://www.internetworldstats.com/stats.htm.

StatCounter Global Stats. [en ligne]. Disponible sur : http://gs.statcounter.com/.

« Usages of content languages for websites ». W3Techs. [en ligne]. Disponible sur : http://w3techs.com/technologies/overview/content_language/all.

Méthodologie de recherche documentaireEduscol. Rechercher sur internet : méthodologie et outils. [en ligne]. Disponible sur :

http://eduscol.education.fr/dossier/competences/rechercher.

Victorine Porte. Méthodologie et astuces de recherche sur internet. 2010. [en ligne]. 31 p. Disponible sur : http://fr.slideshare.net/vporte/guide-rechercheenligne.

URFIST de Paris. CERISE. Conseils aux étudiants en recherche d’informations efficace. [en ligne]. Disponible sur : http://urfist.enc.sorbonne.fr/cerise/.

Dale Vidmar. « Tips to Effective Internet Searching ». Hannon Library. 2012. [en ligne]. Disponible sur : http://hanlib.sou.edu/searchtools/searchtips.html.

Bibliographie

Page 127: Recherche d'informations sur internet

Supports de formation généralistesManuel Durand-Barthez. Recherche d’information en sciences exactes et appliquées. 2014. Présentation. 47 f. [en ligne].

Disponible sur : http://fr.slideshare.net/mdbarthez/phys-k. Frédérique Flamerie. Recherche d’information bibliographique. UPMC. 2013. Présentation. 43 f. [en ligne]. Disponible sur :

http://fr.slideshare.net/BUPMCformD/doctorat-sciences-recherche-dinformation-mthode-sources-et-outils. Marie-Laure Malingre et Alexandre Serres. Outils de recherche et de veille sur l’actualité (news, médias sociaux...). URFIST Rennes,

14/10/2014. 108 f. [en ligne]. Disponible sur : http://fr.slideshare.net/UrfistRennes/stage-outils-rechercheactualit20121211. Hervé Le Men. Recherche d’information pour sa thèse à l’UBP et sur internet. 04/2011. Présentation. 46 f. [en ligne]. Disponible sur

: http://fr.slideshare.net/hervelemen/recherche-info-theseubo-7711630.Véronique Mesguich. Formation de formateurs « C2I métiers de l’ingénieur ». URFIST Paris. 07/2011. Présentation. 88 f.

Moteurs de rechercheHervé Basset. « Une veille professionnelle avec Google ????!!!!! ». Intelligence scientifique et veille. 03/01/2012. [en ligne].

Disponible sur : http://intelligencescientifique.wordpress.com/2012/01/03/une-veille-professionnelle-avec-google/. Aline Bouchard. Evolutions des moteurs de recherche sur internet. Présentation, 06/2014. 172 p. [en ligne]. Disponible sur :

http://fr.slideshare.net/URFISTParis/evolution-des-moteurs-de-recherche-sur-internet. Olivier Ertzscheid. « (My) state of search 2012 ». Affordance.info. 27/11/2012. [en ligne]. Disponible sur :

http://affordance.typepad.com/mon_weblog/2012/11/my-state-of-search-2012.htmBéatrice Foenix-Riou. Google : trucs et astuces pour les professionnels de l’infodoc. 01/2013. 35 p. [en ligne]. Disponible sur :

http://fr.slideshare.net/bfoenix/bfrabd-2013-google-trucs-et-astuces-pour-les-professionnels-de-linfodoc-16028591. --. Rechercher sur internet : y a-t-il une vie sans Google ? Présentation, 10/12/2013. 60 p. [en ligne]. Disponible sur :

http://fr.slideshare.net/bfoenix/recherches-sur-internet-y-atil-une-vie-sans-google-bfr-consultants. ---. « Retrouver des informations grâce aux images ». Netsources, n°97, 03-04/2012. p. 1-3.Hackcollege. Get more out of Google. Tips & tricks for students conducting online research. 23/11/2011. [en ligne]. Disponible sur :

http://www.hackcollege.com/blog/2011/11/23/infographic-get-more-out-of-google.html. « List of search engines». Wikipedia. [en ligne]. Disponible sur : http://en.wikipedia.org/wiki/List_of_search_engines. Cyril Labbe. « Ike Antkare one of the great stars in the scientific firmament ». Les rapports de recherche du LIG. 09/2008. 16 p.

Disponible sur : http://rr.liglab.fr/research_report/RR-LIG-008.pdf. Marie-Laure Malingre et Alexandre Serres. Connaître les moteurs de recherche de l’information scientifique. URFIST Rennes,

04/2012. Présentation, 60 f. [en ligne]. Disponible sur : http://fr.slideshare.net/UrfistRennes/les-moteurs-de-recherche-scientifique .

Carole Tisserand-Barthole. « Veille et recherche scientifique 2.0 : au-delà des ressources classiques ». Bases, n°206, 09/2012. p. 1-6.

Aurélie Vathonne. « Repérer les retombées presse d’une exposition grâce aux images ». Netsources, n°97, 03-04/2012. p. 4-5.

Bibliographie

Page 128: Recherche d'informations sur internet

Autres outils de rechercheBnF. Les signets de la Bibliothèque nationale de France. [en ligne]. Disponible sur : http://signets.bnf.fr.

Béatrice Foenix-Riou. « Identifier la date de publication d’une page ou d’un site web ». Netsources, n°99, 07-08/2012. p. 1-5.

« List of academic databases and search engines ». Wikipedia. [en ligne]. Disponible sur : http://en.wikipedia.org/wiki/Academic_databases_and_search_engines.

« List of digital library projects ». Wikipedia. [en ligne]. Disponible sur : http://en.wikipedia.org/wiki/List_of_digital_library_projects.

Magali Guibert. « Trucs et astuces pour optimiser sa recherche dans LinkedIn ». Netsources, n°101, 11-12/2012. p. 10-13.

Carole Tisserand-Barthole. « Revues et articles scientifiques en open access : où chercher ? ». Bases, n°304, 05/2013. p. 1-5.

--. « Thèses françaises en ligne : un joyeux bazar ». Bases, n°305, 06-2013. p. 1-5.

OutilsChristophe Deschamps. « Tableau comparatif de 23 services gratuits d'alertes email par mots-clés ». Outils froids.

17/04/2013. [en ligne]. Disponible sur : http://www.outilsfroids.net/news/tableau-comparatif-de-23-services-gratuits-d-alertes-email-par-mots-cles.

Frédéric Martinet. « Les systèmes de veille par alertes en questions ». Actulligence. 27/03/2014. [en ligne]. Disponible sur : http://www.actulligence.com/2014/03/27/les-systemes-de-veille-par-alertes-en-questions/.

« Surfer anonymement ». Comment ça marche. 15/08/2011. [en ligne]. Disponible sur : http://www.commentcamarche.net/faq/5351-surfer-anonymement.

Bibliographie

Page 129: Recherche d'informations sur internet

Olivier Andrieu. Abondance. [en ligne]. Disponible sur : http://www.abondance.com/ et notamment un blog : http://www.abondance.com/actualites/.

Bases. François Libman, dir. publ. Paris : Bases publications, 1985-.

Thomas Bertrand et Chris Hede. Moteurzine. [en ligne]. Disponible sur : http://www.moteurzine.com.

Karen Blakeman. Karen Blakeman’s blog. [en ligne]. Disponible sur : http://www.rba.co.uk/wordpress/.

Phil Bradley. Phil Bradley’s weblog. [en ligne]. Disponible sur : http://philbradley.typepad.com/.

Wendy Boswell. About.com Web search. [en ligne]. Disponible sur : http://websearch.about.com/.

Centre de documentation et d’information interuniversitaire en sciences sociales et Infopro. EchosDoc. [en ligne]. Disponible sur : http://www.echosdoc.net.

Christophe Deschamps. Outils froids. [en ligne]. Disponible sur : http://www.outilsfroids.net/.

Olivier Duffez. WebRankInfo. [en ligne]. Disponible sur : http://www.webrankinfo.com/ et forum : http://forum.webrankinfo.com/.

Béatrice Foenix-Riou. Le blog de recherche-eveillee.com. [en ligne]. Disponible sur : http://www.recherche-eveillee.com/blog-recherche-eveillee.

Gwen Harris. Web search guide and internet news. [en ligne]. Disponible sur : http://www.websearchguide.ca/netblog/.

Les infostratèges. Didier Frochot et Fabrice Molinaro, dir. publ. [en ligne]. Disponible sur : http://www.les-infostrateges.com/.

InternetActu. [en ligne]. Disponible sur : http://www.internetactu.net.

Le journal du net. [en ligne]. Disponible sur : http://www.journaldunet.com/.

Mashable. [en ligne]. Disponible sur : http://mashable.com/

Netsources. François Libman, dir. publ. Paris : Bases publications, 1996-.

Presse citron. [en ligne]. Disponible sur : http://www.presse-citron.net/.

Gary Price. Infodocket. [en ligne]. Disponible sur : http://www.infodocket.com/.

ReadWrite. [en ligne]. Disponible sur : http://readwrite.com/.

Research Buzz. [en ligne]. Disponible sur : http://researchbuzz.me/.

Search Engine Journal. [en ligne]. Disponible sur : http://www.searchenginejournal.com/.

Search Engine Land. [en ligne]. Disponible sur : http://searchengineland.com/.

Search Engine Watch. Jonathan Allen, dir. publ. [en ligne]. Disponible sur : http://searchenginewatch.com.

Techcrunch. [en ligne]. Disponible sur : http://techcrunch.com/. version européenne : http://techcrunch.com/europe/.

ZDNet. [en ligne]. Disponible sur : http://www.zdnet.fr/.

Marcus P. Zillman. Scholar Search Engine. [en ligne]. Disponible sur : http://www.scholarsearchengines.com/. nombreux white papers mis à jour régulièrement dont moteurs de recherche scientifiques, web invisible, recherche sociale…

Zorgloob. Compte Twitter. [en ligne]. Disponible sur : https://twitter.com/Zorgloob.

Suivre l’actualité de ces questions

Page 130: Recherche d'informations sur internet

Crédits photographiques

Toutes images : Norman Rockwell, tous droits réservésavec, par ordre d’apparition,

Mike Licht, Two bloggers after Norman Rockwell CC BY 2.0

Movie starlet and reporters - Saturday Evening Post, 7/03/1936

It’s income tax time again ! - Saturday Evening Post, 17/03/1945

Four sporting boys, oh yeah - Brown and Bigelow 1951 Four Seasons calendar, winter

Perpetual motion – Popular Science, 10/1920 The gossips - Saturday Evening Post, 6/03/1948

Boy with stereoscope - Saturday Evening Post, 14/01/1922

Watchmaker – Publicité pour les Watchmakers of Switzerland, 1950

Family tree - Saturday Evening Post, 24/10/1959

The art critic - Saturday Evening Post, 16/04/1955

Willie Gillis in college - Saturday Evening Post, 5/10/1946

Little boy writing a letter - Saturday Evening Post, 17/01/1920

Graduate - Saturday Evening Post, 6/06/1959

Double take - Saturday Evening Post, 1er/03/1941