43
Recherches sur Internet: méthode et astuces http://www.destin.be/solutions/search.fr.shtml Présentation au REWICS par Christophe Dupriez, Développement de Systèmes de Traitement de l’INformation http://www.destin.be 19 mars 2007

Recherches sur Internet: méthode et astuces Présentation

Embed Size (px)

Citation preview

Page 1: Recherches sur Internet: méthode et astuces   Présentation

Recherches sur Internet:méthode et astuceshttp://www.destin.be/solutions/search.fr.shtml

Présentation au REWICS

par Christophe Dupriez, Développement de Systèmes de Traitement de l’INformation http://www.destin.be

19 mars 2007

Page 2: Recherches sur Internet: méthode et astuces   Présentation

Recherchessur Internet

Mise en situation Moteur de Recherche Google Méthode : Recherche spécifique ou

recherche par sujet ? Astuces : Recherche de codes, lieux,

organismes, personnes, concepts, sources, dates, nombres, etc.

Pour aller plus loin…

Page 3: Recherches sur Internet: méthode et astuces   Présentation

Mise en situation

Pourquoi cherche-t-on ? Chercher soi-même ou déléguer ? Comment font les autres ? Ne pas se perdre en chemin…

Page 4: Recherches sur Internet: méthode et astuces   Présentation

Pourquoi cherche-t-on ?

Parce qu’on en retire un bénéfice… C’est une action qui apportera ce

bénéfice. Action qui a des coûts en temps, en efforts, en argent…

Pour décider de l’action appropriée, il faut obtenir des informations.

Les informations ont comme valeur, le bénéfice des actions qu’elles permettent. Les investissements en recherche doivent

rester inférieurs à ce bénéfice !

Page 5: Recherches sur Internet: méthode et astuces   Présentation

Chercher soi-même ou déléguer?

1. Auto-formation: Cycle de rétroaction court (trop court?)

2. Accompagnement (binôme): Expliquer ses idées à l’autre, c’est déjà les

formaliser… Complémentarité des expériences et des

connaissances terminologiques Second regard d’un autre sur sa démarche

(acteur/spectateur) Nécessité d’une méthodologie

3. Délégation: Exprimer son besoin (« cahier des charges ») Evaluer le résultat Cycle de rétroaction long (trop long?)

Page 6: Recherches sur Internet: méthode et astuces   Présentation

Un exemple de délégation: http://www.guichetdusavoir.org/GdS/

Page 7: Recherches sur Internet: méthode et astuces   Présentation

Comment font les autres ? http://www.harvestdigital.com/fact_sheets.cfm

94% utilisent Google 47% passent plus de 3 heures/semaine

rien qu'en recherches 68% expriment leur recherche en utilisant

3 mots ou plus 36% imputent leurs échecs à des mots mal choisis,

32% les imputent à une demande trop spécialisée, 8% pensent que cela peut être dû au moteur de recherche.

24% des internautes n'apprécient pas la présence de liens sponsorisés.

Pour sélectionner un lien dans le résultat:43% ne regardent que la première page de résultats32% choisissent en fonction du résumé associé au lien17% ne regardent que les quelques premiers liens 8% tiennent surtout compte de la réputation du site lié

Pour améliorer les résultats :50% demandent plus d'entraînement et d'expérience, 9% utiliseraient plusieurs moteurs, 5% voudraient de meilleurs moteurs.

Page 8: Recherches sur Internet: méthode et astuces   Présentation

Ne pas se perdre en chemin…

L’éparpillement nous guette:il y a tant de problèmes et tant de solutions, juste à portée de souris…

Notre mémoire ne peut pas faire face à la masse d’informations. Il faut l’aider: Crayon et carnet pour noter un mot ou l'autre, faire

des schémas… Outil de marquage, de classement et

d’enregistrement des pages visitées: Personnel:

http://amb.vis.ne.jp/mozilla/scrapbook/ http://www.netsnippets.com

Partagé: http://del.icio.us Une méthode pour toujours savoir ce qu’on fait

« ensuite », pour nous accompagner jusqu’à la communication de nos résultats de recherche.

Page 9: Recherches sur Internet: méthode et astuces   Présentation

Onglets dans Firefox et IE 7

~queryexpansionterminology ~management "database search" OR"internet search"

Page 10: Recherches sur Internet: méthode et astuces   Présentation

Les Moteurs de Recherche

En gros, comment ça marche ? Des idées aux mots, des mots aux

idées… Ce qui n’est pas indexé n’est pas

trouvé… Ce qui est caché non plus! Le moteur de recherche Google

Page 11: Recherches sur Internet: méthode et astuces   Présentation

En gros, comment ça marche?

Auteurs

Documents

Index

Expression de recherche

Indexation ("spider")

Moteur de Recherche

Idées

mots mots

URLs des documents

trouvés

Idées Internautes

Google : 400.000 ordinateurs

Page 12: Recherches sur Internet: méthode et astuces   Présentation

L’Auteur a des idées qu’il transcrit par des enchaînements de mots dans un ou plusieurs documents inter-reliés.Les documents sont relativement statiques: ils contiennent, en

quelque sorte, des réponses préparées à l'avance pour des questions qui ne sont pas toujours formulées.

L’Internaute a des besoins mais ce qu'il cherche ce sont des solutions…« Quels sont les mots que les auteurs ont bien pu utiliser

pour décrire des réponses à mes questions,des solutions à mes besoins ? »

Les idées de l'auteur et les besoins de l'internaute sont séparés par:

1. Le vocabulaire et la langue de l'auteur,2. Les hypothèses, les axes de solution à ses

besoins que l'internaute est capable d'imaginer,3. La langue et le vocabulaire de l'internaute.

Comment gérer cette fracture entre les auteurs et les internautes ?

Des idées aux mots,des mots aux idées…

Page 13: Recherches sur Internet: méthode et astuces   Présentation

Ce qui n’est pas indexéne peut pas être trouvé…

Dans le Web « invisible », on (ne) trouve (pas): ce qui n'est pas écrit (images, sons…), un serveur inaccessible de l’Internet, un serveur inconnu de Google, ce qui n'est pas lié au document « racine » d’un

serveur, en un nombre limité d’étapes (ou directement par un document extérieur),

ce qui est produit dynamiquement en réponse à des données soumises au moyen d’un formulaire,

ce qui n’est pas accessible gratuitement,

ce qui est « non grata » pour le service d’indexation et de recherche (censure de certains sujets en Chine, journaux francophones belges…)

Ce qui est caché non plus !

Page 14: Recherches sur Internet: méthode et astuces   Présentation

www.google.com La documentation de Google sur son interprétation des requêtes est

pour le moins spartiate. L’évolution du fonctionnement observé montre que ceci est sans doute à dessein pour garder une liberté de changement maximale.

GoogleGuide.com donne un très bon inventaire des possibilités avec différents exemples : http://www.googleguide.com/advanced_operators_reference.html

On évoquera ici: Qu’est ce qu’un « mot » ? Formulation d’un mot à chercher Chercher une suite de mots Opérateurs logiques (booléens) Langue de l’utilisateur Localisation de l’Internaute Tri du résultat Algorithme PageRank La « valeur » d’un mot Limites de Google

Page 15: Recherches sur Internet: méthode et astuces   Présentation

Qu’est ce qu’un mot ?

Une suite continue d’au plus 128 lettres OU chiffres OU « _ » (souligné), sans aucun caractère de ponctuation, espace ou balise <HTML>

Les lettres peuvent être dans différents alphabets (russe, grec, chinois, etc.)

H2O est donc cherché comme un seul mot: Google ne trouve alors pas les documents avec H 2 O ou H2O dans leur texte (l’indice est marqué par une balise <html>).

Pour trouver ceux-ci, il faut demander "H 2 O" ou mieux H-2-O qui fonctionne aussi pour les mots de plus d’une lettre (comme dans H-2-SO-3).

Page 16: Recherches sur Internet: méthode et astuces   Présentation

Formulation d’un mot à chercher

mot : Un mot et ses variantes singulier/pluriel - masculin/féminin – avec/sans accents. Par exemple chevaux d’arçon retrouve cheval d’arçon: cet algorithme fonctionne en français, en anglais mais mal en néerlandais. Attention : la variante que vous spécifiez est favorisée dans le tri des documents présentés (y compris l’accentuation).

~mot : Un mot et ses synonymes. Fonctionne avec un dictionnaire anglais même sur les recherches en français et néerlandais !Essayer ~automobile -automobile pour voir les mots trouvés en dehors du terme strict automobile. ~arabic retourne Egypt, Lebanon, Arab et … Hindu ! Permet de mieux cibler le genre de résultat désiré. Par exemple:~definition, ~comparaison, ~problem

"mot" : Un mot exact sans variantes. Google ne tient pas compte de l’accentuation pour la recherche mais favorise la forme spécifiée lors du tri des documents présentés.

+mot : chercher ce mot même si c'est un mot vide dans la langue de l'utilisateur ( +de en français par exemple) et le chercher en tenant compte des accents ( +dés par exemple). Un « + » est assumé si un seul mot est cherché : thé seul agit comme si on avait tapé +thé.(Cette forme a donc une signification très différente de celle de Altavista où le "+" indiquait des mots obligatoires)

Lors du tri des documents, Google donne une certaine préférence à la forme tapée : l’opérateur « + » n’a donc plus beaucoup d’intérêt.

Page 17: Recherches sur Internet: méthode et astuces   Présentation

Chercherune suite de mots

"mot1 mot2 … motn" : une suite de mots spécifiques, une expression * : une étoile dans une suite de mots entre guillemets (et seulement

là) peut être mise à la place de quelques mots complets qu'on ne désire pas spécifier. Par exemple : "ministère du * et du commerce"

chiffres1-chiffres2-…-chiffresn : équivaut à "chiffres1 chiffres2 … chiffresn"

lettres1-lettres2-lettresn: chercher un terme composé de plusieurs mots, qu'il soit écrit avec des tirets, des espaces ou même sans espace du tout:gratte-ciel trouve gratte ciel, gratte-ciel et gratteciel .gratte-ciel ne signifie pas du tout la même chose que gratte -ciel (voir l'opérateur logique " -").Attention: ceci ne fonctionne bien qu'avec des mots et pas avec des nombres.

ca-va-seul fonctionne maintenant et montre l’utilité de ce type de recherche pour chercher des marques de commerce aux frontières de mots pas toujours constantes.

354-1096 ne trouve plus 3541096. intitle:"mot … mot" : une suite de mots spécifiquement dans le titre du

document (balise <title>…</title> ou première balise <h1>…</h1>)

Page 18: Recherches sur Internet: méthode et astuces   Présentation

Opérateurs logiques (booléens)

espace : les documents doivent contenir ce qui est à droite ET ce qui est à gauche.

OR ou | : les documents peuvent contenir ce qui est à droite OU ce qui est à gauche.Attention : OR doit être écrit en majuscules !

espace- (signe moins précédé d’un espace) : exclure les documents contenant le mot qui suit (SAUF) Peut exclure beaucoup plus que ce qui est désiré. (mot -motIdentifiantUnContexte) : Une variante de

signification peut être supprimée en excluant un contexte où elle apparaît. Par exemple:baleine –parapluie ou encore pied –va-nu-pied

( … ) : sous-expression à évaluer avant de faire les opérations avoisinantes

Page 19: Recherches sur Internet: méthode et astuces   Présentation

Google trie en favorisant la langue de l’utilisateur:http://www.google.com/language_tools?hl=fr

Il est essentiel de faire ses recherches en changeant sa langue d'utilisateur en fonction de la langue des mots cherchés:

1. Tri des résultats qui favorise cette langue2. Algorithme adéquat pour rendre équivalents le

singulier et le pluriel, le féminin et le masculin (le néerlandais n’est pas bien traité).

3. Utilisation (peut-être un jour) du bon dictionnaire de synonymes

Page 20: Recherches sur Internet: méthode et astuces   Présentation

Localisation de l’internaute:http://www.google.com/language_tools?hl=fr

Il est réellement important de choisir la « localisation » de ses recherches car le tri favorise les pages “proches” de cette localisation.

Page 21: Recherches sur Internet: méthode et astuces   Présentation

Google.be/search?q=python

Google.fr/search?...

&hl=en &hl=fr &hl=fr

Page 22: Recherches sur Internet: méthode et astuces   Présentation

Tri du résultatLa qualité de Google vient de sa capacité à montrer en premier les pages jugées les

plus pertinentes en général et les plus pertinentes à une recherche en particulier. Google trie les documents trouvés en fonction:

1. de mesures de qualité du site en général et aussi de chacune des pages (cohérence des méta-informations avec le texte visible de la page par exemple). Ces mesures ne sont pas ou peu documentées.

2. une mesure du poids de chacune des pages indexées (algorithme PageRanks) 3. d'un calcul de la pertinence de la page vis-à-vis de la recherche effectuée. Ceci

se fait en tenant compte:1. de la présence dans la page (ou dans les liens vers cette page) des

mots de la recherche (éventuellement élargis à leurs synonymes ou à leurs variantes singulier/pluriel)

2. de l'emplacement de ces mots dans la page (intitle:titre,méta-données, texte, inanchor:liens vers cette page)

3. pour chaque mot, de son poids “informationnel”

4. de la distance dans la page entre les mots cherchés: plus ils sont proches l'un de l'autre, plus la page est jugée pertinente vis-à-vis de la recherche effectuée.

4. de la langue de l'utilisateur qui devrait être aussi celle des mots cherchés : Pour changer la langue de l'utilisateur selon la langue des mots chercher, il faut modifier « à la main » l'URL de Google http://www.google.be/search?hl=fr&q=...en changeant &hl=xx (xx étant le code en deux lettres de la langue désirée).

5. du pays indiqué par l’URL d’accès à Google :google.be accorde une nette préférence aux sites belges, google.fr aux sites français, google.com aux sites américains et google.co.uk aux sites anglais…

Page 23: Recherches sur Internet: méthode et astuces   Présentation

Algorithme PageRank:un star system…

Favoriser les pages jugées les plus pertinentes en général, les vedettes :

Pages les plus référencées par des pages elles-mêmes très référencées

Cherchez-vous réellement à ne lire que des documents vedettes ?

Cité de Google:We assume page A has pages T1...Tn which point to it (i.e., are citations).The parameter d is a damping factor which can be set between 0 and 1. We

usually set d to 0.85.C(A) is defined as the number of links going out of page A.The PageRank PR(A) of a page A is given as follows:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) Note that the PageRanks form a probability distribution over web pages, so the

sum of all web pages' PageRanks will be one.PageRank can be calculated using a simple iterative algorithm, and corresponds

to the principal eigenvector of the normalized link matrix of the web. Voir aussi: http://pr.efactory.de/

Page 24: Recherches sur Internet: méthode et astuces   Présentation

Limites de Google

Les requêtes sont limitées à 32 mots. Les mots sont limités à 128 caractères. Seuls les 1000 premiers résultats pertinents pour

une requête sont accessibles, et ce même si les correspondances sont plus nombreuses. Les résultats peuvent même parfois être moins de 1000 en raison de la suppression des pages provenant d’un même site.

D’après Google, obtenir plus de 1000 résultats entraînerait une lourde charge supplémentaire pour une demande finalement assez rare.

On nous dit que le tri assure que les références les plus utiles sont en premier. Effectivement, le tri se fait sur les 1000 résultats (et peut donc être très sophistiqué), mais comment se fait la sélection préalable ?

Page 25: Recherches sur Internet: méthode et astuces   Présentation

Méthode : Recherche spécifiqueou Recherche par sujet ?

Quand on connaît un titre, un nom, un code, une date, un numéro,on cherche quelque chose de spécifique, on rencontre alors principalement des problèmes lexicaux traités plus loin (Astuces).

Quand on cherche sur des thèmes, des sujets, on rencontre les différences de terminologie entre auteurs et internautes. La méthode qui suit prend alors tout son sens.

Page 26: Recherches sur Internet: méthode et astuces   Présentation

Stratégie: Identifier les outils et les sujetspour sa Recherche

1. Rédiger une expression de son besoin (Quoi? Pour quoi? Qui? Pour qui? Comment? Où? Quand?)

2. Rassembler quelques documents qui parlent de son besoin et qui évoquent des axes de solution. S’imprégner des principaux concepts du domaine.

3. Rédiger une expression du sujet de la recherche pour chaque axe de solution possible.

4. Pour chaque langue que l'on comprend, indépendamment, choisir de bons mots clés.

5. Identifier des sources adéquates: auteurs, institutions, entreprises, banques de données ou sites spécialistes du problème à résoudre (chercher à atteindre le Web invisible en utilisant les outils de recherche de sites spécialisés)

6. Trouver et classer les documents qui apportent l'un ou l'autre élément de réponse à son besoin.

Page 27: Recherches sur Internet: méthode et astuces   Présentation

La terminologie pour un sujet… Pour chaque concept à chercher, le choix des termes (un terme

étant formé d’un ou de plusieurs mots) est critique. On trouve assez facilement des documents avec les termes que l’on

utilise soi-même. Le défi est de trouver ceux avec les termes que d'autres utilisent pour le même concept:

Variantes orthographiques, Synonymes, Abréviations, Spécifiques ou Génériques, Changement du nom à travers l'histoire ou selon les auteurs

(écoles de pensée), Traductions dans d’autres langues que l’on comprend.

On s’aidera de glossaires, de dictionnaires, de textes explicatifs, etc.: http://atilf.atilf.fr/dendien/scripts/tlfiv4/showps.exe?

p=combi.htm;java=no; (Trésor de la Langue Française) http://dico.isc.cnrs.fr/dico_html/ (français et anglais) http://wordnet.princeton.edu/ (anglais) http://thesaurus.reference.com/ (anglais) http://www.systransoft.com (traductions)

Il serait tellement pratique d’être assisté par des dictionnaires automatiques dans la rédaction de ses requêtes… Google ne fonctionne que pour l’anglais, sans contrôle, et de manière insatisfaisante…

Page 28: Recherches sur Internet: méthode et astuces   Présentation

Rédiger sa requête au Moteur de recherche1. Identifier les différents concepts qui entrent dans

l'expression du sujet de la recherche: Par exemple: durée du congé de maternité

2. Exhaustivité: Pour chacun de ces concepts, rassembler un maximum de manière de l'exprimer et faire un OU (union) entre chaque mot: durée | longueur | semaines | mois Avec Google (en anglais jusqu’à présent), on peut utiliser le tilde

avant un mot pour qu'il mette lui-même des synonymes de ce mot: ~duration | length | weeks | months

Si l’expression qui exprime un concept est composée de plusieurs mots, il faut réunir ceux-ci par des guillemets ("congé de maternité") sans quoi on recevra aussi les pages où ces mots ne sont pas consécutifs.

3. Précision: Mettre ces expressions de recherche d'un concept côte à côte pour obtenir seulement les documents qui possèdent cette combinaison de concepts (ET implicite entre les groupes)

( durée | longueur | semaines | mois ) ( congé | pause | vacances ) ( maternité | accouchement | naissance )

Bémol: Le tri de Google semble donner la préférence aux documents qui mentionnent plusieurs des termes réunis par un OU (OR)

Page 29: Recherches sur Internet: méthode et astuces   Présentation

Élargir avec variantes et synonymes,Restreindre en combinant les concepts

CongéOR Pause OR Vacances

(congé OR pause OR vacances)1

(maternité OR accouchement OR naissance)2

1 2

Page 30: Recherches sur Internet: méthode et astuces   Présentation

Google: 1 750 000 pages en France

(durée | longueur|semaines | mois)

(congé | pause| vacances )

( maternité| accouchement| naissance )

Page 31: Recherches sur Internet: méthode et astuces   Présentation

Niveau lexical: AstucesLa Tactique…

Noms: communs Lieux Organismes Personnes

Sources (sites Internet) Codes

Numéro de téléphone ISBN CAS

Nombres Dates

Page 32: Recherches sur Internet: méthode et astuces   Présentation

Noms communs

la frontière entre les mots: où commencent-ils, où finissent-ils ? pipe-line ou pipeline ? H2O ou H 2 O ?

l'allemand et le néerlandais permettent de réunir plusieurs mots en un seul: impossible de les trouver sans troncature à gauche…

les alphabets différents d'une langue à une autre: un même nom propre peut être orthographié différemment dans l'alphabet arabe, cyrillique ou japonais

les accents: "The" vs "thé", "de" vs "dé", "poisson sale" vs "poisson salé", etc.

Page 33: Recherches sur Internet: méthode et astuces   Présentation

Un lieu Terminologie: Identifier les synonymes, les

abréviations, les traductions et les spécifiques. Par exemple : Belgique|Bruxelles|Anvers|Gand|Liège|Namur

Les noms de lieux ont souvent des variantes selon la langue qui sert à les nommer Liège|Luik Moscou|Moscow|Москов Plusieurs langues admettent les déclinaisons qui font varier la fin d'un mot: l'opérateur de troncature * serait alors bien utile.

Quelles sont les exportations de la République de Macédoine ?~importation (république | republic)(macédoine | macédonien | macedonia | macedonian | makedonia | "F Y R O M")

Page 34: Recherches sur Internet: méthode et astuces   Présentation

Une organisation

Terminologie: il faut identifier: les synonymes, les sigles, les traductions, les entités englobantes ou les subdivisions, les changements de nom à travers l'histoire

(fusions) Il n'est pas nécessaire de faire "I B M" | IBM car Google le fait automatiquement pour les mots de une lettre.Il suffit de taper "I B M"

Page 35: Recherches sur Internet: méthode et astuces   Présentation

Une personne

Identifier : Abréviations, ordre/absence des prénoms, d'une initiale (anglo-saxons)

Chercher quelqu'un s'appelant "Prénom Initiale Nom":"Prénom I Nom" | "P I Nom" | "Nom Prénom I" | "Nom P I"

Google cherche alors automatiquement aussi bien "P I" que "PI". Si PI est un mot fréquent (et introduit donc du bruit dans la recherche), vous pouvez écrire:"Prénom I Nom" | "+P +I Nom" | "Nom Prénom I" | "Nom +P +I"

On peut aussi exiger une accentuation spécifique pour discriminer entre des textes de différentes langues: +mélanie par exemple ne trouve pas Melanie Griffith.

Page 36: Recherches sur Internet: méthode et astuces   Présentation

Source – Site Internet

Les sites Internet sont identifiés par un nom de domaine. Ce dernier va, de gauche à droite, du spécifique au générique, du nom d’un serveur (www) au code d’un pays (be) en passant par le nom de l’organisme.

Vous pouvez restreindre une recherche en indiquant site:domaine. Comme tous les niveaux de domaines sont permis, vous pouvez chercher, par exemple:

site:db.amazone.be pour les banques de données de l’ASBL Amazone

site:amazone.be pour tout le site de l’ASBL Amazone site:qc.ca pour un site québécois site:ca pour un site canadien site:ac.be pour un site académique belge site:co.uk pour un site commercial du Royaume Uni

Vous pouvez faire OR pour unir plusieurs domaines: site:co.uk | site:com | site:biz

pour exiger un site commercial

Page 37: Recherches sur Internet: méthode et astuces   Présentation

Numéro de téléphone

Le problème vient ici des nombreuses variations dans le regroupement des chiffres.

Google vient tout juste de changer: 354-1096 (tirets entourés de chiffres) équivaut maintenant seulement à "354 1096" et ne trouve plus 3541096.

Pour trouver tous les documents mettant en contact avec une grande firme à Bruxelles, on doit énumérer de nombreuses façons de l’écrire :"I B M" "02 225 3333" | "02 225 33 33"  | "2 225 3333" | "2 225 33 33"  | "022253333" | "22253333" Ce qui retrouve:

« Pour toute question générale sur IBM Belgium/Luxembourg, appelez le 02 225 33 33 »

« IBM - Bruxelles (HQ) Avenue du Bourget/Bourgetlaan, 42 B-1130 Bruxelles Tel: + 32 2 225 33 33 »

« Contact Info de contact générale +32-2-225-3333 »

Page 38: Recherches sur Internet: méthode et astuces   Présentation

Code ISBN

Identifie un livre Deux variantes à chercher:

1. Sans ponctuation mais avec chiffre preuve (10 chiffres)

2. Avec ponctuation mais sans chiffre-preuve (9 chiffres en 3 groupes).

Par exemple:2748900375 | 2-7489-0037

Génère souvent une proposition erronée:

Page 39: Recherches sur Internet: méthode et astuces   Présentation

Code CAS (Chemical Abstract Service Number)

Identifie un composé chimique Très discriminant: on peut souvent

omettre de spécifier « CAS » Par exemple:

"C A S 118 55 8" : 53 documents "C A S" 118-55-8 : 645 documents 118-55-8 : 741 documents

Page 40: Recherches sur Internet: méthode et astuces   Présentation

Nombres

Google est capable de chercher sur un intervalle de nombre. Mais ceux-ci doivent être dans la forme nord américaine (123 456.9999) et non pas européenne (123.456,9999) !

Ethnocentrisme patent mais Google évolue… A terme cet opérateur pourrait justement convertir les

références aux nombres en tenant compte des différentes conventions tant des internautes que des auteurs.

On peut chercher sur un intervalle noté minimum..maximum(minimum et maximum pouvant avoir des décimales).

On peut aussi écrire numrange:minimum-maximum (minimum ou maximum peut alors être omis pour indiquer un intervalle ouvert).

On ne peut pas chercher des nombres négatifs (commençant par un "-") !

Page 41: Recherches sur Internet: méthode et astuces   Présentation

Dates dans le texte

Grand nombre de variantes selon le pays, le contexte et la langue

Aucune aide dans les moteurs de recherche actuel

Par exemple:27-05-1958 | 1958-05-27| 27051958 | 19580527  | "27 mai 1958"| "may 27th 1958"| "may 27 1958" | "27 may 1958"  | "27 05 58" | "58 05 27"| 270558 | 580527

Page 42: Recherches sur Internet: méthode et astuces   Présentation

Date de modification du document

Google: Lors d'une recherche par dates, la date est celle de l'indexation dans la banque de données (i.e. la visite du « spider » Google) et non celle de la publication effective de la page (telle que fournie par le serveur http://) Dans le formulaire de recherche avancée, vous pouvez

faire une recherche sur les derniers 3, 6 et 12 mois. L’opérateur daterange:date julienne-date julienne

permet de spécifier un autre intervalle de dates. Une date julienne est le nombre de jours écoulés depuis le début de notre ère: le site http://www.numerical-recipes.com/julian.html peut vous aider à le calculer. Pas facile!

Les moteurs de recherche pourraient conserver comme « date de modification » la date de dernière visite du « spider » avec des changements significatifs dans le contenu de la page…

Page 43: Recherches sur Internet: méthode et astuces   Présentation

Pour aller plus loin…

http://www.destin.be/solutions/search.fr.shtml Aeris, Aide aux étudiants pour la recherche d'information

scientifique, Guillemette Lauters, 1999-2006, http://users.11vm-serv.net/aeris/

CERISE, Conseils aux Etudiants pour une Recherche d'Information Spécialisée Efficace, URFIST de Paris, 1999, http://www.ext.upmc.fr/urfist/cerise/index.htm

Infosphère, Apprendre à faire une recherche d'information efficace, Service des bibliothèques de l'UQAM, 2004, http://www.bibliotheques.uqam.ca/InfoSphere/

SAPRISTI, des Sentiers d'Accès et des Pistes de Recherche d'Information Scientifiques et Techniques sur Internet, Doc'INSA, INSA de Lyon, 1997-2004, http://docinsa.insa-lyon.fr/sapristi/

University of California Berkeley Library "Teaching Library Internet Workshops"http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/About.html