33
Internet : la mémoire courte ? Capture de sites Web en ligne Conférence B.N.F, Avril 2004 Xavier Roche(HTTrack) http://www.httrack.com

Capture de sites Web en ligne

Embed Size (px)

DESCRIPTION

Capture de sites Web en ligne. Conférence B.N.F, Avril 2004 Xavier Roche(HTTrack). http://www.httrack.com. Pourquoi copier des sites web?. Archivage pour conservation et/ou historisation Archivage pour raisons légales Miroirs de sites pour des raisons de redondance - PowerPoint PPT Presentation

Citation preview

Internet : la mémoire courte ?

Capture de sites Web en ligne

Conférence B.N.F, Avril 2004Xavier Roche(HTTrack)

http://www.httrack.com

Internet : la mémoire courte ? 2

Pourquoi copier des sites web?

• Archivage pour conservation et/ou historisation

• Archivage pour raisons légales

• Miroirs de sites pour des raisons de redondance

• Copies pour une mise à disposition non connectée

• Copies par des particuliers (copie privée)

• Agents intelligents, stress de réseaux, validation de liens cassés ou des liens externes, plan du site…

Internet : la mémoire courte ? 3

Le « Web », qu’est-ce que c’est ?Internet

WWW

HTTP

https:

HTTPS

news:

FTP

mailto:

Email

ftp:News

Ressources locales (fichiers)

http:

file:

Fichiers

Internet : la mémoire courte ? 4

Un « serveur Web », qu’est-ce que c’est?

Fichiers, archives

Base de données

Traitements

Éléments extérieurs(capteurs, etc.)

Serveur Web

Contenus Requêtes

et contenus

Client

Internet : la mémoire courte ? 5

Le serveur web: un « livreur » de contenus

Fichiers, archives

Base de données

Traitements

Éléments extérieurs(capteurs, etc.)

Serveur Web

Contenus Requêtes

et contenus

Client « Page Web»

table_001

template.php

Internet : la mémoire courte ? 6

Les documents hypertexte

Internet : la mémoire courte ? 7

Les liens hypertexte

Internet : la mémoire courte ? 8

Copie locale d’un « site Web» ?

Internet : la mémoire courte ? 9

Ressources locales (fichiers)

Copie locale d’un « site Web»

template.php

template2.php

table_001

table_002

Serveur Web

disque local

Internet : la mémoire courte ? 10

Le « nommage » local des fichiers en ligne copiés

Internet : la mémoire courte ? 11

Nommage des fichiers copiés- Exemple: fichier html

Windows

Linux/Unix

Internet : la mémoire courte ? 12

Nommage : restrictions- Nommage des fichiers comportant des « caractères spéciaux »

Internet : la mémoire courte ? 13

Nommage : duplications- Duplication de noms

+

Internet : la mémoire courte ? 14

Nommage : solutions- Résoudre les collisions

+

+

Internet : la mémoire courte ? 15

Modification des liens hypertexte

Internet : la mémoire courte ? 16

Les problèmes apparaissent!

Internet : la mémoire courte ? 17

Les problèmes apparaissent!- Les liens:• <a href= 'page 2.html'>• <a href= "page%202.html">• <a href= page%202.html>• <a href= "page 2

.html">• <a href= "http:page 2.html">• <a href= "//www.example.com/page 2.html">• <a href= "page&nbsp;2.html">• <a href <a href= "page2.html">>

Internet : la mémoire courte ? 18

Les problèmes apparaissent!- Les formulaires:

Internet : la mémoire courte ? 19

Les problèmes apparaissent!- Les formulaires (suite) :

Internet : la mémoire courte ? 20

Les problèmes apparaissent!- Javascript :

Internet : la mémoire courte ? 21

Les problèmes apparaissent!- Java :

Internet : la mémoire courte ? 22

Les problèmes apparaissent!- Flash :

Internet : la mémoire courte ? 23

Les problèmes apparaissent!- Fichiers hypertextes vs binaires (Java/Flash) :

un fichier html

un fichier « flash »

Internet : la mémoire courte ? 24

Les problèmes apparaissent!- « Horodatage » intégré aux liens hypertextehttp://www.example.com/page2.html?t=19993112235959999

- Liens multiples vers un seul documenthttp://www.example.com/forum/article.php?id=1234

http://www.example.com/forum/article.php?id=1233&next

http://www.example.com/forum/article.php?id=5678&previous

http://www.example.com/forum/article.php?id=6548&previous10

http://www.example.com/forum/article.php?id=879&next10

...

- Etc etc etc

Internet : la mémoire courte ? 25

Aperçu de quelques autres problèmes

• Taille limite des fichiers• Gestion des erreurs, des liens cassés• Sites protégés par mot de passe• Sites utilisant des « cookies » / des sessions• Fichiers locaux « Intranet » (file://)• Sites sécurisés (HTTPS)• Sites ftp• Sites accessibles via Ipv6 uniquement (recherche, universités)

Internet : la mémoire courte ? 26

Mise à jour ?

Internet : la mémoire courte ? 27

Mise à jour ?

Document capturé le 15/01/2004 à 17h32

Une version plus récente est-elle disponible aujourd’hui ?

• Économie de bande passante

• Économie de temps

• Économie d’espace de stockage

Internet : la mémoire courte ? 28

Mise à jour « incrémentale » (1)

document mis à jour depuis le 15/01/2004 à 17h32?

interrogation du système de fichiers

oui, nouveau document disponible

Internet : la mémoire courte ? 29

Mise à jour « incrémentale » (2)

le document « 098f6bcd4621d373cade4e832627b4f6 » est il périmé ?

interrogation de la base de donnée

oui, je vous transmet le document « ad0234829205b9033196ba818f7a872b»

Internet : la mémoire courte ? 30

Les précautions à prendre lors de la capture d’un site

Internet : la mémoire courte ? 31

Les précautions à prendre : surcharge du site

• Limiter la bande passante et le nombre de connexions simultanées!

Internet : la mémoire courte ? 32

Les précautions à prendre : aspects légaux ?

• Copie privée / publique ?• Protection du site ? (loi n°95-597 du 1er

juillet 1992 , art l 353-3 du CPI)• Statut d’un aspirateur de sites Web ?

Navigateur? Robot? Proxy-cache?

Internet : la mémoire courte ? 33

Conclusion

• …