26
C. La numérisation des images et des textes 1. Les différents types de documents analogiques « visuels » à numériser Les documents analogiques « visuels » à numériser peuvent être très variés, la liste ci-dessous n'est sans doute pas exhaustive : documents A4 tableaux, tapisseries Affches Albums de photos Bandes dessinées Cartes Cartes postales Dessins techniques Diapositives 35 mm en couleurs et en noir et blanc Diapositives sur verre Épreuves photographiques en couleurs et en n&b Gravures Livres, cahiers, revues, journaux Microfches Négatifs en couleurs et en noir et blanc Pages de manuscrit Partitions musicales Tissus Transparents n&b et en couleur Ces documents très divers seront numérisés par des matériels très différents les uns des autres : scanners à plat scanners spécifques (de livres, de diapositives, ...) appareil photo numérique ... Les documents numériques résultants pourront parfois voir leur valeur ajoutée augmentée par des traitements informatiques adéquats : Reconnaissance optique de caractères (ROC ou OCR : Optical Character Recognition) Reconnaissance de forme Amélioration de la lisibilité du document (amélioration du contraste, suppression du bruit, « réparation » des images, etc.) segmentation sémantique (repérage automatique d'éléments sémantiquement signifants) hyperliens, dispositifs de navigation, ... 2. La numérisation d'objets 3D et/ou de grandes dimensions a. a. Production d'images 2D à l'aide d'un appareil photo numérique Production d'images 2D à l'aide d'un appareil photo numérique Dans de nombreux cas, il est pertinent d'utiliser un appareil photo numérique pour numériser des documents « visuels ». C'est particulièrement vrai quand : l'objet « possède une 3ème dimension », quand il est trop fragile (et notamment quand l'exposition à une lumière trop vive le détériorerait), quand il ne peut être déplacé, quand il est trop grand pour être numérisé autrement. quand il doit être numérisé rapidement C'est le cas dans la numérisation d'objets d'art de musées (poteries, sculptures, tapisseries, peintures, …) et d'articles d'architecture. La numérisation par prise de photo numérique ne s'improvise pas. Il faudra veiller : aux conditions d'éclairage, aux angles de prise, à la résolution des images. « Selon Gord Carter, le secret d’une image de qualité réside avant tout dans l’éclairage utilisé. Il recommande l’une ou l’autre source de lumière pour la numérisation : les petites lampes studio ou les petits fashs. Cependant, quelle que soit la méthode adoptée, le principal est d’avoir un niveau d’éclairage uniforme. En effet, le niveau et la distribution de la lumière importent plus que la source de lumière elle-même. Un logiciel comme Photoshop peut, dans la mesure où le sujet est bien éclairé, corriger la couleur en modifant le degré de saturation de l’image. » 65 65 http://www.chin.gc.ca/Francais/Contenu_Numerique/lere_de_la_numerisation.html (visité le 27/08/2009) Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 30/72

C. La numérisation des images et des textes

  • Upload
    dinhnhi

  • View
    225

  • Download
    1

Embed Size (px)

Citation preview

Page 1: C. La numérisation des images et des textes

C. La numérisation des images et des textes

1. Les différents types de documents analogiques « visuels » à numériser

Les documents analogiques « visuels » à numériser peuvent être très variés, la liste ci-dessous n'est sans doute pas exhaustive :

• documents A4 • tableaux, tapisseries• Affches• Albums de photos • Bandes dessinées• Cartes• Cartes postales• Dessins techniques• Diapositives 35 mm en couleurs et en noir et blanc • Diapositives sur verre

• Épreuves photographiques en couleurs et en n&b• Gravures• Livres, cahiers, revues, journaux• Microfches• Négatifs en couleurs et en noir et blanc• Pages de manuscrit• Partitions musicales• Tissus • Transparents• n&b et en couleur

Ces documents très divers seront numérisés par des matériels très différents les uns des autres :

• scanners à plat• scanners spécifques (de livres, de diapositives, ...)• appareil photo numérique• ...

Les documents numériques résultants pourront parfois voir leur valeur ajoutée augmentée par des traitements informatiques adéquats :

• Reconnaissance optique de caractères (ROC ou OCR : Optical Character Recognition)• Reconnaissance de forme• Amélioration de la lisibilité du document (amélioration du contraste, suppression du bruit, « réparation » des

images, etc.)• segmentation sémantique (repérage automatique d'éléments sémantiquement signifants)• hyperliens, dispositifs de navigation, ...

2. La numérisation d'objets 3D et/ou de grandes dimensions

a. a. Production d'images 2D à l'aide d'un appareil photo numérique Production d'images 2D à l'aide d'un appareil photo numérique

Dans de nombreux cas, il est pertinent d'utiliser un appareil photo numérique pour numériser des documents « visuels ».

C'est particulièrement vrai quand :

• l'objet « possède une 3ème dimension », • quand il est trop fragile (et notamment quand l'exposition à une lumière trop vive le détériorerait),• quand il ne peut être déplacé,• quand il est trop grand pour être numérisé autrement.• quand il doit être numérisé rapidement

C'est le cas dans la numérisation d'objets d'art de musées (poteries, sculptures, tapisseries, peintures, …) et d'articles d'architecture.

La numérisation par prise de photo numérique ne s'improvise pas. Il faudra veiller :

• aux conditions d'éclairage,• aux angles de prise,• à la résolution des images.

« Selon Gord Carter, le secret d’une image de qualité réside avant tout dans l’éclairage utilisé. Il recommande l’une ou l’autre source de lumière pour la numérisation : les petites lampes studio ou les petits fashs. Cependant, quelle que soit la méthode adoptée, le principal est d’avoir un niveau d’éclairage uniforme. En effet, le niveau et la distribution de la lumière importent plus que la source de lumière elle-même. Un logiciel comme Photoshop peut, dans la mesure où le sujet est bien éclairé, corriger la couleur en modifant le degré de saturation de l’image. »65

65 http://www.chin.gc.ca/Francais/Contenu_Numerique/lere_de_la_numerisation.html (visité le 27/08/2009)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 30/72

Page 2: C. La numérisation des images et des textes

Penser faire intervenir un photographe !

Dans certains cas, la numérisation s'effectuera par morceaux (très grande tapisserie par exemple). Il faudra le cas échéant :

• planifer les prises de vue, • prévoir avec précision :

• la position et l'angle de l'appareil photo,• les zones de recouvrement,• la cohérence en termes de lumière et d'exposition.

Des logiciels spécialisés pourront, à partir de multiples images fractionnaires, reconstituer une image complète.

Des tests devront être effectués pour vérifer la qualité de la numérisation effectuée (cf plus loin dans ce cours).

Exemple de numérisation par partie d'une image plane.

Numérisation de façon circulaireautour d'un objet en 3D

Dans certains cas, de la numérisation d'objets en 3 dimensions de l'extérieur (poterie) ou de l'intérieur (salle, ...) pourra résulter un document interactif dans lequel il est possible de faire des « explorations ». C'est le cas avec le Quicktime VR par exemple. Voici de très bons exemples de numérisations d'objets en 3D à VIAMUS66.

• Visite de salle67

• Numérisation d'une statue : exemple 168, exemple 269

b. b. Production directe d'objets 3DProduction directe d'objets 3D

La société américaine EMS70 diffuse des outils pour numériser directement en 3D (cf aussi la société Zcorp71). Ils sont beaucoup utilisés dans le prototypage rapide d'objets72. Il est désormais possible de numériser à l'aide de scanners « 3D » de plusieurs types :

• scanners 3D LASER tripod• scanners 3D LASER à main• scanners 3D à contact

Le format de données nécessité par les imprimantes 3D est le STL73. Un fchier numérique STL est donc le résultat de la numérisation des objets 3D. Cependant, on « numérise » souvent en 3D pour pouvoir reproduire des objets physiques en les « imprimant ».

66 http://viamus.uni-goettingen.de/fr/pages/ (visité le 19/07/2007)67 http://viamus.uni-goettingen.de/fr/sammlung/ab_rundgang/q/11 (visité le 19/07/2007)68 http://viamus.uni-goettingen.de/fr/sammlung/ab_rundgang/q/01/01 (visité le 19/07/2007)69 http://viamus.uni-goettingen.de/fr/sammlung/ab_rundgang/q/05/06 (visité le 19/07/2007)70 http://www.ems-usa.com/RE_services.html (visité le 19/07/2007)71 http://www.zcorp.com/Products/3D-Scanners/ZScannerandtrade-700/spage.aspx#imagesets (visité le 10/7/2008)72 http://en.wikipedia.org/wiki/Rapid_prototyping (visité le 19/07/2007)73 http://en.wikipedia.org/wiki/STL_%28fle_format%29 (visité le 19/07/2007)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 31/72

Page 3: C. La numérisation des images et des textes

c. c. La 3D devient réalisteLa 3D devient réaliste

I. I. LLAA RECONSTITUTIONRECONSTITUTION 3D 3D TENDTEND AUAU PHOTORÉALISMEPHOTORÉALISME

Veille (janvier 2009) : « La reconstitution 3D tend au photoréalisme - Un scanner mobile permet de reconstituer les lieux en volume avec une précision inégalée jusque-là. Première application : faire naviguer des enquêteurs dans cette scène virtuelle, sans les sortir de leurs bureaux.

Naviguer dans des immeubles, reconstituer des sites historiques, améliorer la réalité augmentée, les jeux vidéo etc. c'est ce que promet au système de numérisation 3D développé par des chercheurs néo-zélandais de la compagnie Industrial Research Limited (IRL) d'Auckland. En attendant, il va assister les experts en sciences judiciaires. Ceux-ci n'auront plus besoin de se rendre de multiples fois sur le lieu d'un crime pour le passer au peigne fn. Ils pourront le faire depuis leurs bureaux grâce au scanner mobile qui permet de "peindre" un modèle virtuel de la scène du crime. L'appareil est capable de capturer des structures 3D très complexes et cela, très rapidement. Filmée au millimètre près, la scène est ensuite informatisée en trois dimensions.

Scanner laser, caméras, GPS

Le dispositif complet couple le fameux scanner laser à des vidéo caméras numériques qui capturent des objets et des scènes de tailles variables (d'un à dix mètres) aussi bien à l'intérieur qu'à l'extérieur. Le scanner créé un modèle 3D de la scène sur lequel sont superposées les images prises par la caméra. Pour ce faire, l'appareil doit être géolocalisé par un système GPS. Des "satellites", placés sur trépieds autour de la scène, émettent des pulsations lasers. Ces dernières, détectées par des capteurs embarqués sur le scanner permettent au dispositif de calculer sa position par triangulation. Le système défnit alors lui-même ses cibles pour reconstruire une scène où toutes les données nécessaires seront représentées.

Un feedback en temps réel

"Au moins une vingtaine de balises laser sont nécessaires," indique au New Scientist Robert Valkenburg, le développeur de cette technologie, "plus il y a de balises, plus le modèle 3D sera détaillé."Au moment même où l'appareil est passé devant des objets, murs ou autres surfaces, ces derniers apparaissent automatiquement sur l'écran. Semblables, pour reprendre l'expression du chercheur, "à de petites touches de pinceau" qui dessinent la scène en 3D. De nombreux scanners sont déjà disponibles, "cependant aucun ne peut capturer des scènes avec autant de photo réalisme," remarque Valkenburg. Rien n'est laissé de côté : l'appareil se manœuvre aussi manuellement, de façon à l'orienter de manière optimale et à accéder à des surfaces diffciles d'accès. »74

II. II. L' «L' « IMPRESSIONIMPRESSION » » ENEN TROISTROIS DIMENSIONSDIMENSIONS

L' « impression » en trois dimensions se fait sur une imprimante « 3D » en solidifant couche après couche un matériau poudreux ou liquide75, tels que proposés par EMS76. Le résultat est un objet réalisé le plus souvent à base de polymères : voir l'exemple d'une pompe industrielle77, d'une turbine78 ou d'une moto79. Cet ensemble de technologies fait de réels progrès années après années et pourra sans doute être utilisé d'ici à quelques temps pour reproduire des statues, des objets antiques, etc.

Voir aussi la société Dynamic 3D80

N'oublions pas non plus les hologrammes numériques81 dont les progrès sont récents et très prometteurs82.

74 http://www.atelier.fr/usages/10/12012009/new-scientist-industrial-research-limited-scanner-3d-robert-valenburg-gps--37683-.html visité le 26/08/2009

75 http://www.ems-usa.com/Pdf/How_Does_it_Work.pdf (visité le 19/07/2007)76 http://www.ems-usa.com/ZCorp_products_main.html (visité le 19/07/2007)77 http://www.ems-usa.com/images/Z450/Z450_color_RC_engine_1.jpg (visité le 19/07/2007)78 http://www.ems-usa.com/images/Z450/Z450_color_fan_1.jpg (visité le 19/07/2007)79 http://www.ems-usa.com/images/Z510/Motocross_1.jpg (visité le 19/07/2007)80 http://www.dyn3d.com (visité le 24/07/2008)81 http://en.wikipedia.org/wiki/Digital_holography (visité le 19/07/2007)82 cf Digital Holography: Digital Hologram Recording, Numerical Reconstruction, and Related Techniques (Hardcover) by Ulf Schnars,

Werner Jueptner " Springer-Verlag Berlin 2005

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 32/72

Page 4: C. La numérisation des images et des textes

3. Les concepts de base (Définitions/Vocabulaire)

Dans le domaine du traitement d'images numériques, il est bon de connaître quelques termes fondamentaux :

a. a. Formats vectoriels et matriciels Formats vectoriels et matriciels

Il existe deux types fondamentaux de formats d'objets graphiques en informatique, les formats matriciels et les formats vectoriels. Le type de format choisi détermine les outils à employer.

Les formats matriciels, aussi appelés images en mode point, sont utilisés pour la création de photographies numériques. Ils se présentent (décompressés) comme des matrices de points colorés.

Les formats vectoriels sont surtout employés pour les dessins. Leur codage s'apparente en fait à un langage de programmation où l'on détermine les caractéristiques des objets à affcher par leurs coordonnées mathématiques et leurs relations les uns par rapport aux autres. De ce fait, le codage est extrêmement compact.

Certains logiciels sont en capacité de « vectoriser » des images matricielles et donc d'en faire des versions vectorielles, par exemple Inkscape. Le résultat n'est pas toujours excellent, tout dépend de la complexité de l'image et du nombre de « formes » différentes à reconnaître. Mais la vectorisation est très adaptée à certains types de documents tels que les plans, les schémas, les dessins au trait, …

Citons fnalement certains logiciels capables de traiter des images en mode point de façon apparemment vectorielle.

Dans toute la suite, nous nous intéresserons uniquement aux images matricielles.

b. b. Types de Documents Types de Documents

• Texte Imprimé/Dessin au Trait—Image à contours distincts, sans variation de tonalité, tel qu'un livre contenant du texte et des graphismes au trait.

• Manuscrits—Images à contours distincts réalisées à la main ou mécaniquement, mais ne présentant pas les bords distincts typiques du procédé mécanisé, tel que lettre ou dessin au trait.

• Demi-tons ou Simili —reproduction de travaux graphiques ou photos représentés par une grille de points ou lignes de taille variable et régulièrement espacés, en général inclinés selon un angle défni. Englobe également certains procédés artistiques, comme la gravure par exemple.

• Tons Continus—documents tels que photographies, aquarelles et autres dessins au trait fnement exécutés qui forment des changements subtils ou progressifs de tons.

• Mixtes—documents contenant deux ou plusieurs des catégories citées ci-dessus tels que les ouvrages illustrés.

c. c. PixelsPixels

Des images numériques sont formées d'une grille de petits carrés appelés pixels (de l'anglais picture element, élément d'image). Ce sont les plus petits éléments employés par les moniteurs et imprimantes d'ordinateur pour représenter des caractères, des graphiques ou des images.

Défnition : Un pixel Mot abrégé de l'anglais picture element (élément d'image), la plus petite unité constitutive d'une image. Chaque pixel affche une et une seule couleur. Le pixel est également employé comme unité de mesure de la taille et de la résolution d'une image.

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 33/72

Exemple d'image en demi-tons

Illustration 3: Exemple d'image en format vectoriel

Illustration 4: Exemple d'image au format matriciel

Page 5: C. La numérisation des images et des textes

d. d. Image numériqueImage numérique

Matrice de pixels dont chacun comporte une information de couleur et de luminance. Cette matrice simule une image quand la taille des pixels est suffsamment petite.

e. e. Résolution spatialeRésolution spatiale

La résolution est une mesure du niveau de détail d'une image numérique. La défnition complète du terme résolution recouvre les notions de résolution spatiale et de résolution en luminance. Dans l'usage courant toutefois, le terme résolution est le plus souvent employé pour parler de la résolution spatiale. Plus la résolution est grande, plus l'image est détaillée, (et plus le fchier correspondant est volumineux).

• Dans le cas d'un ordinateur et d'un appareil photographique numérique, la résolution s'exprime en pixels X pixels.

• Dans le cas d'un lecteur optique ou d'une imprimante, la résolution s'exprime en points par pouce (ppp ou dpi pour dots per inch).

Bien distinguer :

• pour un scanner, la résolution de l’image en entrée. Jusqu'à 3200 dpi (et 11 000 dpi pour les scanners à tambour).

• Pour un moniteur, la résolution de l’image à l’écran. Classiquement 72 ou 96 dpi, mais de nouveaux moniteurs affchent 120 dpi et certains petits écrans jusqu'à 240 dpi (écran de l'iPhone). Le 2" QHD, présenté en septembre 2008 par Casio, a une résolution de 546 points par pouce. Sur 2 pouces de diagonale, la taille en pixels est donc de 960x540 pixels.

• Pour une imprimante, la résolution de sortie et la linéature (nombre de lignes par unité de longueur sur une trame). Jusqu'à 2 880 dpi.

f. f. Résolution en luminanceRésolution en luminance

Encore appelée LA PROFONDEUR DE BIT (ou profondeur de couleur).

Un pixel est non seulement un point situé à une position donnée de l'image, mais c'est aussi un point d'une couleur précise. La résolution en luminance d'une image se rapporte au nombre de couleurs possibles de chaque pixel. La luminance (la valeur de couleur de chaque pixel) est codée par un ou plusieurs bits. Plus le nombre de bits par pixel est élevé, plus la résolution en luminance est grande et plus le fchier d'image est volumineux.

Voici des valeurs couramment employées de résolution en luminance, exprimées en nombre de bits :

• Une image 1 bit ne permet de représenter que deux valeurs, par exemple le noir et le blanc. Ce mode est utilisé en détection de contours pour des applications infographiques et aussi par les OCR.

• Une image 8 bits à échelle de gris peut avoir 256 nuances de gris. Chaque pixel est noir, blanc, ou de l'une parmi 254 nuances de gris. Il s'agit normalement du plus grand nombre de nuances utilisé pour des images qui ne sont pas en couleurs. Une image 8 bits en couleurs peut avoir 256 couleurs. On utilise de moins en moins cette résolution sur Internet, les images en couleurs étant crénelées.

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 34/72

Exemple de calcul : à quelle résolution faut-il numériser un négatif pour obtenir une impression à 300 ppp au format A4 à partir d’un négatif au « format 135 » (24mm x 36 mm) ?

Solution :

• 24/36 : format 2/3, A4 : 0,70, largeur plus importante donc on prend la largeur en référence pour faire les calculs. On ne travaille que sur l'une des dimensions, le calcul sur l'autre serait strictement proportionnel !

• en largeur sur le format A4, cherchons le nombre de points à affcher :21 cm x 300 ppp / 2, 54 cm = 2480 points

• ... qu'il faut récupérer sur les 24 mm de la largeur du négatif :2480 points / 2,4 cm * 2,54 cm = 2625 points par pouce, soit dans une résolution atteignable par les scanners actuels.

Feu

ille

A4

Négatif agrandi

Page 6: C. La numérisation des images et des textes

• Une image 24 bits en couleurs peut avoir jusqu'à 16,8 millions de couleurs. Chaque pixel est décrit par trois octets qui donnent respectivement 256 valeurs possibles pour le rouge, le vert et le bleu. Une image 24 bits est dite en « vraies couleurs » et « de qualité photographique ».

• Une image 30 et jusqu'à 48 bits peut avoir de 1 à plusieurs milliards de couleurs. Ce genre d'image est souvent utilisé pendant le processus de numérisation, afn de donner une meilleure graduation tonale (ombrages dans les diapositives et les épreuves imprimées, et les zones de lumière dans les images produites à partir de négatifs ). Il est aussi obtenu par les formats RAW des appareils photo numériques. Pratiquement tous les programmes peuvent désormais tirer parti de ces informations complémentaires pour optimiser la réduction de la profondeur de couleur à 24 bits, (Bibble de Bibble Labs83, Photoshop, ...). Pour la conversion de fchiers RAW en fchiers JPG, on peut aussi utiliser l'utilitaire OpenSource DCRAW84 qui s'intègre comme un plugin à Gimp.

Résolution (ppp) 100 200 300 400

1bit (noir ou blanc). Fax

1 Ko 5 Ko 11 Ko 20 Ko

8bits (échelle de gris) 9 Ko 39 Ko 89 Ko 158 Ko

24bits (vraies couleurs) 29 Ko 118 Ko 267 Ko 475 Ko

Tableau 1: Exemples de tailles de fchiers (non compressés) d'une image de 1x1 pouce (2,54 cm) numérisée à différentes résolutions

g. g. Formats de fchierFormats de fchier

Les images numériques sont stockées selon divers formats de fchier, dont certains sont propres à un type donné d'ordinateur ou de logiciel. Nous examinerons en détail les différents types de formats de fchier ultérieurement.

h. h. CompressionCompression

On peut appliquer à un fchier d'image numérique un algorithme de compression, parce qu'un fchier plus petit est plus facile à stocker et à transmettre. On distingue les diverses techniques de compression selon qu'elles suppriment ou non des informations dans les images :

• Les techniques de compression sans perte permettent de réduire la taille en octets des images sans perdre d'information du fchier original. Le processus est réversible.

• Les techniques de compression avec perte présentent des taux de compression bien supérieurs au prix de l'irréversibilité du processus de compression .

Nous examinerons en détail les différents types de compression.

i. i. Modèles de couleursModèles de couleurs

Les moniteurs couleur, comme les téléviseurs, utilisent le rouge (R), le vert (V) et le bleu (B) (RVB) pour produire le spectre complet des couleurs. Dans le cas de l'impression, le processus de quadrichromie fait appel à quatre pigments : cyan (C), magenta (M), jaune (J) et noir (N) (CMJN) pour la reproduction des couleurs. Ces systèmes ou « modèles de couleurs » portent également le nom d' »espaces couleurs », « espaces chromatiques » ou « espaces colorimétriques ». Examinons ces modèles plus en détail.

I. I. LLEE MODÈLEMODÈLE LAB LAB : :

les lettres du sigle Lab désignent des composantes individuelles d'une couleur :

• « L » pour luminance, • « a » pour la chrominance rouge–vert, et • « b » pour la chrominance bleu–jaune.

Ce modèle est bien adapté à la modifcation de la luminosité d'une image sans changer les valeurs de couleur et de saturation, en particulier du fait que très peu ou pas du tout d'information est perdue lorsque l'on convertit une image vers le modèle Lab ou à partir de celui-ci. De plus, le modèle Lab a la prétention de constituer un espace couleur indépendant des appareils employés et convient donc au transfert d'images entre des systèmes différents. Malgré ces avantages, le modèle Lab n'est pas très répandu dans les systèmes.

83 http://www.bibblelabs.com/products/bibble/bibble4.html (visité le 19/07/2007)84 http://www.cybercom.net/~dcoffn/dcraw/(visité le 19/07/2007)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 35/72

Page 7: C. La numérisation des images et des textes

II. II. YCCYCC

Le modèle YCC, très semblable au modèle Lab, est employé dans les images de format PhotoCD de Kodak.

III. III. LLEE MODÈLEMODÈLE RVB RVB ENEN SYNTHÈSESYNTHÈSE ADDITIVEADDITIVE

Le modèle RVB est le modèle de couleurs standard d'écran d'ordinateur. Les lettres RVB représentent le rouge, le vert et le bleu, les trois couleurs primaires du modèle de couleurs additives. Les moniteurs d'ordinateur et les téléviseurs fonctionnent selon ce modèle.

Chaque pixel se compose en réalité de trois minuscules points fuorescents dont chacun émet une nuance précise de rouge, de vert ou de bleu. Ensemble, ces trois points déterminent la couleur du pixel. Lorsqu'ils brillent tous les trois à l'intensité maximale, ils produisent du blanc.

IV. IV. LELE MODÈLEMODÈLE T TEINTEEINTE S SATURATIONATURATION L LUMINOSITÉUMINOSITÉ

C'est un autre modèle en synthèse additive, identifé par l'acronyme HSL ou HSV. Ce mode est utile dans les logiciels de traitement d'image pour choisir plus aisément une couleur. Voici 3 exemples ci-dessous pour mieux comprendre ce modèle :

V. V. LLEE MODÈLEMODÈLE ENEN SYNTHÈSESYNTHÈSE SOUSTRACTIVESOUSTRACTIVE CMJN CMJN

Les lettres CMJN désignent les couleurs cyan, magenta, jaune et noir. En théorie, le noir est superfu puisqu'un mélange uniforme de cyan, de magenta et de jaune produit du noir. En pratique cependant, un mélange de cyan, de magenta et de jaune donne un brun-gris plutôt sale, et c'est pourquoi l'on ajoute le noir.

Ces couleurs primaires sont à l'origine de toutes les couleurs produites à l'impression. Une imprimante produit de nombreux points minuscules, chacun d'une couleur primaire et si près les uns des autres que l'œil humain les perçoit comme un seul point d'une couleur donnée.

Le problème de la relation entre les modèles de couleurs RVB et CJMN vient de ce que l'espace couleur RVB possède des couleurs que l'espace CMJN ne peut pas reproduire. Pour être concret, parfois, des images qui ont l'air très belles à l'écran ont un autre aspect, un peu moins attrayant, une fois imprimées.

Pour maintenir ces différences au minimum, de puissants programmes d'édition d'image offrent la possibilité de convertir une image RVB en CJMN — c'est la séparation des couleurs — et de l'affcher à l'écran. Même si le moniteur

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 36/72

Illustration 5: Choix d'une couleur en RVB

Page 8: C. La numérisation des images et des textes

ne peut affcher que des images RVB, ces programmes gèrent une image CMJN en n'utilisant que les couleurs disponibles dans l'espace couleur CMJN.

Les images destinées à être affchées, par exemple dans Internet, n'ont pas besoin d'être produites selon le modèle CMJN. Par contre, ce modèle devient important lorsqu'il s'agit d'imprimer des images à l'aide de presses professionnelles, ou de simuler le résultat à venir avant de lancer un important travail d'impression (vérifcation d'épreuve).

Le concept de couleur et de ce qui la provoque, l'infuence, ... est un domaine riche que nous ne pouvons pas approfondir dans le cadre de ce cours. Consulter l'excellent cours sur la colorimétrie85 et le site « Comprendre la couleur et ses profls »86 pour en apprendre (beaucoup) plus...

j. j. La taille des fchiers non compressésLa taille des fchiers non compressés

Ci-dessous vous trouverez des formules « toutes faites » pour calculer la taille en octects d'une image non compressée. Elles sont utiles mais il vaut bien mieux comprendre ces formules et la logique qui les sous-tend … que de les apprendre par cœur. Chacune d'elles peut-être rétablie en 30 s avec un peu de logique !

I. I. SSII VOUSVOUS CONNAISSEZCONNAISSEZ LESLES DIMENSIONSDIMENSIONS PHYSIQUESPHYSIQUES DEDE LL''IMAGEIMAGE

La taille des fchiers non compressés se calcule de la façon suivante :

• Soit h la hauteur d'une image en pouce• Soit l la largeur d'une image en pouce• Soit p la profondeur de bit (luminance), habituellement 8 ou 24• soit dpi la résolution de l'image en nombre de points par pouce (identique sur chacune des dimensions),

... alors la taille du fchier (en octets) est donnée par la formule suivante :

taille=h×l×p×dpi28

II. II. SSII VOUSVOUS CONNAISSEZCONNAISSEZ LESLES DIMENSIONSDIMENSIONS DEDE LL''IMAGEIMAGE ENEN PIXELSPIXELS

• Soit h la hauteur d'une image en nombre de pixels• Soit l la largeur d'une image en nombre de pixels• Soit p la profondeur de bit (luminance), habituellement 8 ou 24

... alors la taille du fchier (en octets) est donnée par la formule suivante :

taille=h×l× p

8

Bien sûr, dans les deux cas, il faut utiliser les unités adaptées, sachant que :

• 1 bit = 0 ou 1 en binaire• 1 octet = 8 bits• 1 kilooctet (1 Ko) = 210 octets = 1024 octets• 1 mégaoctet (1 Mo) = 220 octets =1024 kilooctets• 1 gigaoctet (1 Go) = 230 octets =1024 mégaoctets• 1 téraoctet (1 To) = 240 octets = 1024 gigaoctets

Attention à la confusion :

• Le mot anglais pour « octet » est « byte », d'où la confusion possible entre un « bit » et un « byte » !• Depuis 199887, il faut employer les mots kibi pour « kilo binaire » , mébi pour « méga binaire » , gibi pour « giga

binaire » , tébi pour « téra binaire » ... et réserver les notations kilo, méga, giga à des multiples de 1000... Ces dernières sont les conventions que nous appliquerons dans le cours.

85 http://www.colorimetrie.be/ (visité le 19/07/2007)86 http://www.profl-couleur.com (visité le 19/07/2007)87 voir http://fr.wikipedia.org/wiki/Octet

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 37/72

Page 9: C. La numérisation des images et des textes

4. Les matériels et logiciels

a. a. Introduction : présentation de la chaîne numérique.Introduction : présentation de la chaîne numérique.

Matériels

• Appareils de numérisation • Moniteurs haute résolution• Stations de travail• Serveurs et appareils de stockage• Imprimantes adaptées aux travaux à numériser

Logiciels :

• Numérisation, édition d'image, visualisation, gestion des couleurs et contrôle de la qualité• Création d'images dérivées• Gestion des fchiers, gestion de workfows • Indexation, Reconnaissance optique des caractères (ROC), structuration • Système de gestion des bases de données

Autres équipements et fournitures

• Appareils et fournitures de Contrôle de Qualité• Fournitures de bureau habituelles• Médias de sauvegarde, papier, cartouches d'encre• Documentation, manuels techniques, publications de références

b. b. Appareils de numérisation : les scannersAppareils de numérisation : les scanners

I. I. PPRINCIPERINCIPE

La numérisation est rendue possible grâce aux capteurs du scanner sensibles à la lumière rediffusée par les couleurs des documents. Ces capteurs, appelés capteurs CCD (Charge Coupled Device), sont composés de photodiodes dont la conductivité électrique dépend de l'intensité lumineuse. Si l'on numérise un document opaque, les capteurs mesurent l'intensité de la lumière réféchie par le document. Si l'on numérise un document transparent, les capteurs mesurent la lumière qui traverse ce document.

Selon les types de scanners utilisés, il existe trois techniques d'analyse de la lumière :

• la numérisation en mode point. L'analyse de la lumière se fait pixel par pixel sur l'ensemble du document. Ce processus est long mais offre une résolution d'entrée très élevée. Cette technique est employée par les scanners à tambour pour les arts graphiques.

• la numérisation linéaire. Les photodiodes sont disposés en barrette, elles peuvent analyser toute une largeur de la surface exposée du document. En se déplaçant, la barrette analyse le document ligne par ligne. Ce procédé est couramment employé par les scanners de bureau.

• la numérisation matricielle. Dans cette technique, le capteur est fxe et constitué d'une grille complète de photodiodes. L'information à analyser est saisie en une seule fois sur toute la matrice. Le temps d'exposition est rapide mais la résolution obtenue n'est pas toujours satisfaisante. Les appareils photo-numériques utilisent cette technique.

Il existe trois procédés de rendu de la couleur par les scanners :

• Le plus complexe consiste à employer un éclairage coloré, mais cela implique de travailler dans le noir. Cette technique est utilisée pour la prise de vue en directe d'oeuvres d'art.

• Le deuxième procédé a recours à un prisme, il est utilisé par les caméras professionnelles et certains scanners à tambour.

• La dernière technique, et la plus courante, consiste à interposer successivement trois fltres colorés rouge, vert et bleu.

Un document d'un tutoriel américain (en français)88 résume bien les différents types de scanners et leurs usages.

88 http://www.library.cornell.edu/preservation/tutorial-french/technical/technicalB-03.html (visité le 19/07/2007)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 38/72

Page 10: C. La numérisation des images et des textes

II. II. LLESES SCANNERSSCANNERS BUREAUTIQUESBUREAUTIQUES « « ÀÀ PLATPLAT »»

Produits standards, les scanners à plat donnent une bonne qualité de numérisation en bitonal, niveaux de gris ou couleurs. Ils conviennent à de nombreuses utilisations, sont faciles à utiliser et peu onéreux. A l'autre bout, les unités professionnelles destinées au marché des arts graphiques rivalisent en qualité avec les scanners à tambour. Ils proposent différentes options permettant par exemple de numériser des documents transparents (négatifs, diapositives, ektachromes) ou de numériser en masse des pages volantes grâce à un passe-feuilles. Ces scanners fonctionnent selon la technique du scanning linéaire : les photodiodes disposées en rangées se déplacent en longueur et analysent le document ligne après ligne.

On distingue deux catégories de capteurs :

Les capteurs CMOS (Complementary Metal Oxyd Semi-conductor, ou encore MOS complémentaires). On parle alors de technologie CIS (Contact Image Sensor). Ce type de dispositif utilise une rampe de LED (Light Emitting Diode) pour l'éclairage du document et requiert une distance très faible entre les capteurs et le document. En contrepartie, la technologie CIS est bien moins consommatrice d'énergie.

Les capteurs CCD (Charge-coupled devices). Les scanners utilisant la technologie CCD sont souvent plus épais car ils utilisent une lampe froide de type néon. La qualité de l'image numérisée est en revanche globalement meilleure, grâce à un rapport signal/bruit plus faible.

(Source89).

Cependant, ces scanners n'autorisent pas des formats supérieurs au A3, ils abîment la reliure des livres et ne peuvent servir à la numérisation systématique des collections. Les scanners à plat trouvent surtout leur place dans les services généraux des bibliothèques.

Le scanner vertical est une variante spécialisée du scanner à plat dans laquelle la source de lumière du scanner, le dispositif de capteurs et les optiques sont déplacés vers un ensemble d'appui sous lequel un volume relié peut être placé face vers le haut pour la numérisation.

III. III. SSCANNERSCANNERS ÀÀ DÉFILEMENTDÉFILEMENT

Les scanners à déflement utilisent la même technologie de base que les scanners à plat mais maximisent le débit, au dépens de la qualité, en général. Normalement conçus pour des environnements professionnels de traitement de grands volumes, ils numérisent généralement en noir et blanc ou en niveaux de gris à des résolutions relativement basses. Les documents doivent être de tailles égales et assez solides pour résister à une manipulation un peu rude, bien que les mécanismes de transport sur les modèles plus récents permettent de réduire l'effort. Que le transport soit effectué par rouleau, ceinture, tambour ou vide, le capteur et la source lumineuse restent immobiles tandis que le document est passé au-dessus. Une sous-classe importante de scanners à déflement sont des modèles verticaux spécialement conçus pour les documents de taille supérieure tels que les cartes ou les plans d'architecture.

89 http://www.commentcamarche.net/pc/scanner.php3 (visité le 19/07/2007)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 39/72

Illustration 6: Scanner à plat

Illustration 7: Scanner vertical

Page 11: C. La numérisation des images et des textes

IV. IV. LLESES S SCANNERSCANNERS ÀÀ T TAMBOURAMBOUR

Les scanners à tambour offrent la résolution la plus élevée et la numérisation la meilleure de tous les types de scanners, mais à un certain prix. En dehors de leur coût élevé, les scanners à tambour sont lents, non adaptés aux documents fragiles et exigent des compétences élevées de manipulation. Par conséquent, on les retrouve en général dans les bureaux de prestataires de services pour le marché pré-presse90.

Les principes de base du scanner à tambour sont simples : L´image est déposée sur la face externe d'un cylindre de plexiglas transparent, le tambour. Elle y est fxée à l´aide de bande adhésive et de poudre ou d'huile. Le tambour tourne à grande vitesse (300 à 1500 tours/min.), juste à quelques millimètres d´un capteur. Depuis l'intérieur de ce capteur, une source extrêmement lumineuse (lumière xénon ou halogène) éclaire le document. Dans le même temps, un petit rayon conique émanant du capteur balaye pixel par pixel ce document. L'avantages du scanner à tambour est essentiellement sa haute résolution, jusqu'à 11 000 dpi.

V. V. LLESES SCANNERSSCANNERS DEDE LIVRESLIVRES OUOU SCANNERSSCANNERS ÀÀ LIVRELIVRE OUVERTOUVERT

Ces produits correspondent bien aux besoins des bibliothèques car leur vaste surface de numérisation assure le traitement des grands formats. Lors du traitement, le livre est ouvert, texte dirigé vers le haut, le dispositif de numérisation se trouvant au-dessus. Parfois, un plateau ajustable compense la différence de hauteur une fois le livre ouvert.

Il existe deux gammes de scanners de livres :

• des produits abordables, d'une qualité supérieure aux scanners à plat, acceptent des formats jusqu'au A2 / A3 dont la reliure ne dépasse pas quelques centimètres d'épaisseur. Ils ne produisent pas toutefois de résultats très satisfaisants pour les documents anciens.

• des scanners beaucoup plus élaborés, et coûteux, correspondent davantage aux besoins des bibliothèques, mais seules les grandes institutions peuvent s'équiper. Leurs appareils acceptent des formats allant jusqu'au A1 et des reliures de 50 cm ; ils sont équipés d'un plateau de type Roberval, et comportent souvent une vitre. Certains dispositifs permettent de numériser des ouvrages ne pouvant s'ouvrir à plus de 90°, voire 60°.

Les scanners de livres emploient deux types de scanners :

• ceux qui analysent une image optique du document. Dans ce cas, l'éclairage du document numérisé peut occasionner quelques diffcultés. Le document est en effet éclairé par des sources lumineuses placées sur les côtés du scanner. Il est diffcile d'assurer un éclairage uniforme sur tout le document, or la grande sensibilité des capteurs CCD accentue ces variations dans le rendu. En outre, le document est soumis à une température qui peut l'endommager. Voir en exemples le fonctionnement du BookDrive DIY91 et la gamme professionnelle Zeutschel92.

• ceux qui balayent le document et qui produisent un nombre fxe de pixels au millimètre. Un système coulissant muni d'un capteur CCD linéaire et d'un éclairage, balaie le document. Le principe est le même que celui du scanner à plat. La numérisation se fait en dimension réelle et non à partir d'une image optique du document, la résolution est constante quelle que soit la taille du document. Quant à l'éclairage, il est mieux maîtrisé et n'affecte que la surface en cours de traitement.

Exemple de machine APT BookScan 240093 capable de numériser 2 400 pages à l'heure, produisant des fchiers de 36 bits de profondeur de couleur, capteurs de 21 Mpixels (par appareils photo numériques), 400 dpi, OCR automatique. Ce numériseur permet de tourner automatiquement les pages une par une "plus délicatement qu'une main humaine".

90 http://www.hk-gap.de/FRENCH/digital/trommel_scanner.htm (visité le 19/07/2007)91 http://atiz.com/bookdrive_diy.php (visité le 19/07/2007)92 http://www.zeutschel.de/produkte.html (visité le 19/07/2007)93 http://www.kirtas.com/apt_2400RA.html (visité le 15/10/2008)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 40/72

Illustration 8: APT BookScan 2400

Page 12: C. La numérisation des images et des textes

VI. VI. LLESES APPAREILSAPPAREILS PHOTOGRAPHIQUESPHOTOGRAPHIQUES NUMÉRIQUESNUMÉRIQUES

Les appareils photographiques numériques sont commercialisés dans une gamme très large de produits, de l'appareil photo amateur jusqu'à l'appareil professionnel. Les appareils d'entrée de gamme sont à matrice ; ils permettent une numérisation rapide mais de faible défnition. Les systèmes professionnels sont généralement à barrette ; ils fonctionnent par balayage, la numérisation est plus longue mais la qualité meilleure.

Les appareils professionnels codent les couleurs sur 48 bits pour des résolutions allant jusqu'à 6 000 x 8 000 pixels. Ils se présentent sous la forme de dos qui se fxent aux appareils traditionnels (appareils à chambre) alors que les appareils d'entrée de gamme sont des appareils photo complets.

Les appareils les moins chers utilisent une mémoire de type carte fash. Ces cartes sont onéreuses et disposent de capacités limitées, rendant diffciles les campagnes de prises de vue sur des lots importants. Les appareils haut de gamme doivent être constamment associés à un micro-ordinateur, rendant délicates les campagnes de prises de vue hors studio. L'IRHT (IRHT, institut de recherche et d’histoire des textes)94 a choisi ce type de matériel pour numériser les manuscrits enluminés des bibliothèques.

VII. VII. LLESES SCANNERSSCANNERS DEDE MICROFORMESMICROFORMES

Deux types d'appareils numérisent les micro formes (microflms et microfches) :

Une première gamme de produits d'un coût moyen propose une numérisation en mode bitonal, plus rarement en niveaux de gris, s'échelonnant entre 200 et 400 dpi. Il s'agit de lecteurs dotés d'une fonction de numérisation ou encore d'un équipement adaptable sur un lecteur classique. Dans ce dernier cas, une barre de CCD montée sur châssis balaie l'image sur l'écran.

Les appareils haut de gamme automatisent la numérisation. Ces machines disposent de systèmes permettant un repérage des images, ce repérage est plus rapide lorsque les flms disposent de pavés optiques (blips).

VIII. VIII. LLESES SCANNERSSCANNERS DEDE DIAPOSITIVESDIAPOSITIVES ETET DEDE TRANSPARENTSTRANSPARENTS

Comme nous l'avons évoqué précédemment, il est possible de numériser des documents sur support transparent à partir d'un scanner à plat équipé d'un dos et d'un dispositif de rétro-éclairage. Mais ce procédé reste très limité car il exige de positionner chaque document à chaque nouvelle prise de vue, dans certains cas il est possible de monter en bande quelques diapositives sur un support plastique glissé dans le numériseur. Ce traitement ne peut être que ponctuel.

Il existe des appareils dans le monde professionnel bien adaptés à la numérisation des diapositives ou de documents transparents qui utilisent des chargeurs ou des systèmes d'introduction semi-automatiques.

(Source95)

IX. IX. AAUTRESUTRES TYPESTYPES

• Les scanners grande largeur : scanners grands formats du 25'' (635 mm) au 54" (extra-large : 1370 mm) ;• les scanners de cartes à fenêtre ; • les scanners à main.

X. X. EELEMENTSLEMENTS PERMETTANTPERMETTANT DEDE CHOISIRCHOISIR UNUN SCANNERSCANNER

Le type de besoins conditionne le type de scanner parmi la liste ci-dessus. On peut évoquer différents critères techniques, qualitatifs et quantitatifs :

• La résolution.• La reproduction des couleurs.• Le bruit.• Les artefacts :

• des non uniformités dans l'illumination ;• de la poussière et les rayures ;• des problèmes de rendu des couleurs ;• des moirés ;

94 http://www.irht.cnrs.fr/ (visité le 14/10/2009)95 http://www.culture.gouv.fr/culture/mrt/numerisation/fr/dll/techn.htm (visité le 9/09/07)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 41/72

Page 13: C. La numérisation des images et des textes

• des problèmes autour des contours

c. c. Les logiciels d'acquisitionLes logiciels d'acquisition

I. I. TWAINTWAIN

TWAIN96 est un protocole informatique standard destiné au contrôle logiciel des scanners de document ou des appareils photos numériques. Il s'agit d'une interface de programmation (API) de capture d'image pour les systèmes Microsoft Windows ou Apple Macintosh. Ce standard a été créé en 1992 par un organisme regroupant les sociétés Aldus, Kodak, Hewlett-Packard et Logitech. Il en est actuellement à la version 1.9 de janvier 2000. Le protocole TWAIN est essentiellement utilisé en tant qu'interface entre un scanner ou un appareil photo numérique et un logiciel de traitement d'images. Il existe également un autre standard pour gérer les scanners nommé ISIS.

De multiples logiciels intègrent TWAIN pour le pilotage des scanners.

d. d. Les logiciels de traitement d'imagesLes logiciels de traitement d'images

Lors de l'achat d'un scanner, une offre logicielle est généralement fournie. Je vous propose ci-dessous une sélection de logiciels.

I. I. PPHOTOSHOPHOTOSHOP

Standards du marché, il intègre tous les outils nécessaires pour améliorer les images obtenues suite à une numérisation. Par contre, c'est un logiciel complexe et coûteux, avec lequel il est diffcile de travailler lorsqu'on est néophyte.

II. II. GGIMPIMP

Logiciel libre dont les fonctionnalités sont « équivalentes » à Photoshop (y compris dans la diffculté – relative – de sa prise en main). Les limitations les plus gênantes pour l'usage de Gimp en milieu professionnel sont :

• Pas de licence pour le système Pantone. • Séparation CMYK encore hésitante

III. III. IIMAGEMAGEMMAGICKAGICK®, ®,

Outil en ligne de commande capable de prendre en charge des lots d'images. Un avantage de ce logiciel est son fonctionnement en ligne de commande : il peut être utilisé pour créer automatiquement des images réduites (vignettes, ...) à partir d'un lot arbitrairement important d'images. C'est un logiciel libre, qui peut lire des images dans une grande variété de formats. Quelques exemples de ce qu'il peut faire :

• Convert an image from one format to another (e.g. PNG to JPEG)• Resize, rotate, sharpen, color reduce, or add special effects to an image• Create a montage of image thumbnails• Create a transparent image suitable for use on the Web• Turn a group of images into a GIF animation sequence• Create a composite image by combining several separate image• Draw shapes or text on an image• Decorate an image with a border or frame• Describe the format and characteristics of an image

e. e. Les logiciels catalogueurs d'imagesLes logiciels catalogueurs d'images

Ce sont des logiciels dont le but est de gérer les images déjà numérisées : ils les présentent sous forme d'imagettes, permettent de les classer, de les comparer, de les organiser. Quelques exemples

• XnView (libre), • iPhoto, livré en standard avec les Mac. • Picasa, proposé gratuitement par Google.• iView MediaPro• Extensis PortFolio & Canto Cumulus, très grosses applications.

96 http://fr.wikipedia.org/wiki/TWAIN (visité le 19/07/2007)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 42/72

Page 14: C. La numérisation des images et des textes

f. f. Logiciels de reconnaissance optique de caractères (OCR)Logiciels de reconnaissance optique de caractères (OCR)

OmnipagePro97 et ReadIris Pro98 sont les leaders reconnus dans leur domaine, traitent les images bitmap des textes et « reconnait » grâce à des algorithmes complexes, les caractères numérisés. Nous parlerons plus loin de l'OCR.

Considérations concrètes autour de l'OCR99 : « Le logiciel de reconnaissance de caractères (OCR) propriétaire le plus performant disponible sur le marché (et à un coût raisonnable) continue probablement d’être FineReader. Il convient certainement aussi d’évaluer les alternatives libres comme : Tesseracrt-ocr, racheté par Google il y a quelques temps, et amélioré depuis, OOCR, etc. ; voire les gratuiciels comme simpleOCR... ou même des versions disponibles en ligne comme WeOCR server (voir ici) ou ocrterminal (voir la)…

Quelle que soit la solution choisie, il faut garder à l’esprit que ses performances sont très fort dépendantes du type de document original (police et taille des caractères), de son état (papier transparent), et de la qualité de la numérisation (une résolution d’acquisition de 350dpi devrait souvent garantir la meilleure reconnaissance) ; il convient donc de tester chaque solution sur des exemples représentatifs du fonds que dont vous souhaitez reconnaître le texte. Dans tous les cas, le meilleur taux de reconnaissance est d’environ 99,97% ; cela peut sembler énorme, mais signife qu’il y a un peu moins d’une faute tous les 100 caractères (sur une page de 2500 caractères cela fait quand même une petite dizaine de fautes…). On peut, il est vrai, se demander si une ressaisie des documents ne produit pas autant de fautes… »

5. Le processus de numérisation

Dans ce qui suit, nous nous appuierons parfois sur le tutoriel100 de la bibliothèque de l'Université Cornell.

a. a. Préparation des documents à numériserPréparation des documents à numériser

Les documents à numériser doivent le cas échéant être préparés :

• triés et ordonnés pour faciliter la manutention,• éventuellement massicotés, • nettoyés (ainsi que le matériel),• ...

b. b. Choix du scannerChoix du scanner

Cf ci-dessus les différentes sortes de scanners et les critères de choix

c. c. Choix de la résolution et de la profondeur de couleurChoix de la résolution et de la profondeur de couleur

Fortement dépendante de l'usage prévu de la ressource fnale. Il est vivement conseillé d'examiner un éventail de l'ensemble des types de documents à numériser et de noter :

• les détails (taille, type) et les traits. Le théorème de Shannon permet de calculer une résolution telle que le plus petit détail visible doive au minimum être représenté par 2 pixels. En pratique on majorera généreusement cette valeur.

• les tons et le nombre de couleurs

• la présence de demi teintes

• La présence de tons continus : Les conditions de résolution requises pour les photographies et autres documents en tons continus sont diffciles à déterminer car il n'existe aucun système fxé de mesurer des détails. De nombreux organismes ont contourné le problème de la défnition des détails en basant leur résolution sur la qualité nécessaire pour effectuer des tirages d'une taille donnée (p.ex. 8 pouces par 10) à partir d'un certain format de flm (p.ex. 35mm, 4x5 pouces). Le facteur important à garder en mémoire à propos des documents en tons continus est que la reproduction des tons et des couleurs est aussi importante, sinon plus, que la résolution pour défnir la qualité de l'image.

• du texte à faire reconnaître ensuite par un logiciel d'OCR. La valeur recommandée est alors de 300 dpi en bitonal. Attention, dans le cas d'un document taché, on aura intérêt à numériser en nuances de gris ... puis de procéder par essais et évaluations. Les valeurs utiles à connaître sont les suivantes :

97 http://www.nuance.com/omnipage/ (visité le 19/07/2007)98 http://www.irislink.com/ (visité le 19/07/2007)99 http://blogusoperandi.blogspot.com/2009/05/ocr-et-apres-discussion-autour-des.html (visité le 20/7/2009) 100 http://www.library.cornell.edu/preservation/tutorial-french/conversion/conversion-01.html (visité le 19/07/2007)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 43/72

Page 15: C. La numérisation des images et des textes

• résolution d'un écran standard informatique : de 72 à 120 dpi• résolution d'une page imprimée de type bureautique : 300 ou 600 dpi voire 1200 dpi pour un résultat optimal• Une image 1600x1200 pixels peut être imprimée en un format 15x11,25 cm, à environ 270 dpi !

Voici quelques standards de base par lesquels démarrer101 :

• photographies : TIFF, 16 bits en niveaux de gris ou 48 bits en couleurs, de 400 à 800 dpi• matériels graphiques : TIFF, 16 bits en niveaux de gris ou 48 bits en couleurs, de 600 à 800 dpi• textes : TIFF, 1 bit ou 16 en niveaux de gris, ou 48 en couleurs, 300 dpi

Pour des préconisations plus poussées, voir la charte technique de la numérisation à la BnF : documents iconographiques, documents imprimés, presse (février 2009) [22 pages - fchier .pdf - 350 Ko]102

d. d. Phase de testPhase de test

Un bon test consiste à numériser les documents repérés dans l'éventail des types défnis plus haut, puis à comparer les résultats à partir d'un écran correctement réglé (s'adresser pour cela à un professionnel des arts graphiques) et des originaux.

e. e. Numérisation proprement diteNumérisation proprement dite

Suivant les cas, ce travail s'effectue de façon manuelle ou semi-automatique. Bien penser à l'ordre de traitement des originaux pour savoir identifer de façon non équivoque les fchiers numériques obtenus. On appellera "brut de scan" une image non traitée.

f. f. Le retraitement des images sur ordinateurLe retraitement des images sur ordinateur

Le réglage précis du scanner ne permet pas d'éviter une reprise des images pour corriger :

• l'orientation de l'image• le contraste, la luminosité• les défauts de numérisation (poussières, tramés, rayures)• la répartition des couleurs• les annotations bibliothécoéconomique (les tampons, inscriptions diverses)

Par ailleurs, il sera intéressant de remplir un certain nombre de métadonnées de l'image, par exemple les champs de l'IPTC (avec GraphicConverter sous Mac, irfanview sous PC).

Il est conseillé, lorsque le scanner le permet, d’incorporer dans le fchier le profl d’entrée du scanner.

g. g. Le calcul de la taille des images numériques non compresséesLe calcul de la taille des images numériques non compressées

On calcule facilement la taille d'une image non compressée en multipliant le nombre de ses pixels par la profondeur de couleur (en bits). Le résultat sera divisé par 8*1024 pour obtenir le résultat en Ko.

Exemple 1 : une image de 1600x1200 pixels en niveau de gris aura une taille de :

1600x1200x8/(8*1024) : 1875 Ko soit 1,8 Mo

Exemple 2 : une image de 12 cmx 16 cm numérisée en « vraie couleur » à 600 dpi :

Nbre de pixels : 12x16/(2,542)x6002= 10 713 621 pixels

10 713 621x24/(8x10242)= 30 Mo !

En pratique, les images décompressées ne sont manipulées qu'au sein des programmes de traitement d'images. Les formats dits non compressés (type RAW) utilisent en fait une compression non destructive.

6. Les principes de compression de données image

101 D'après http://booleanoperator.org/?p=67 (visité le 26/08/2009)102 http://www.bnf.fr/pages/infopro/numerisation/pdf/charte_numerisation.pdf (visité le 26/08/2009)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 44/72

Page 16: C. La numérisation des images et des textes

a. a. Principe et défnition de la compression. Principe et défnition de la compression.

En informatique et en théorie de l'information, la compression de données est un processus d'encodage de l'information qui utilise moins de bits que n'aurait nécessité une représentation non encodée. On remarque en effet lors de l’analyse du contenu d’un fchier image que certaines informations qu’il contient sont redondantes. En compression d’images numériques, il y a trois types de redondances :

• Redondances de code : Une redondance apparaît dans le code d’une image si ses niveaux de couleur sont codés d’une façon qui utilise plus de symboles que strictement nécessaire. Par exemple une image nativement en niveaux de gris codée en « vraies couleurs »

• Redondances inter-pixels : Des calculs statistiques effectués sur des niveaux de pixels montrent qu’il existe des images pour lesquelles des niveaux de couleur se répètent de façon périodique. D’autres calculs montrent la forte corrélation qui existe entre des pixels adjacents. Ceci nous permet de prédire la valeur d’un pixel à partir de la connaissance des valeurs de ses voisins. On peut donc représenter une image en n’utilisant que la différence qu’il y a d’un pixel à un autre.

• Redondances psychovisuelles : La visualisation d’une image ne requiert pas l’analyse quantitative de chaque pixel. Seuls certains éléments clés, comme par exemple les lignes de changement de couleur, vont permettre au cerveau de reconstituer l’image. Les autres informations sont dites psychovisuellement redondantes. Elles peuvent donc être éliminées sans affecter de façon signifcative la lisibilité de l’image. L’élimination de ces redondances introduit une perte quantitative d’informations : c’est une quantifcation. Cette opération est irréversible et conduit à une compression avec pertes.

Ces types de redondance sont exploités dans les méthodes de compression d'images avec et sans perte d'information103 :

• sans pertes d'information : exemple du RLE (Run-Length Encoding) code les séquences identiques sous la forme « pattern x fois » et convient bien aux images simples tels que les dessins, cliparts, etc... Le format PCX utilise cette forme de compression, ainsi que les fax

• avec pertes d'information :

• par réduction de l'espace des couleurs repérées par une palette ; les pixels font référence à l'index de la couleur dans la palette au lieu de coder directement la couleur ;

• par sous-échantillonnage chromatique ; utilise la caractéristique de l'oeil d'être beaucoup plus sensible aux variations de luminosité qu'aux variations de couleur pour sous-coder ces dernières par rapport au codage des variations de luminosité ;

• par opération mathématique de transformation pour ne pas retenir l'information à laquelle l'oeil humain n'est pas sensible. JPEG utilise cette méthode.

• Par compression fractale (surtout valable pour les scènes naturelles).

En choisissant le type de format d'enregistrement d'une image, on a, le cas échéant, accès à la (aux) technique(s) de compression proposée(s) par ce format.

7. Choix d'un format de fichier image

Même si des centaines de formats de fchier d'image ont été créés au cours des années, la plupart sont tombés en désuétude ou ne sont utilisés que dans des circonstances particulières, ce qui doit nous alerter sur l'importance du choix d'un format pour la pérennité des informations numériques. De nouveaux formats font aussi leur apparition en fonction de nouveaux besoins, par exemple l'affchage d'images animées sur Internet. Les formats de fchier d'image les plus utilisés à l'heure actuelle sont TIFF, pour la représentation d'images en mode point en noir et blanc, à échelle de gris ou en couleurs, JPEG, très employé pour des images sur Internet, et PNG, pour des éléments graphiques à faible résolution.

Cette partie du cours présente les formats que vous êtes le plus susceptible d'utiliser ou de rencontrer.

Plusieurs formats sont largement répandus parce qu'ils sont reconnus dans divers environnements informatiques et qu'ils respectent des normes ouvertes. D'autres formats sont devenus populaires parce qu'ils sont pris en charge par plusieurs fournisseurs. Le choix d'un format de fchier peut être déterminé par les utilisations prévues des images. On peut utiliser différents formats selon l'étape du traitement d'image et selon le type de sortie, par exemple l'impression ou l'affchage sur Internet.

103 http://en.wikipedia.org/wiki/Image_compression (visité le 19/07/2007)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 45/72

Page 17: C. La numérisation des images et des textes

a. a. Le RAWLe RAW

Le format RAW (littéralement mode brut) des appareils photographiques est d'une grande importance pour extraire le maximum d'informations d'une image104. Les données qui s'y trouvent sont celles qui sortent directement du capteur CCD ou CMOS : elles ne sont pas altérées (en principe) par le logiciel interne de l'appareil.

Les données dans le format RAW ne sont pas compressées (ou alors selon une méthode non destructrice) ce qui permet de garder intact le contenu de votre prise de vue, contrairement au JPEG qui détruit une partie des données et produit des artefacts. Grâce à cela il est possible à partir du RAW de réaliser un « vrai traitement d'image. »

La dynamique de l'image dans un fchier RAW est nettement plus élevée que celle qui se trouve dans un fchier JPEG ou TIFF standard. Typiquement elle est de 10 à 16 bits par plan couleurs à comparer avec les 8 bits du JPEG.

L'inconvénient du format RAW est qu'il n'est pas directement exploitable : il faut utiliser un logiciel qui doit en extraire les trois plans couleurs fondamentaux (rouge, vert et bleu). Chaque image doit être transformée, ce qui peut ajouter un temps considérable de post-traitement lors d'une campagne de numérisation.

Une dernière diffculté, et non des moindres, est qu'il n'existe pas actuellement (en 2009) de standard en matière de format RAW entre les constructeurs, bien que soit sortie la norme OpenRaw et le DNG par Adobe (cf ci-dessous).

b. b. Le DNGLe DNG

C'est un format RAW normalisé et ouvert, proposé par Adobe. Bénéfces (selon Adobe) : utilisable de façon plus sereine pour l'archivage puisque la norme est ouverte et donc sera connue dans le futur ; un process de production plus simple et plus rapide.105

c. c. Le TIFFLe TIFF

Le format TIFF (Tagged Image File Format — format de fchier d'image étiquetée) a été mis au point par Aldus Corporation spécifquement pour l'enregistrement d'images saisies à l'aide d'un lecteur optique ou d'un capteur de page-écran, et manipulées à l'aide de programmes de dessin ou de retouche de photographies. À l'heure actuelle, c'est probablement le format d'image en mode point le plus versatile, le plus fable et le plus répandu, pris en charge par pratiquement toutes les applications de dessin, d'édition d'images et de mise en pages. Comme il comprend plusieurs schémas de compression, il n'est pas lié à des lecteurs optiques, imprimantes ou moniteurs précis.

Le format TIFF reconnaît les modèles CMYK, RGB et Lab, ainsi que des fchiers en mode point. Plusieurs projets de traitement d'images numériques de musée font appel à ce format pour l'archivage et le traitement de copies numériques. Par contre, il existe plusieurs variantes du format TIFF, et une application peut parfois avoir de la diffculté à ouvrir un fchier TIFF créé par une autre application.

d. d. Le GIFLe GIF

Le format GIF (Graphics Interchange format — fchier d'image graphique) est un format populaire utilisé pour l'affchage de graphiques et d'images en fausses couleurs dans des pages Internet. Ce format est limité à 8 bits et donc à une palette de 256 couleurs. Pris en charge par de nombreux logiciels, ce format convient bien pour des images à échelle de gris et des dessins au trait, mais moins bien à des images photographiques en vraies couleurs. Le format GIF est libre de droits (brevets tombés dans le domaine public le 1/10/2006) et existe en deux versions :

• le format original GIF 87a • et le format plus récent GIF 89a.

Le format GIF n'est évidemment pas adapté au stockage de photos.

e. e. Le JPEGLe JPEG

Le format JPEG (Joint Photographic Experts Group — groupe conjoint d'experts en photographie) est largement utilisé pour l'affchage de photographies et d'autres images en tons continue dans Internet. Remarque : On parle de JPEG comme d'un format de fchier, mais c'est en réalité le nom d'une technique de compression avec perte. Le nom correct du format d'un fchier qui contient une image comprimée à l'aide de la technique JPEG est JFIF (JPEG File Interchange Format — format d'échange de fchiers JPEG). Comme on a pris l'habitude d'appeler aussi JPEG le format de fchier, nous allons nous conformer à cet usage dans ce qui suit.

À la différence du format GIF (voir plus haut), JPEG conserve toute l'information couleur sur 24 bits selon le modèle RVB mais comprime les fchiers en éliminant certaines données. Une image JPEG est automatiquement décomprimée

104 http://www.astrosurf.org/buil/us/coolpix_raw/raw.htm (visité le 19/07/2007)105 http://www.adobe.com/products/dng/ (visité le 24/07/2008)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 46/72

Page 18: C. La numérisation des images et des textes

lorsque l'on ouvre le fchier qui la contient. JPEG reconnaît les couleurs 24 bits, et est donc conçu pour comprimer des images en « vraies » couleurs ou à échelle de gris. Il fonctionne bien sur des photographies, mais moins bien sur des textes ou des dessins au trait. JPEG permet à l'utilisateur de choisir le degré de compression et donc le compromis à faire entre la taille du fchier et la qualité de l'image. Les taux de compression vont de 10 à 40.

f. f. Le JPEG 2000Le JPEG 2000

Le format JPG2000, récent standard ouvert, apporte des améliorations importantes par rapport au format JPEG actuel, notamment :

• la possibilité de compression sans perte, • la décompression progressive, • la compression par ondelettes, • la prise en charge de couleurs 48 bits (3 plans de 16 bits). • Il permet d'implémenter des schéma de métadonnées dans sa structure interne. • Il est utilisé comme technologie sous-jacente dans des applications médicales de pointe. • Il est conçu pour faciliter la visualisation en multi résolutions

Attention, tous de logiciels ne savent pas encore le lire. Cependant, il est apparu récemment comme un concurrent très sérieux du TIFF : Certains106 argumentent fortement pour le choix du JPEG2000 comme format d'archivage et de consultation des données images.

« Avec JPEG 2000, une application peut n'accéder et ne décoder que la partie de l'image sur laquelle elle effectue une tâche. Cela signife qu'un programme de visualisation peut, par exemple, ouvrir une image d'un Gigapixels pratiquement instantanément en ne décompressant tout d'abord qu'une version en basse résolution puis décompresser et visualiser les zones zoomées très rapidement. L'image peut être convertie en JPEG pour une visualisation sur un navigateur standard ou bien visualisée via un plug-in spécifque. Il est possible de ne produire qu'une seule image maître – éliminant la nécessité de produire et de stocker des images dérivées – qui sera exploitée en de multiples résolutions, d'où une simplifcation et un gain de place pour le stockage. Beaucoup de projets utilisant le JPEG-2000 le font avec son option de compression « quasiment non destructive » qui, bien que perdant des informations, produit des artefacts non décelables qui n'interfèrent pas avec les traitements d'images ultérieurs. Comparés aux fchiers TIFF, les fchiers JPEG-2000 de qualité identiques « pèsent » facilement 10 fois moins lourd voire encore moins. ».107

Exemple de tailles constatées avec un rapide test utilisant Gimp pour créer les différents fchiers :

Format JPEG JPEG-2000 (compression 20) TIFF (LZW non destructif)

Taille d'image 4,7 Mo 1,3 Mo 18,8 Mo

Tableau 2: Test de tailles d'images à qualité perçue équivalente en JPEG, JPEG-2000 et TIFF

Veille du 6/10/2009 : « The Wellcome Library, anticipating a growth in digitization of library materials as it takes forward an ambitious digitization program, recognises the value of effciency in storing its digital content whilst maintaining the high levels of quality and open standards required for long-term preservation. However, JPEG2000 comes in a variety of "favours" and comprises 12 "parts", as explained in the JPEG2000 specifcation.

Seeking to determine exactly which JPEG2000 format to use to meet the aims of long-term storage and accessible delivery services, the Library commissioned a report by Simon Tanner, Director of King's Consultancy Service (KDCS). The report was written in conjunction with Robert Buckley of Xerox Corporation, an expert in the technical specifcations of the JPEG2000 format.

As a result of the recommendations and conclusions provided in the report, the Wellcome Library will adopt a "visually lossless" lossy compression to gain at least 75% storage savings in comparison to a TIFF version (depending on the type of material being digitized). The recommended compression parameters will produce an image with no visible difference in image quality, but the compression is irreversible - i.e. the original bit stream will not be possible to reconstruct. As the Library will be digitizing physical items that can (if necessary) be re-digitized, it was considered an acceptable compromise.

Embedding multiple resolution layers and tiling will facilitate dissemination, allowing a single image fle to address multiple needs (such as thumbnails, screen resolution, and print resolution). In future, the Library will incorporate a web delivery system that can exploit these characteristics to create on-the-fy derivatives that can be viewed through a browser or downloaded (e.g. JPEG and PDF). »108

106 http://dltj.org/2007/02/jpeg2000-for-digital-preservation/ (visité le 19/07/2007)107 http://www.dpconline.org/docs/reports/dpctw08-01.pdf (visité le 24/07/2008)108 http://wellcomelibrary.blogspot.com/2009/09/wellcome-library-to-use-jpeg2000-image.html (visité le 6/10/2009)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 47/72

Page 19: C. La numérisation des images et des textes

g. g. Le PNGLe PNG

Le format PNG (Portable Network Graphics — graphique réseau portable) a été mis au point comme un format ouvert de remplacement pour le format GIF. Le format PNG est employé pour la compression sans perte et l'affchage d'images dans Internet. À la différence du format GIF, PNG prend en charge des images 24 bits et plus, de même que les nuances de gris et le modèle de couleurs RVB, et peut produire un arrière-plan transparent sans crénelage, anti alisasé, grâce à une couche alpha de transparence à 256 niveaux. Attention, certaines anciennes versions de navigateurs Web peuvent ne pas reconnaître les images PNG.

h. h. Le PhotoCDLe PhotoCD

Le format Photo CD est un ancien format propre à Kodak mis au point pour le stockage sur disque optique compact d'images numériques en couleurs de grande qualité. Photo CD enregistre plusieurs images selon une structure de fchier appelée Imagepac. Photo CD, qui fait appel à une technique de compression avec perte, convient bien au stockage des documents initialement sur pellicule comme des diapositives 35 mm. Il prend en charge la gestion des couleurs. Le format PhotoCD peut être employé pour les fchiers d'archives mais il faut reconnaître qu'il n'a pas connu un succès de masse, essentiellement à cause de la nature propriétaire de ce format. Il a été suivi par le format Picture CD (essentiellement du JPEG) pour le grand public mais certaines professionnels des arts graphiques continuent à privilégier le Photo CD.

i. i. Le BMPLe BMP

Le format BMP (bitmap — mode point) est un format commun reconnu par la plupart des applications Windows. Il reconnaît les modèles de couleur RVB, fausses couleurs, échelle de gris et mode point. Les images sont stockées dans un format en mode point indépendant de l'appareil, qui permet à Windows de les affcher sur n'importe quel écran. Le format est dit indépendant de l'appareil parce que la couleur des pixels est spécifée sous une forme indépendante de la méthode employée par l'appareil pour représenter les couleurs. Le format BMP reconnaît des données 24 bits sans compression intégrée. Il fait appel à la technique RLE (Run Length Encoding — codage à l'exécution) pour comprimer des données 8 bits, ce qui est effcace pour des graphiques mais beaucoup moins pour des photographies en tons continus (cf ci-dessus).

j. j. L'EPSL'EPS

Le format EPS (Encapsulated PostScript) prend en charge des images vectorielles et matricielles, et est reconnu par presque tous les programmes d'infographie, d'illustration et de mise en pages. Lorsque l'on ouvre à l'aide de PhotoShop un fchier EPS qui contient des graphiques vectoriels créés à l'aide d'une autre application, PhotoShop le convertit en une image matricielle en transformant les primitives en pixels. Les fchiers EPS contiennent également de l'information qui décrit la structure des pages. Le format EPS est reconnu dans tous les ordinateurs, mais les fchiers PostScript ne sont pas tous de structure identique et donc pas toujours lisibles d'un programme à l'autre.

k. k. Le FlashPixLe FlashPix

FlashPix est un nouveau format ouvert, mis au point par Kodak, Hewlett-Packard, Live Picture et Microsoft. Les images sont stockées en plusieurs résolutions dans un seul fchier. FlashPix prend en charge un certain nombre d'autres caractéristiques dans le but de répondre à des besoins du marché actuel du traitement d'images, en ce qui concerne notamment le droit d'auteur (fligrane numérique), les métadonnées, les ressources informatiques, la gestion des couleurs et la compression JPEG.

l. l. Le PSDLe PSD

Le format propriétaire PSD est le format d'origine de PhotoShop d'Adobe. C'est surtout un format de travail qui permet de conserver les calques, les masques, etc. Il peut coder la couleur sur 8, 16, 24 ou 32 bits, donc le noir et blanc, la couleur RVB et CMJN. Il est parfois compressé par la compression RLE. L'équivalent pour Gimp est le format xcf. Ce n'est pas un format de conservation de l'information, ni de diffusion.

m. m. le TGAle TGA

Le format TGA (TARGA) a été le premier format populaire conçu pour des images à haute défnition. Un fchier TGA peut être non comprimé, ou comprimé selon la technique RLE, ou encore un mélange de RLE, Huffmann et codage delta. Le format TGA reconnaît des images à échelle de gris, des images en couleurs 8, 16, 24 et 32 bits, ainsi que des images en fausses couleurs.

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 48/72

Page 20: C. La numérisation des images et des textes

n. n. Le PDFLe PDF

Le format PDF (Portable Document Format)109 constitue une norme mondiale de fait pour la transmission et l'échange de documents numériques. C'est un format de choix pour l'archivage de documents (Research Reveals PDF is Format of Choice for Document Archiving110). Le format PDF a été conçu par la société ADOBE. Le format PDF est ouvert, il n'est pas nécessaire d'utiliser le logiciel payant Adobe Acrobat pour la création de fchiers PDF car certaines entreprises ou personnes ont développé des systèmes, des programmes et des méthodes permettant de créer du PDF gratuitement. (voir par exemple PDFcreator ou OpenOffce.org).

I. I. LLESES AVANTAGESAVANTAGES DUDU FORMATFORMAT PDF : PDF :

• permet de garder l'aspect et la mise en page d'origine quelles que soient les polices utilisées, les applications (traitement de textes, logiciel de Publication Assistée par Ordinateur, tableur, base de données, etc...) et les images. Le document au format PDF s'imprimera exactement comme ce que vous apercevez à l'écran, il est «WYSIWYG» (What You See Is What You Get : ce que vous voyez est ce que vous obtenez).

• un format ouvert — Le standard de facto de l'échange d'informations électroniques résolument plus sécurisées et fables — reconnu par les secteurs d'activité et administrations du monde entier. Conforme aux standards du marché, notamment PDF/A (cf ci-après), PDF/X et PDF/E.

• un format multiplate-forme — Consultable et imprimable sur toute plate-forme — Macintosh, Microsoft® Windows®, UNIX® et nombre de plates-formes mobiles.

• un format Fiable — Avec plusieurs centaines de millions de documents PDF actuellement publiés sur le Web, les établissements sont nombreux à faire confance à la technologie Adobe PDF pour collecter des informations.

• un format qui permet la Préservation de l'intégrité des informations — Les fchiers Adobe PDF sont fdèles aux documents originaux et les informations du fchier source sont préservées — texte, dessins, images couleur 3D, photos — quelle que soit l'application utilisée pour le créer.

• un format qui permet la Sécurisation des informations — Vous pouvez apposer une signature numérique ou protéger par mot de passe des documents Adobe PDF.

• un format qui permet l'Indexation.

• un format qui permet l'Accessibilité — Compatibles avec les technologies d'assistance, les documents Adobe PDF facilitent l'accès aux informations électroniques des personnes souffrant de handicaps.

II. II. LLESES INCONVÉNIENTSINCONVÉNIENTS DUDU FORMATFORMAT PDF PDF

• Même s'ils peuvent l'être dans des proportions réduites, les documents au format PDF ne sont pas faits pour être modifés. Le format PDF a été conçu pour la publication, la diffusion, l'archivage de documents publiables et l'impression.

• Si vous souhaitez modifer un document au format PDF, il faut utiliser le logiciel payant Adobe Acrobat (qui propose par ailleurs beaucoup d'options concernant la protection, les hyperliens, l'organisation et le plan du document...) qu'il ne faut pas confondre avec le logiciel gratuit Adobe Acrobat Reader (qui permet seulement de lire et d'extraire des données ).

III. III. UUNENE NORMENORME INTERNATIONALEINTERNATIONALE POURPOUR LL''ARCHIVAGEARCHIVAGE, , LELE PDF/A PDF/ARCHIVERCHIVE SSECURESECURES ISO A ISO APPROVALPPROVAL

• Article du blog Zaphir111 : Une partie du format PDF a été normalisé par l'ISO, sous la référence ISO 19005, Gestion de documents — Format de fchier des documents électroniques pour une conservation à long terme Partie 1: Utilisation du PDF 1.4 (PDF/A-1). Il est possible de l'acquérir sur le site de l'ISO . Cette norme est mieux connue sous le nom PDF/A ou PDF Archive.

• Le format PDF (Portable Document Format) y est défni comme un "format d'échange de documents électroniques qui permet de transmettre des documents contenant du texte, des graphiques, des images et de la couleur, indépendamment du matériel et du système d'exploitation utilisés". Ce format a été proposé en tant que norme internationale afn d'assurer l'archivage pérenne des documents électroniques.

109 http://fr.wikipedia.org/wiki/Portable_Document_Format (visité le 19/07/2007)110 http://www.aiim.org/Research/PDF-Format-of-Choice-for-Document-Archiving.aspx (visité le 26/08/2009)111 http://zaphir.canalblog.com/archives/2005/10/14/893371.html (visité le 19/07/2007)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 49/72

Page 21: C. La numérisation des images et des textes

• Attention, la normalisation concerne uniquement une partie du format. C'est-à-dire que l'encodage de certains contenus multimédia contenus dans les versions récentes du format PDF ne sont pas concernées par cette norme. Pour en savoir plus, consultez l'article « PDF/A-1, PDF for Long-term Preservation, Use of PDF 1.4 »112 ou le site d'Adobe113

• A noter, le PDF 1.7 a été récemment été accepté comme standard ISO (ISO/DIS 32000)114

• Un article simple pour bien comprendre sur le blog « Formats ouverts »115.

• Un ensemble de recommandations pour créer des pdf adaptés à la préservation à long terme : Recommendations for the creation of PDF fles for long-term preservation and access116

o. o. XPS, le « PDF-Killer de MicrosoftXPS, le « PDF-Killer de Microsoft »»117117

Malgré la force de frappe de Microsoft, on entend guère parler de XPS. Microsoft cherche maintenant à le faire normaliser comme l'a été le PDF/Archives.

p. p. Le DjVuLe DjVu

Le format DJVU (référence118 et article Wikipedia119). Format très adapté à la publication des documents dont le fond n'est pas blanc puisqu'il code séparément le fond de page du texte pour arriver à des taux de compression impressionnant tout en conservant une qualité visuelle excellente. Problème, ce format nécessite un plug-in pour être visualisé et ce dernier ne s'est jamais démocratisé. Très intéressant tout de même.

q. q. HD Photo de Microsoft - JPEG XRHD Photo de Microsoft - JPEG XR

Un nouveau venu120 : Le 8 mars 2007 à Las Vegas, lors du International Convention and Trade Show du Photo Marketing Association 2007, Microsoft a annoncé le lancement de son nouveau format destiné à la photo numérique haute défnition, HD Photo. Premier point à noter, le format du nom : HD Photo n'évoque en rien Windows ou Microsoft... alors que le nom initial était Windows Media Photo (WMPhoto). Ce nouveau format est en concurrence avec le JPEG ou le JPEG 2000. Microsoft avance qu'il possède un meilleur taux de compression, donc un poids moindre, et une meilleure qualité.

Veille : le 17/07/2009 ce format est devenu un standard ISO/IEC 29199-2 sous le nom de JPEG XR

r. r. Les formats de visualisation fash (issuu, fuidbook, …) Les formats de visualisation fash (issuu, fuidbook, …)

L'année 2009 voit arriver de nouveaux modes de publications de documents visuels, à l'image de la révolution qui a eu lieu les années précédentes pour la vidéo avec YouTube (entre autres). Ces nouveaux services utilisent le Flash pour proposer une interface de consultation intégrée et très simple à mettre en œuvre. Ces services connaissent un très grand succès et peuvent sans aucun doute être utilisés pour la diffusion des documents issus des projets de numérisation. Services phares : Issuu121 et fuidbook122 mais il y en a d'autres. Préférez les services qui permettent une installation en local des documents à visualiser.

s. s. ConclusionConclusion

Le choix d'un format de diffusion peut se discuter. Les formats les plus pertinents sont souvent JPEG ou PDF. Tout autre choix devra être motivé très sérieusement eu égard des risques de diffculté de confguration (installation de plug-ins, etc.) et d'accessibilité des images.

Par contre, il y a peu de formats reconnus pour archiver les fchiers (fchiers maîtres) :

• TIFF est le format le plus courant, de plus il contient une en-tête compatible avec les champs IPTC, ce champ est de plus en plus utilisé par les photographes ou les documentalistes car il permet d’indiquer un certain nombre

112 http://www.digitalpreservation.gov/formats/fdd/fdd000125.shtml (visité le 19/07/2007)113 http://www.adobe.com/fr/products/acrobat/pdfs/pdfarchiving.pdf (visité le 19/07/2007)114 http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=45873 (visité le 10/7/2008)115 http://formats-ouverts.org/blog/2007/05/03/1190-autour-du-format-pdf (visité le 19/07/2007)116 http://www.kb.nl/hrd/dd/dd_links_en_publicaties/PDF_Guidelines.pdf (visité le 24/07/2008)117 http://www.itjungle.com/two/two011806-story01.html (visité le 19/07/2007) 118 http://www.mosarca.com/2000/pdf/pdf99/DJVU170.pdf (visité le 19/07/2007)119 http://en.wikipedia.org/wiki/Djvu (visité le 19/07/2007)120 http://formats-ouverts.org/blog/2007/03/09/1132-hd-photo-nouveau-format-de-microsoft (visité le 19/07/2007) 121 Http://issuu.com (visité le 16/09/2009)122 Http://www.fuidbook.com (visité le 16/09/2009)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 50/72

Page 22: C. La numérisation des images et des textes

d’informations relatives d’une part à l'acquisition de l'image, et d’autre part à l'origine ou l'auteur de l'image (voir chapitre "comment renseigner les champs IPTC").

• De plus en plus le JPEG-2000 pour les raisons évoquées ci-dessus...

• JPG : à utiliser lorsque vous êtes amenés à archiver des images contenant un très grand nombre de pixels. Cependant, il faut être conscient des limites et des artefacts qu'entraîne l'utilisation de ce format. Cf « What is Inside a JPEG File »123 pour plus de détails. JPEG-2000 tend à supplanter JPG pour ces très grosses images.

Choisir une profondeur de couleur de 24 bits. Les fchiers images maîtres rencontrés dans les projets de numérisation ont une taille classiques de 4000x6000 pixels.

Tout autre choix de format devra être motivé très sérieusement eu égard des risques d'obsolescence et donc de pérennité des informations numérisées. Cf « Ecrire un cahier des charges de numérisation – Annexe 1 – Recommandation sur les caractéristiques techniques des fchiers images »124 des Archives de France, qui fournit une liste de recommandations pour un grand nombre de documents analogiques :

• Documents textuels manuscrits ou dactylographiés, sans image tramée• manuscrits ou dactylographies feuille à feuille• registres manuscrits ou dactylographies – double page (avec option page par page)

• documents iconographiques et cartographiques, sans image tramée• plans au trait monochromes• plans en couleurs ou au lavis, vues architecturales, cartes, affches, lithographies à encre couleur,

sanguines, dessins• dessins en couleurs, peintures, aquarelles…• estampes, affches au trait, dessins au trait, à la plume, lithographies en noir…

• documents photographiques, sans image tramée• tirages photographiques, polaroïds, héliogravures, cartes postales sans trame10 • plaques photographiques en verre, planflms• autochromes, ektas de grand format positifs en couleurs• négatifs standards de petit et moyen format (135, 4x4, 620, 120, 220), flms 65 mm, et amateurs (126),

pocket, disc, advantix • diapositives standards de petit et moyen format (135, 4x4, 620, 120, 220), et amateurs (126), stéréoscopies

sur flm, flms fxes (35mm)• documents avec images tramées

• imprimés reliés ou non avec similigravures et textes • journaux, quotidiens - reliés ou non

• microformes• microflms 16 et 35 mm noir et blanc• microfches a6, cartes à fenêtre 35 mm• microflms 35 mm et microfches a6 couleur

8. L'OCR

a. a. PrincipePrincipe

La reconnaissance optique de caractères (OCR : Optical Character Recognition) est un ensemble de techniques informatiques qui réalisent une reconnaissance de la forme des caractères, après captation d’image par procédé optique. Le résultat de ce traitement est un fchier informatique de traitement de texte.

Pour la reconnaissance des caractères, trois techniques sont utilisées :

• Comparaison par modèles : Il s’agit d’une technique qui consiste à comparer le signe du texte avec un modèle préenregistré.

• Extraction de propriétés : C'est un ensemble de techniques qui consistent à déterminer les propriétés géométriques des caractères à reconnaître, telles que les fns de segments, les angles prononcés, les croisements, etc.

• Méthodes structurelles : C'est un ensemble de méthodes dont le principe consiste à exprimer une lettre par une combinaison d’attributs généraux, comme par exemple, le rapport entre la hauteur et le largueur du caractère, etc.

Attention, des études réalisées par des équipes de chercheurs montrent que la reconnaissance optique de caractères tentée sur des documents anciens qui utilisent des polices de caractères désuètes donnent de très mauvais résultats, tels qu'il est plus économique de les faire saisir par des dactylos. Étudier au cas par cas l'opportunité d'utiliser ces technologies.

123 http://www.imaging.org/resources/web_tutorials/inside_jpeg/inside_jpeg.cfm (visité le 19/07/2007)124 http://www.archivesdefrance.culture.gouv.fr/static/1309 (visité le 28/09/2009)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 51/72

Page 23: C. La numérisation des images et des textes

b. b. LogicielsLogiciels

Omnipage Pro, ReadIris, FineReader

À noter, il est désormais possible d'utiliser des logiciels d'OCR en ligne, comme par exemple FineReaderOnline125 Free-OCR126 ou encore OCT Terminal127

c. c. Notes/commentaires sur l'OCRNotes/commentaires sur l'OCR

• Les améliorations apportées sur ce genre de produit ces derniers temps ont porté sur l'amélioration de l'algorithme de reconnaissance bien sûr, mais également sur la reconstitution de la mise en page.

• Le logiciel consulte même des dictionnaires spécialisés pour réduire encore le taux d'erreur qui reste, malgré tout, non nul. Toute opération professionnelle d'OCR nécessite une relecture humaine.

• A noter, l'OCR le plus fable est réalisé sur les encres magnétiques des numéros de chèques (1 erreur tous les 20,000 à 30,000 chèques) qui combine reconnaissance optique et magnétique.

• Veille : le projet Google Book utilise une caméra infra-rouge améliorant le fonctionnement de l'OCR : « Google created some seriously nifty infrared camera technology that detects the three-dimensional shape and angle of book pages when the book is placed in the scanner. This information is transmitted to the OCR software, which adjusts for the distortions and allows the OCR software to read text more accurately. No more broken bindings, no more ineffcient glass plates. »128

d. d. Le format des données issues d'un processus d'OCRLe format des données issues d'un processus d'OCR

Les données issues d'un processus d'OCR sont enregistrées dans des fchiers de bureautique (traitement de texte ou feuille de calcul). On portera une attention très importante aux formats de fchier choisis. La meilleure pérennité des informations est obtenue en choisissant des formats ouverts et structurés, soit, dit autrement, des formats décrits et publiés en DTD ou schéma XML. La DTD doit être ouverte, sous licence libre, pour garantir qu'aucun opérateur privé ou autre, ne puisse vous empêcher à l'avenir d'accéder aux données et d'y effectuer des traitements. La meilleure option est de choisir le format « OpenDocument », normalisé, implémenté dans OpenOffce.org v3.0129. Il est à noter que Microsoft s'était vu refuser la normalisation du format XML de sa dernière suite bureautique, concurrent d'OpenDocument, en septembre 2007. Il a depuis réussi à inverser ce résultat. Il y a donc aujourd'hui deux normes incompatibles pour le même usage (et des études ont montré qu'il sera très diffcile de passer de l'une à l'autre).

9. Le contrôle qualité

a. a. Plan d'assurance-qualitéPlan d'assurance-qualité

Il est important, dès le moment de la conception du projet, de défnir un plan qualité130 :

• Assurance-qualité du processus. Le projet de numérisation doit être guidé par : les spécifcations du projet, les critères de sélection, le manuel des procédés décrivant tous les processus étape par étape, les thésauri et vocabulaires à utiliser.

• Assurance-qualité des opérations automatisées : gestion des fchiers, création de fchiers dérivés, extractions automatiques de métadonnées

• Assurance-qualité des contrôles manuels qui permettront de préciser les paramètres du processus. Ces contrôles devraient être effectués par une personne différente de l'opérateur qui a suivi le process de numérisation. Les contrôles manuels doivent être signés et horodatés pour une tracabilité maximale.

• Retour usagers. Il faut permettre à l'usager fnal d'effectuer un retour sur les erreurs ou les problèmes qu'il a rencontré ou détecté.

b. b. Validation technique des images numérisées. Exemple de l'histogrammeValidation technique des images numérisées. Exemple de l'histogramme

Grâce à différents outils des logiciels graphiques tels que Photoshop où Gimp, et grâce à un contrôle visuel sur un bon moniteur correctement étalonné. Nous verrons parmi ceux-ci l'histogramme de couleurs. Il y en a d'autres. Cf « Best Practice Guidelines for Digital Collections at the UM Libraries 131 Appendix VI: Quality Control for Images »,

125 http://fnereaderonline.com visité le (26/08/2009)126 http://www.free-ocr.com/ visité le (26/08/2009)127 http://www.ocrterminal.com visité le (26/08/2009)128 http://www.guardian.co.uk/technology/blog/2009/may/04/google-gadgets (visité le 26/08/2009)129 http://www.oasis-open.org/committees/tc_home.php?wg_abbrev=offce (visité le 19/07/2007)130 http://www.tasi.ac.uk/advice/creating/qassurance.html (visité le 14/09/07)131 http://www.lib.umd.edu/dcr/publications/best_practice.pdf (visité le 19/07/2007)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 52/72

Page 24: C. La numérisation des images et des textes

« Quality Assurance / Introductory Information»132 et « Quality Assurance / In-depth Reports »133 pour une checklist de contrôle qualité des images.

L’histogramme est l'outil le plus simple pour jauger rapidement de la qualité d'une numérisation du point de vue de la reproduction des couleurs. L’histogramme :

• est un graphe d’occurrence d’un niveau de gris ou d’une couleur. Il vous renseigne sur la répartition des niveaux de gris de votre image et des niveaux de luminosité des couches RVB de votre image.

• est un indice de la qualité de restitution de votre image, il pourra vous aider à estimer la qualité d’exposition de votre numérisation.

• donne aussi une image rapide de la gamme de couleurs tonale de l'image ou du type de dominante.

L’axe horizontal de l'histogramme représente les valeurs colorimétriques des pixels, des plus sombres à gauche (0)

aux plus claires à droite (255).

132 http://www.tasi.ac.uk/advice/creating/quality.html (visité le 14/09/07)133 http://www.tasi.ac.uk/advice/creating/qassurance.html (visité le 14/09/07)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 53/72

Page 25: C. La numérisation des images et des textes

Si la répartition est homogène, cf les 3 histogrammes de couleurs ci dessous (un par plan de couleur), la numérisation est de bonne qualité (sauf exception des images originales).

Histogramme d'une image sous-exposée

Histogramme d'une image sur-exposée

L’analyse des histogrammes de ces images, la première surexposée, la seconde sous-exposée, montre, que dans les hautes lumières et les basses lumières certaines informations de l'image ne sont plus présentes. Or, une correcte répartition des densités de l'image doit être obtenue dès la numérisation de l'image au moment du scan, sinon vous risquez de perdre des informations. Nous allons voir ci-après comment corriger les couleurs d'une image

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 54/72

Page 26: C. La numérisation des images et des textes

Comment régler l'Histogramme :

La correction consiste à défnir les points d’entrée et de sortie de votre image, c'est à dire les tons clairs et foncés. Cette correction permet généralement de redistribuer correctement les pixels des tons moyens du fchier, le cas se présente souvent avec certain scanners qui ont tendance à adoucir l'image. Pour redistribuer les tons moyens il sufft de ramener les curseurs de l'histogramme de la gauche vers la droite pour les noirs, de la droite vers la gauche pour les blancs.

10. Etude de cas

Un document très intéressant sur l'état de l'art dans la numérisation des journaux : The Current State-of-art in Newspaper Digitization - D-Lib Magazine - January/February 2008134

134 http://www.dlib.org/dlib/january08/klijn/01klijn.html (visité le 24/07/2008)

Cours numérisation (c) JMM – 2009-2010 version du 14/10/09 page 55/72