| «« Précédent | Sommaire | Suite »» |
1. QUELQUES NOTIONS TECHNIQUES ET FONCTIONNALITES POSSIBLES La surface du document est balayée à l’aide de moyens photoélectriques, et analysée selon un damier fictif recouvert de points appelés pixels (ce sont de très petits carrés blancs, noirs ou de couleur) : plus la finesse d’échantillonnage est grande, plus fidèle est l’image, c’est la "résolution" de l’image, mais plus les fichiers sont volumineux. Pour diminuer éventuellement la place occupée, on utilise des algorithmes de compression (cf. § 1.3 les modes de compression.).
La valeur numérique du pixel détermine sa couleur ou son intensité. On le code selon une unité de mesure binaire : le bit dont la valeur est 0 ou 1. Un pixel peut être représenté par un ou plusieurs bits selon le degré de gris ou de couleur désiré :
Codage du pixel
- pour les documents textuels :
- Entre 0 et 1 = soit noir, soit blanc
- pour les images fixes :
- Entre 0 et 255 = 8 bits = 1 octet (correspondant en général à un caractère). Un octet ou unité d’information permet de représenter 256 caractères ou niveaux différents. On utilise plusieurs nuances de gris pour un document en noir et blanc.
Le codage des demi-teintes est utilisé plus particulièrement pour les photos anciennes, les gravures. Ce traitement permet de restituer une trame plus nuancée, et de ce fait plus fidèle.
- Au-dessus de 255 = 2, 3 ou 4 octets (documents en couleur.)
Chaque couleur est codée sur un octet c’est-à-dire sur 256 niveaux. Le pixel couleur est codé à partir des trois couleurs élémentaires : rouge, vert, bleu ou mode RVB = 24 bits ou 3 octets, soit 16 millions de couleurs.
L’ensemble des points est enregistré dans un fichier d’images. Le format d’un fichier images le plus couramment utilisé est le format TIFF.
1.2. Résolution / définition de l’image
La résolution est la finesse d'échantillonnage (à la saisie)
La définition est la finesse du point d'affichage (à la restitution de l'image)La résolution exprime la précision de la numérisation. On calcule la résolution au nombre de pixels par pouce ou dpi (dots per inch = points par pouce; 1 pouce = 2,54 cm); elle dépendra d’une part de la qualité du document initial (support, caractères, encre, images, couleurs etc.) d’autre part du type d’exploitation désiré :
- Feuilletage rapide et signalétique : il n’est pas utile que la résolution soit de très bonne qualité.
- Lecture ou travail de recherche à l’écran sur le contenu, puis impression : une résolution moyenne d’environ 300 dpi (taux choisi par la BnF) sera suffisante, elle devra permettre une bonne lisibilité.
Pour les caractères originaux très petits ou de mauvaise qualité : 400 dpi. On peut également opter pour 600 dpi pour l’archivage, notamment lorsqu’il s’agit de manuscrits. Les Etats-Unis emploient couramment cette résolution.
Il est préférable que la résolution des images fixes soit suffisamment lisible à l’écran, sans toutefois utiliser une haute résolution à l'impression (environ 200 à 300 dpi), cela entraînera une perte d'informations par rapport au document original, mais évitera, dans la mesure du possible les reproductions pirates.
exemple : pour un ekta une résolution de 2000 dpi (3072x2048) sera utilisée pour permettre une impression A4 à 300 dpiIl est conseillé, dans certains cas, d’adopter différents taux de résolution sachant que l’on peut abaisser un taux de résolution élevé (mais pas l’inverse) : pour les images fixes, par exemple il est possible de passer d’un affichage de "vignettes" ou de "mosaïques" (la résolution d’entrée étant de bonne qualité) au plein écran qui permet cinq niveaux de résolution, et par conséquent autant de niveaux d’affichage).
La qualité des images dépendra de la taille du document original : plus le document est grand, plus la finesse des détails se perd lors de la réduction de l’image à la taille de l’écran, à l’inverse un document de petit format gagnera en lisibilité. De même, le critère de qualité dépendra également de la définition et de la résolution de l'écran de consultation. (La définition d'un moniteur s'exprime en nombre de points ou pixels en hauteur et en largeur, par exemple : 1024x768).
Dans tous les cas essayer d’obtenir une haute définition de départ, puis procéder pour la consultation à un sous-échantillonnage adapté à la diffusion sur le net.
Rappel : un octet = unité de mesure de l'information constituée de 8 bits (cf. 1.1. Procédés de numérisation)
un Kilo-octet (Ko) = 1024 octets
un Méga-octet (Mo) = un million d'octets
un Giga-octet (Go) = un milliard d'octets
un Téra-octet (To) = mille milliards d'octetsIl existe deux types de compression :
1- sans perte d’informations
2- avec perte d’informationsLes documents numérisés en mode points (ou bitmap) occupent beaucoup de place. On diminue le volume de stockage initial en le compactant. Selon les techniques, différents modes de compression permettent aux fichiers d'être moins encombrants et d'accélérer l'accès aux documents numérisés. Pour éviter une perte majeure d’informations on analyse, grâce à diverses méthodes, les variations du document original - il peut s'agir de textes en noir et blanc, de sons ou d’images (fixes ou animées, en noir ou en couleur) - Les images (documents textuels ou d'illustration) sont alors codées selon des procédés de compression.
Certaines des méthodes de compression suivantes sont utilisées selon l’avis du UIT-T (anciennement : CCITT, ou Comité Consultatif International Télégraphique et Téléphonique) :
Documents textuels
Exemple : une page de taille A4 contenant du texte et numérisée à 200 dpi occupe lorsqu’elle n’est pas compressée, un volume de 500 ko. Une fois compressée selon le G4, cette page occupe alors un volume généralement compris entre 20 et 50 ko. De même une page A4 dont le texte est numérisé à 300 dpi passe de 1 Mo à 70 Ko.
- CCITT groupe III (pour les documents en noir et blanc; méthode qui n’est pas adaptée pour les photographies)
- CCITT groupe IV ( pour les documents en noir et blanc; méthode qui n’est pas adaptée pour les photographies)
Images fixes noir et blanc, couleur
- JBIG (Joint Bi-level Image Group) qualité de compression équivalente et même supérieure à la norme CCITT groupe IV. Les images sont codées en deux niveaux, noir et blanc.
Images fixes et documents mixtes (texte et images fixes)
- JPEG (Joint Photographic Expert Group) : méthode normalisée cf. norme ISO 10918.
La compression de ce type de documents ne pouvait s'effectuer jusqu'à présent sans un choix préalable, un compromis qui privilégiait l'une ou l'autre des informations. En effet, un scanner couleur préserve la qualité de la photo mais le texte est sacrifié, à l'inverse un scanner en noir et blanc permet de conserver le texte au détriment de la photo, la troisième solution consiste à scanner séparément.
- Une méthode très récente permet de comprimer simultanément le texte et les illustrations, la technique DjVu (http://www.djvu.att.com/wid/index4.html).
Images animées :
Documents multimédia
- MPEG, MPEG2 (utilisée à la BnF pour les documents audio)
- HPEG
1.3.1. Sans perte d’informations : modes les plus utilisés
- CCITT groupes III
- CCITT groupe IV
- JBIG
1.3.2. Avec perte d’informations
Plus l’on compresse, plus la place occupée diminue, mais également les nuances, il y a donc perte en lisibilité. De surcroît, la perte d’informations s’accentue lors de la restitution des documents numérisés en vue de la visualisation, et lors de compressions et décompressions successives (en cas de changement de format ou de codification).
- Les résultats obtenus avec le mode JPEG sont variables. C’est pourtant le mode de compression des images fixes le plus utilisé. La perte d’informations est paramétrable selon les accès prévus; elle n’est pas visible à l’œil nu (à l'impression) mais il sera impossible de restituer ce qui aura été perdu. Il est possible de choisir une perte minimale d’informations, avec une restitution, si le document s’y prête, à 80% et un taux de compression de 10.
- La technique DjVu code chaque élément séparément, un document constitué de texte et d'images est traité en deux parties. La comparaison avec les autres méthodes connues fait apparaître une perte d'informations inférieure et une qualité finale 5 à 10 fois supérieure.
Le taux de qualité d’un mode de compression se définit en fonction de sa fidélité au document original. Il dépend toujours de la qualité de ce même document, (image, texte, net ou flou…), et de la définition choisie selon son usage final (consultation, et/ou publication de haute ou basse qualité, ou conservation/préservation).Remarque : les fichiers non compressés occupent beaucoup de place et par conséquent le coût de leur exploitation est élevé.
Deux modes de numérisation sont possibles :
- le mode image
- le mode textePermet de produire une photographie de chaque page du document. On obtient ainsi une copie du document en fac-similé électronique (en langage binaire). Le mode image nécessite une description bibliographique complète, comprenant une indexation établie à l’aide d’un thésaurus, qui facilitera l’accès au document.
Avantages du mode image
- c’est le mode le plus simple à réaliser
- c’est le moins coûteuxInconvénients du mode image
- il occupe de la place sur le support, donc encombrement des fichiers important.
- sans indexation, ni mots-clés, le texte ne peut être que feuilleté. Ce mode interdit toute recherche sur le texte.C’est l’image numérisée (en mode image mais avec des contrastes accentués) qui est traitée à l’aide d’un logiciel de reconnaissance optique de caractères (OCR = Optical Character Recognition). Cette méthode permet à un système de récupérer le contenu d’un document numérisé, d’une "image", sous forme de texte.
Avantages du mode texte
- permet une recherche en "plein texte " et une navigation au sein du document. Par exemple "naviguer" d’une table des matières vers un chapitre, ou de document à document.
- permet un déplacement rapide à l’intérieur d’un document
- permet une interrogation en langage naturel, facilitant l’accès simple et direct à l’information à tout utilisateur (expert ou occasionnel)
- permet d’associer la question à des critères qui caractérisent les documents (date, auteur, thème…)
- peut s’appliquer pour les non-voyants
- permet de recoder en SGML, par exemple le titre, le titre de paragraphe
- satisfaisant pour la rechercheInconvénients du mode texte
- l'OCR modifie la présentation du document original
- la recherche en plein texte peut créer du "bruit".
- l'OCR ne peut reconnaître actuellement, les caractères non latins (dont les caractères gothiques), les signes diacritiques, les lettres manuscrites. Mais les recherches continuent d'évoluer : cf. notamment la "recherche floue"
- l'OCR exige une régularité dans la typographie et l’encre, or de manière générale les documents originaux anciens, les articles de différents journaux par exemple, présentent une typographie et une impression de qualité variable.Ces défauts exigent donc une relecture très minutieuse et des corrections, par conséquent ces opérations risquent de se révéler longues, fastidieuses et coûteuses.
Pour y remédier il est possible de choisir l’option de la saisie manuelle du texte. La saisie est effectuée en général "au kilomètre" par deux ou trois personnes, ainsi les erreurs ne portent pas sur les mêmes caractères, une relecture s’impose mais s’avère moins longue, donc moins coûteuse que la méthode précédente.
Cette dernière méthode sera appliquée pour le projet de "bibliothèque virtuelle des œuvres classiques de la littérature arabe" (entre l’IMA, l’UNESCO, et la BLO).
Il paraît hors de propos de saisir un ouvrage dans son intégralité (sauf si le coût en est modique), et l’option la plus couramment choisie concerne la saisie des tables des matières, des sommaires, des bibliographies. Cette solution offre un bon compromis et facilite la recherche sur le contenu.
- pour les documents couverts par le droit d’auteur, cette saisie du texte entraîne une transformation de l’aspect initial du document original, en effet, la numérisation est une reproduction, la mise sur écran est une opération de représentation. Ces deux actes demandent autorisation des ayants droit, le problème du droit moral de l’auteur se pose également ; en conséquence il faut négocier une double autorisation.Aujourd’hui, les logiciels d’OCR, dans un certain nombre de cas, ne sont pas complètement satisfaisants, les plus performants d’entre eux qui affichaient un taux de reconnaissance de 99%, atteignent aujourd'hui un taux de 99,8% pour des documents imprimés de bonne qualité. Mais il n’existe pas de norme en matière de taux de reconnaissance optique de caractères, chaque logiciel annonçant son propre taux d’erreur, qui s’avère en réalité, et après vérification, toujours inférieur à celui annoncé par le système. Pour les documents imprimés, le niveau d'erreur toléré est de une erreur pour 10 000 caractères, la double saisie manuelle atteint en général cette "performance".
Devant l'évolution continue de la technologie, on peut espérer des améliorations :
- en terme de puissance informatique -ce qui devrait entraîner une réduction des coûts-
- en terme de compréhension du contenu, grâce à des traitements de plus en plus sophistiqués -recours à des dictionnaires et/ou à des traitements sémantiques-D’une manière générale la qualité finale dépendra :
- de la qualité de l’original (de l’encre, des contrastes qui peuvent s’atténuer avec le temps)
- de la numérisation (réglage…)
RemarquesUn autre mode de représentation, opposé au mode image est le mode vectoriel. On l’utilise principalement pour représenter des dessins géométriques, des plans, des schémas (dans la conception assistée par ordinateur ou CAO. La conversion (Raster) d’un mode de représentation vectoriel en mode points est possible.
Notes
Bitmap
Matrice de points, colorés ou non, formant une image ou un caractère. S'oppose au mode vectoriel où les éléments constitutifs d'un dessin sont décrits mathématiquement.LAD (Lecture Automatique de Documents)
Technique permettant d'automatiser au maximum la conversion d'un document papier, même complexe, en document électronique. La LAD fait appel à des traitements automatisés de repérage des erreurs ou vidéocodage.
Le document est numérisé à l'aide de scanners à haut débit (8 000pages/heure). L'image est traitée grâce à un programme qui repère et corrige automatiquement les problèmes d'alignement ou de parallélisme.
Avantages et limites de cette technique : solution compétitive essentiellement pour les documents en bon état (qualité de l'impression, du papier, de la conservation) conçus dès le départ pour une exploitation automatisée (par exemple des formulaires), donc nécessitant très peu d'intervention humaine. Dans le cas contraire, une intervention humaine importante entraînera une augmentation du coût.Norme Z 39.50 ou ISO 239.50
Doit permettre l'interrogation simultanée de catalogues.Plein texte
Le "plein texte" ou "full text" est un mode d'indexation et de recherche qui permet de retrouver un document par un ou plusieurs mots quelconques du texte, d'un champ, ou d'un formulaire associé (bordereau d'indexation, ou fiche d'identification du document).Recherche floue
Le système de "recherche floue" permettrait de retrouver des mots mal reconnus par l'OCR sur l'image même du document. En effet, en accédant directement à l'image recherchée sans avoir à passer par le texte issu de l'OCR, l'utilisateur retrouve le document, mais le texte issu de l'OCR, peut dans un deuxième temps être accessible pour une utilisation par traitement de texte par exemple.
1.4.3.1. Les scanners
Il en existe différentes sortes :
- le modèle le plus simple permet de numériser les feuilles volantes - un autre modèle (le "flat bed"), permet de numériser les ouvrages à plat. Il faut dans ce cas appuyer l’ouvrage ouvert contre la vitre du numériseur (gros inconvénient pour les reliures et les ouvrages épais )
- avec le troisième modèle, l’appareil photo-numérique, l’opération ressemble à une prise de vue. Une caméra de numérisation photographie l’ouvrage ouvert selon un angle raisonnable. Certains procédés, rectifient la courbure, évitant ainsi d’écraser l’ouvrage.
La caméra numérique est réglable et s’adapte à la taille du document à numériser. Cependant, il est déconseillé de numériser les documents de grand format pour lesquels la perte d’informations est notable sans un matériel très performant.- le dos numérique haut de gamme permet de numériser un document opaque de 60 cm dans une résolution de 300 dpi (7000 pixels x 7000 pixels)
- Pour un usage courant, et toujours en appréciant le type de document à numériser et son usage final, de petits numériseurs peuvent être utilisés ils sont peu coûteux et d’utilisation simple. Il s'agira de bien doser la résolution : trop haute les défauts du papier sont visibles, trop basse, la lisibilité n’est pas bonne.
Les numériseurs à diapositives :
- les scanners à plat, certains très performants sont relativement onéreux.
- les grosses stations de type carrousel à diapositives, malgré leur prix élevé satisfont davantage des exigences grand-public
- les scanners à tambour recommandés pour la photogravure (également coûteux).1.4.3.2. Supports de prise de vue
Pour les gros ouvrages un plateau compensateur permettrait de photographier alternativement chaque page sans abîmer le document : une " balance " de type Roberval est intégrée à une station de numérisation comprenant également un PC.
Mais ce type de matériel (scanner + support) est d’un coût très élevé, lourd (il peut peser 300 kg), encombrant, il est cependant le seul actuellement à permettre l'utilisation d'une lumière froide lors de la numérisation.
1.4.3.3. Les graveurs :
Il est possible de récupérer les données numérisées et de les graver sur CD-R à la bibliothèque même. Il s’agit d’une opération simple à réaliser. On peut graver jusqu’à 250 images par CD. Nombre de fichiers par CD = 650 000 ko/poids du fichier en ko.
Remarques
La chaîne de traitement numérique à l’IRHT sur les images couleur peut servir d'exemple. Les données numérisées sont traitées selon des profils à déterminer (un profil est un ensemble de paramètres de calibrage du scanner qui appartient à une qualité de document) :
La restitution cohérente des couleurs s’effectue en utilisant des chartes de couleur : chaque fabricant de scanner code les couleurs selon certaines références qui lui sont propres. On calibre le circuit des couleurs depuis la source (scanning) jusqu’au périphérique de sortie (imprimante), en passant par la visualisation (pour la densité de l’image). La charte (IT8) établit des liens de couleur. On peut ainsi dès le départ régler les couleurs et en vérifier la qualité immédiatement.
Les fichiers ainsi corrigés sont archivés en format TIFF.Il faut vérifier la qualité du matériel utilisé et les opérations annexes en cours d'exploitation et de production : paramétrage de scanning, format, rapidité, intensité, lumière, calibrage.
1.5. Stockage des fichiers et des supports : conservation /consultation
Il s’agit de considérer :
- le stockage en vue de la conservation
- le stockage en vue de l’exploitation/consultation.L’aspect évolutif de cette technologie ne doit pas être négligé. La numérisation une fois effectuée, qu'adviendra-t-il des outils d’exploitation pour l’accès à l’information, ne seront-ils pas obsolètes dans quelques années ? Comment retrouver une information si les logiciels du marché ont évolué, si l’on ne peut plus lire une disquette, si les supports eux-mêmes se sont dégradés.
Il sera donc nécessaire de faire migrer les données numériques régulièrement sans pour autant porter atteinte à l'intégrité des informations. Les critères à respecter concerneront le format des données et les supports utilisés pour l'archivage et la diffusion.Le résultat de la numérisation doit être exploitable et pérenne dans la mesure du possible au même titre que le document original. Le format constitue un élément clé pour la pérénité du document numérisé car il conditionne sa lisibilité à moyen et long terme.
On se limitera donc dans le choix des formats à ceux qui présentent le caractère de stabilité et de normalisation nécessaires -préférer un produit standard du marché.Il faut distinguer les formats source qu'il est possible de retraiter, des formats de restitution des données que l'on ne peut modifier.Exemples :
Les formats source : WORD, RTF, ASCII, UNICODE (codage de caractères sur deux octets pouvant intégrer tous les alphabets internationaux, en passe de remplacer l'ASCII), HTML, SGML, XML ;
Les formats de restitution : PDF, Postcript, Bitmap, TIFF, PCL, JPEG (possibilité de le charger sur photoshop et de le modifier ; par définition, il sera dégradé par rapport au format source).
L'on peut citer notamment :
- pour les images bitonales noir et blanc sans niveau de gris, le texte : TIFF groupe 4A noter la position favorable du format PDF (bien que format propriétaire), qui permet de conserver l'apparence de la mise en page originale. Il faudra cependant envisager pour plus de sécurité de numériser par scanner ou par logiciel (c'est-à-dire rasterizer), les documents considérés, car le seul format fiable par rapport au document original est le format image.
- pour les images couleur et/ou niveaux de gris : JPEG
- pour les documents composites (en provenance de traitement de texte ou de chaîne PAO) il n'existe aujourd'hui aucun format qui présente ce caractère d'universalité.Il est conseillé de compresser les fichiers images pour la diffusion des données, mais à l’inverse d’en garder une version non compressée, un "brut de scan" en format TIFF par exemple (cf. la chaîne de traitement à l'IRHT), d’une part, aux fins de sauvegarde et de conservation, et d’autre part, afin d’être en mesure de les convertir ultérieurement en d’autres formats au fur et à mesure de l’évolution de ces derniers avant que le matériel utilisé ne s’avère obsolète.
Il faut donc être très attentif à tout ce que propose le marché dans ce domaine, en instaurant éventuellement un système de veille.
Les experts de la BnF conseillent d’utiliser d’une part, des supports normalisés, assez répandus, connus, décrits avec une espérance de vie très confortable (cf. norme ISO); d’autre part de stocker les données sur un format indépendant de l’application qui l’aura généré, donc de dissocier conservation et exploitation.
Microforme : durée de vie de la microforme : environ 100 ans. Lorsqu’il y a un début de dégradation cette dernière est visible.
Supports magnétiques (disque et bande) : durée de vie de l’enregistrement des informations sur support magnétique : 2 ans environ, ce sont des supports réinscriptibles.
Supports optiques DON, CD, DVD :
DON : les disques optiques numériques sont inscriptibles progressivement et régulièrement, ils sont utilisés pour la collecte des données. DON réinscriptible pour lequel il existe deux technologies : le disque magnéto-optique (MO), et le disque à changement de phase ou Phase Disk (PD)
DON-WORM (Write Once Read Many ) : fragile, durée de vie environ 5 ans.
CD : les disques compacts sont inscriptibles en une seule opération et sont utilisés pour la diffusion des données. CD-ROM (Compact Disc Read Only Memory) : durée de vie du CD-ROM, entre 10 et 20 ans environ. Uniquement accessible en lecture.
CD-RW : réinscriptible jusqu'à 650 Mo, c'est la version effaçable du CD.
CD-R (appelé également CD-WORM) : compatible avec le CD-ROM. Aussi fragile que le CD-WORM.Le CD non réinscriptible ne doit pas être considéré comme un support de conservation à long terme. Avec le temps, l’information se détériore.
DVD (Digital Versatil Disk) : le dernier né des supports appelé vraisemblablement à supplanter le CD, grâce à sa grande capacité de stockage 4 Go contre 650 Mo pour le CD. Mais pour l’instant, le choix n’est pas définitivement arrêté sur un seul type de DVD standard. Il se décline en plusieurs versions, mais chacune d'entre elles nécessite un type de cartouche spécifique ou de lecteur :
DVD-Vidéo utilisé pour la diffusion de films
DVD-ROM utilisé pour des applications multimédia informatiques (équivalent du DVD-Vidéo)
DVD-R inscriptible une fois (comme le WORM), et supporte plusieurs modes d'enregistrements
DVD-RAM est la version enregistrable et effaçable du DVD.Le format d’enregistrement des données est normalisé selon la norme ISO 9660.
Exemple : ASCII pour le texte, TIF/GIF pour les images.Le support lui-même doit avoir une robustesse intrinsèque (cf. le disque en verre) et être exploitable le plus longtemps possible. Il devra être conservé dans les meilleures conditions (à l'abri des chocs, de la poussière, de la lumière, de l'humidité).
Un projet de norme ISO 12024 préconise des tests à différents niveaux sur les CD pour s'assurer de la lisibilité des informations enregistrées, les vérifications portent sur la qualité de l'enregistrement et de la préservation des données.la BnF a choisi de stocker deux téra-octets issus de la numérisation d'environ 86 000 ouvrages sur CD en verre dont la durée de vie est estimée à une centaine d’années voire davantage -le caractère pérenne du verre se double d'une résistance aux chocs. Le coût assez élevé de ce support devant être apprécié sur le long terme et le niveau de sécurité qu'il induit.
1.5.2.2. Exploitation/Consultation :
Les données destinées à la diffusion peuvent être stockées :- sur disque magnétique ce disque de très grande capacité permet une rapidité de consultation qui le place en tête des supports utilisés à cette fin.)
- sur un support magnéto-optique, solution adoptée par la BnF, (souvent utilisé comme support d'échange),
- sur CD-ROM
- diffusion éditoriale également sur CD-ROMPour permettre l'accès direct automatisé à plusieurs supports on peut utiliser un juke-box dont la capacité peut varier de 50 à 1400 disques.
L'interprétation des données nécessite l'intégration d'un logiciel adapté.1.5.2.3. Support de livraison.
Les documents numérisés peuvent être livrés par le prestataire entre autres sur :- une cassette magnétique : temporairement, la BnF avait choisi la cassette DAT, pour les documents textuels. Chaque cassette peut être constituée d’images numériques de différents formats. Elle ne revient pas très cher au Mo et permet de stocker entre 12.000 et 20.000 images.
- un support optique (exemple le WORM). Conseillé pour les images fixes.
Les caractéristiques des supports magnétiques et optiques sont différentes. Le choix dépendra donc de l’application. On constate de plus en plus une complémentarité entre ces deux supports.
Caractéristiques des supports optiques et magnétiques
Support optique
(DON, CD, DVD)Support magnétique
(disque et bande)Temps d’accès Le disque magnétique est plus rapide que l’optique Transfert de gros fichiers Plus rapide que l'optique (grâce à la possibilité de défragmenter) Stockage des fichiers volumineux Très compétitif Coût hors ligne (en stockage sur étagère) CD-R, DVD-R = quelques centimes le Mo Disques optiques de grande capacité = 25 à 50 centimes le Mo
Bande magnétique = quelques centimes Disque magnétique fixe = 25 à 50 centimes le Mo
Coût en ligne (avec l’unité d’enregistrement/lecture) Le moins cher : disque fixe magnétique Stockage en ligne Densités de stockage les plus élevées Rapidité des disques magnétiques fixes Sécurisation coûteuse quand la capacité en ligne augmente (le temps nécessaire à la sauvegarde de gros volume est longue, il faut sécuriser le système en mettant en place une solution *Raid pour rester en magnétique).
Hors ligne (en stockage sur étagère) Le plus fiable en conservation
(DON)Maintenance et usure Très sensible à la poussière mais possibilité de dépoussièrage et évolution dans la fabrication pour éviter la pénétration de poussières
Pas d'usure à la lecture
Principal inconvénient : usure des appareils à l’écriture 
L'usure du support dépend surtout de la puissance du laser
La tête optique d'un enregistreur/lecteur magnéto-optique utilisé comme un disque fixe devra être échangée tous les deux ans ou tous les ans selon la cadence d'utilisationTrès sensible aux chocs et vibrations, aux champs magnétiques
Pas d'usure à la lectureSauvegarde
Non réinscriptibilité du support et coût plus élevé
Faible vitesse d'écritureLe meilleur support de sauvegarde : la bande magnétique
Passage obligé par une phase de restauration assez lente pour récupérer les donnéesSolutions adoptées Sauvegarde totale effectuée de temps en temps pour le CD-ROM. Les autres supports optiques seront traités comme les supports magnétiques Sauvegarde quotidienne sur bandes magnétiques Archivage Actuellement le seul support ayant une longue durée de vie d'exploitation est le disque de verre (en stockage sur stockage sur étagère) *Raid = technique de gestion de plusieurs disques de capacité moyenne reliés en grappe. Assure sécurité d’enregistrement et rapidité de transfert des informations sur les disques ( cf. Dictionnaire du multimédia)
1.6. L'identification des sources et des donnéesL'Internet a bouleversé les modes d'accès à l'information et les modes de diffusion de ces nouveaux documents numériques.
L'Internet a rendu difficile leur identification aussi bien dans leur forme que dans leur contenu.
En effet :
- Dans le monde de l'internet les adresses URL changent souvent. Il devient quasiment impossible de retrouver une information ancienne car les liens répertoriés sont interrompus donc obsolètes, les adresses disparaîssent du jour au lendemain ainsi que les informations y afférentes.
- L'édition électronique produit toutes sortes de documents, par exemple les documents multimédias, d'autant plus complexes que les recours aux hyperliens se multiplient, auxquels se trouvent également attachés des droits divers et nombreux.
Ces modifications des usages ayant suscité interrogations et inquiétudes au sein des différentes communautés concernées (diffuseurs, chercheurs, éditeurs, bibliothécaires…), des groupes de travail ont été créés au sein de l'IETF ou Internet Engineering Task Force pour essayer d'instaurer des systèmes d'identification susceptibles d'assurer :
- la pérennité et la fiabilité des liens et des adresses (gestion du flux de documents, établissement d'une traçabilité depuis leur entrée jusqu'à leur sortie) ;
- la pérennité, la fidélité, le respect de l'authenticité du contenu des documents ;
- la résolution des problèmes juridiques et économiques associés aux multiples composantes de ces documents.
Les URIs ou Uniform Resource Identifiers représentent la famille des URLs, URNs, URCs visant à nommer, décrire, retrouver les informations recherchées sur l'internet en évitant toute confusion entre nom et localisation :Les URLs ou Uniform Resource Locators : ne gèrent que la localisation "physique" sur un serveur donné.
Les URN ou Uniform Resources Names : ces pointeurs de localisation indépendants, permettraient une identification unique et permanente d'un objet donné (c'est-à-dire d'un document, d'une "manifestation"). L'ISBN et l'ISSN correspondent d'ailleurs à cette même logique. Grâce à l'URN il sera toujours possible d'identifier un objet et d'y associer une ou plusieurs localisations. Les premières applications du concept démarrent seulement en ce moment (projet ISSN-URN, octobre 1999).
Le DOI ou Digital Object Identifier : c'est un identifiant de ressource qui appartient dans une certaine mesure à l'URN, c'est en quelque sorte une implémentation (mise en oeuvre) de l'URN. Créé de par la volonté des éditeurs et diffuseurs, le DOI attribuerait un identifiant générique adapté à la gestion des droits. Composé de deux éléments séparés par une barre oblique il comprendrait :
l'identifiant attribué par l'agence DOI à l'éditeur ; l'identifiant du document attribué par l'éditeur. Ces deux éléments donneraient la possibilité :
de centraliser, contrôler l'accès des utilisateurs aux documents électroniques par l'intermédiaire d'un réseau de serveurs de résolution DOI, contrôlés par les éditeurs qui participent au système ; de faciliter la mise en place de dispositifs de paiement par abonnement ou à l'acte. Les URC ou Uniforme Resource Characteristics : sont équivalents au concept de métadonnées. Ce sont les caractéristiques qui permettent d'identifier la ressource.
Les informations fournies seraient comparables aux données bibliographiques traditionnelles, d'autres informations pourraient concerner la signature numérique, les droits d'accès…1.6.1. L'Internet face aux documents traditionnels : le Dublin Core et la description des métadonnées
De plus en plus de documents sont et seront produits électroniquement à la source.
De plus en plus émergent les problèmes de description des données électroniques, c'est-à-dire du catalogage à la source du document électronique.
Ainsi, en matière de description des documents, l'internet pose un problème culturel. En effet deux mondes désormais se côtoient : le monde de l'internet où rien n'est figé et celui du catalogage traditionnel. Il s'agit d'adopter désormais une approche nouvelle, un raisonnement différent.
Une solution a été trouvée en instaurant le Dublin Core qui devrait permettre de résoudre les problèmes inhérents à la description de ces nouveaux documents et de leurs diverses composantes.
Le Dublin Core s'appliquerait donc plus particulièrement aux documents numériques.
Le Dublin Core ou D.C : créé à l'initiative de l'OCLC et destiné aux communautés intéressées par la description bibliographique au sens large, ce mode de description devrait permettre à toute personne, non spécialiste, de décrire un document. C'est une tentative de normalisation en matière de métadonnées de base adaptées à différentes communautés. Les informations fournies correspondraient à des données minimales (comparées aux formats MARC que d'aucuns jugent trop complexes). Grâce à une granularité (niveau hiérarchique, arborescence) de plus en plus précise, ce schéma de base universel, serait complété et adapté selon la spécificité des besoins des utilisateurs.
Utilisation :
On ne peut faire l'économie d'une description spécifique aux documents numériques. Pourtant l'utilisation du D.C. ne fait pas non plus l'unanimité; les 15 éléments qui le composent ne semblent pas totalement satisfaisants. De ce fait, sa pérennité est loin d'être assurée dans sa forme actuelle, aussi est-il préférable d'avoir recours à une double description en utilisant un format MARC d'une part et d'un "header" ou en-tête en D.C. d'autre part. Une "passerelle" entre ces deux éléments permettrait l'accès aux informations.
1° Il est possible de passer du D.C. au format Marc ;
2° Il est possible de passer du Marc (plus développé) au D.C., sans négliger dans ce cas la déperdition inévitable d'informations. En effet, le D.C. ayant une implémentation (mise en oeuvre) plus lâche et plus libre il est impossible de calquer les deux formats et essayer d'appliquer des équivalences.
Si l'on désire incorporer du MARC directement dans les métadonnées de documents électroniques il vaut mieux l'exprimer avec la syntaxe XML (qui peut être convertie "à la volée" en HTML par un serveur web approprié, dans la mesure où les butineurs compatibles XML ne sont pas encore très répandus), car le format MARC (ISO 2709) n'est pas interprétable tel quel sur les programmes.
Comment procéder :
Le format d'échange ISO 2709 étant inutilisable sur l'internet, on peut envisager à l'avenir de convertir les notices Marc en XML, avec une structuration en RDF. Le RDF (Resource Description Framework) est une syntaxe particulière (implémentant XML) permettant de structurer les métadonnées sous la forme de "propriété d'objets" au sens informatique du terme. En dehors de l'expérimentation proprement dite, une phase d'assimilation et d'élaboration est néamoins indispensable avant de se lancer dans la production de métadonnées en RDF.
Dublin Core est quant à lui directement implémentable en HTML à travers l'utilisation du balisage 3META" (META tags) inséré dans le HEADER (l'"en-tête") du document HTML.
Notes
Granularité
Niveau hiérarchique, arborescenceImplémentation
Mise en oeuvreMétadonnées
Informations sur des informationsLe format RDF ou Resource Description Framework
Permet d'introduire des données afin d'étiqueter des informations, établir des liens entre les documents et cataloguer des ressources. Ce format "définit une infrastructure commune pour la représentation des métadonnées afin de mieux identifier le contenu du web" (Le monde informatique).
1.7. Accès à l’information / consultation / impressionLe mode d’accès à l’information sous-entend tous les aspects liés au droit d’auteur, eux-mêmes indissociables du mode de consultation, et du matériel utilisé. La consultation dépend des conditions juridiques autorisant la représentation et la reproduction des données, textuelles, iconographiques, sonores.
1.7.1. La consultation
- La consultation peut s’effectuer :
Les possibilités de consultation -et d'impression- dépendent également du statut du document soumis ou non au droit d'auteur :
- sur place ou à distance, en différé (dans le cas d'une DSI- Diffusion sélective de l'information-), en ligne ou hors ligne (en interrogeant un CD par exemple)
- sur un seul poste ou en accès partagés
- la consultation seule
- la consultation + l’impression
- la consultation + l’impression + le téléchargement
Consultation des documents numérisés et droit d'auteur
Consultation en interne +impression des notes (en cas de PLAO = poste de lecture assistée par ordinateur) Consultation seule en interne Consultation dans l’enceinte de l’établissement Consultation en interne et en réseau + téléchargement + impression du texte et des notes Documents soumis au droit Documents soumis au droit Documents soumis au droit nécessite une convention avec les éditeurs
Documents libres de droit Documents libres de droit Documents libres de droit Documents libres de droit Consultation : fonctionnalités envisageables
Les fonctionnalités suivantes ne sont pas exhaustives elles doivent s'inscrire dans la perspective du choix d'un système de GED ou de son évolution; certaines, particulièrement détaillées, permettent de signaler des réalisations possibles. La décision finale sera arrêtée en fonction des objectifs, des besoins, et du budget consacré au projet.
- Recherche documentaire selon plusieurs critères
- Visualisation des références
- Visualisation des images
1.7.1.1. Recherche documentaire
Le système peut avoir une grande souplesse d’utilisation, une vitesse d’accès aux données et d’affichage rapide. Il doit permettre deux types distincts de menus à l’écran.
- Une recherche simplifiée de type minitel. Lors d’une recherche de ce type, l’utilisateur se voit proposer un masque de saisie présentant les champs d'indexation existants dans les références de la banque sélectionnée. L’utilisateur saisit alors dans certains champs, les valeurs qui spécifient sa requête. La requête générée lie les différentes conditions saisies par un seul et même opérateur logique (par défaut : et).
Par ailleurs, lorsqu’une liste de références existe pour certains champs d'indexation, cette liste est disponible à l’écran, et des contrôles sont effectués pour vérifier que les valeurs saisies s’y réfèrent bien.
- Une recherche de type expert, avec l’utilisation d'opérateurs booléens (et, ou, sauf), numériques, de proximité (sur les champs de type texte), de troncatures gauches et/ou droites dont l’usage ne doit pas être implicite, de parenthèses sans limites de niveau, et cela entre des valeurs d’un même champ d'indexation ou dans des champs différents avec :
- la possibilité de reprendre une étape ou une équation de recherche, et la sauvegarder ex : pouvoir mémoriser les stratégies de recherche lorsqu’un utilisateur pose les mêmes questions, afin de lui proposer un dossier concernant le domaine qui l’intéresse, avec éventuellement une mise à jour périodique (diffusion sur profil, diffusion sélective de l’information)
- la conservation des étapes antérieures de la recherche, tant que cette dernière n’a pas été déclarée comme terminée : cet historique doit apparaître en clair avec toutes les questions posées et indiquer leur résultat. Dans les deux cas, il faut disposer de :
- L’indication du nombre de réponses pour chaque étape de la recherche
- L’interrogation sur tous les champs en même temps
- La visualisation aisée et interactive des deux types de masques d’interrogation des index, listes, thésaurii disponibles avec possibilité de sélectionner des informations au sein de ces listes pour les utiliser dans la requête en cours
- L’appauvrissement des caractères à la consultation et ainsi ne pas devoir tenir compte des accents ou des majuscules lors de la recherche
- L’utilisation d’une liste des mots vides pour la recherche occasionnelle en texte intégral, avec interrogation en langage libre
- En option, la recherche séquentielle sur des champs non indexés pour un lot de documents sélectionnés
- Lorsque différentes bases existent, l’interrogation de ces bases reliées entre elles, par une interrogation multibases, qui doit pouvoir porter sur tout ou partie des bases gérées par le système.
1.7.1.2. Visualisation des références
Le système pourrait permettre
- Différents formats de visualisation.
Exemple : la référence du document, la liste des références sous forme de tableau paramétrable (comportant titre, auteur, année…)
- De sélectionner les champs de visualisation (selon leur intérêt et leur importance pour mener à bien la recherche)
- Le classement automatique des réponses lors de la recherche, présentant les références selon un ordre préétabli (chronologique, croissant ou décroissant…)
- De visualiser les mots qui ont permis l’obtention des informations et leur sélection (grâce à la surbrillance ou en souligné). Dans le cas du mode texte ou lorsqu'il s'agit d'un bordereau d'indexation qui contient plusieurs champs, la possibilité de parcourir le document de mot sélectionné à mot sélectionné, ou page à page
- Des opérations de tri à plusieurs niveaux selon le choix de l’opérateur : par auteur, par thème, par date…
- De plus, il doit être possible de visualiser la liste des pages numérisées et/ou fichier bureautique composant un document donné, sous une forme synthétique.
1.7.1.3. Visualisation des images
Le système pourrait permettre
- De visualiser le document sur un écran haute définition directement sans zoom
- De disposer de fonctions de navigation au sein des références sélectionnées
- De présenter les images sous forme de mosaïques, d’icônes
- D’offrir une fonction sommaire et toutes les fonctions de navigation au sein du document (image suivante, précédente, aller à l’image n…)
- De disposer de fonctions de rotation et d’agrandissement sélectif de l’image.
Pour la visualisation cf. également " la fonctionnalité impression "§1.7.2.
1.7.2. La fonctionnalité impression
L’impression peut être gratuite ou payante .
Elle peut concerner des extraits d’un ouvrage (quelques pages, certaines images s’il s’agit d’images fixes), des notices bibliographiques…
Le temps d’impression doit être évalué (il peut être de l’ordre de quelques secondes environ, 15 s)
Les fonctions d’impression peuvent permettre :
- Les impressions des pages avec paramétrage du nombre d’impressions
- L’impression de certaines pages d’un document (et non pas de toutes)
- L’impression, après interrogation, de tous les documents sélectionnés (par exemple lorsqu'il s'agit d'articles de journaux) sans les visualiser, que ce soit avec ou sans impression simultanée de toutes les références
- La sélection de documents à la visualisation pour une impression en différé (possibilité de "cocher" au fur et à mesure)
- La possibilité de choix à l’impression entre une imprimante locale reliée au poste de consultation et une imprimante réseau (souvent plus rapide)
- Des sorties papier lisibles selon des qualités typographiques et des polices de caractères différentes
- Le paramétrage aisé des éditions (à la visualisation comme à l’édition papier).
«« Précédent Sommaire Suite »»