Digitalizzazione delle postille

Premessa

La salvaguardia del patrimonio delle postille stendhaliane conservate presso il Centro Stendhaliano è stata realizzata grazie ad una impervia fase di digitalizzazione delle immagini (si intende qui la riproduzione e la memorizzazione in formato elettronico).
Da un lato si è voluto rendere disponibile la consultazione delle postille e la lettura dei testi postillati on line ma, non di meno, ci si proponeva la conservazione del patrimonio postillato.

Due così diversi obiettivi impongono – nell’ambito della digitalizzazione - l’uso di formati elettronici dalle caratteristiche totalmente differenti.
Il formato per la conservazione deve garantire la miglior qualità possibile senza preoccuparsi troppo della quantità di byte necessari per la memorizzazione, quello per la diffusione su internet, invece, deve assicurare la leggibilità delle postille e tener conto dei tempi necessari per visualizzare le immagini in rete.

I formati grafici per le postille stendhaliane

Nel valutare quali formati grafici si dovessero utilizzare si sono presi in considerazione i migliori formati usati attualmente per il web e per la conservazione di immagini digitali.
Il formato JPEG (Joint Photographic Experts Group) è oggi il più diffuso sul web insieme al GIF (Graphic Interchange Format) e al PNG (Portable Network Graphic); il TIFF è il più utilizzato per la conservazione.

Ciascuno di questi però poco si adattava agli obiettivi del progetto:

- il GIF, sviluppato prima della diffusione di internet, dalla società CompuServe consente di definire immagini con al massimo 256 colori.

- Il JPEG, realizzato grazie ad un algoritmo di tipo “lossy” (con “perdita”) elimina dalle immagini le informazioni ridondanti e riduce, di conseguenza, il numero di byte necessari per la memorizzazione dell’immagine. Questo tipo di formato offre ottime prestazioni per le immagini molto dettagliate ma è molto meno efficace per quelle contenenti del testo. Durante il processo di compressione adottabile dal JPEG il testo (e, in particolare, le postille stendhaliane) diviene poco leggibile. Va anche tenuto presente che per ottenere delle immagini più leggere, della dimensione dell’ordine delle decine di byte, occorre, con questo formato, aumentare il grado di compressione deteriorando di conseguenza la qualità dell’immagine.

- Il PNG è un tentativo di superare le limitazioni dei formati GIF e JPEG attraverso il supporto a milioni di colori e 256 livelli di trasparenza. Esso non si comporta però, per il testo, in maniera dissimile dal JPEG.

Occorreva adottare una nuova tecnologia e quella fornita dal DjVu ci è sembrata l’alternativa più valida ed efficace.

Cos’è DjVu

DjVu ® (si pronuncia “dèjà vu”) è un sistema di compressione di immagini ad alta qualità nato nei laboratori AT&T nel 1996 e successivamente commercializzato da Lizartech Inc.
I ricercatori AT&T volevano rendere disponibili in rete raccolte di documenti digitali di alta qualità a colori. Essi promossero una tecnologia che garantisse la leggibilità dei testi contenuti nelle riproduzioni digitali, ma che riducesse il numero di byte necessari alla memorizzazione.

I documenti a colori (contenenti immagini e testo) salvati in formato DjVu sono in media sette volte più piccoli rispetto allo stesso file in formato JPEG.
Il DjVu possiede un algoritmo che salvaguarda gli elementi grafemici della pagina e riduce nel contempo il numero di byte usati per lo sfondo e le immagini. Questo risultato è ottenuto in fase di compressione; l’immagine viene suddivisa in livelli (processo di “segmentazione”). I testi e i disegni vengono separati dalle immagini a colori e dallo sfondo e sono compressi con due metodi differenti.

I testi e i disegni, solitamente rappresentabili con un numero limitato di colori, sono compressi con un metodo di programmazione a due livelli (bitonale) mantenendo la risoluzione originale (senza perdita di qualità).
Le immagini a colori e lo sfondo sono ridotti di un terzo e viene impiegata una tecnica di tipo wavelet chiamata IW44 (la stessa che si trova alla base del formato JPEG2000).

Grazie a queste ragioni il formato DjVu è molto efficace se viene utilizzato per memorizzare pagine ricche di elementi testuali; si ottengono file dalle dimensioni contenute (“leggeri”), veloci da visualizzare (anche in presenza di connessioni lente, p.e. con modem 56k) e compatibili con computer lenti o non proprio di ultima generazione.

I plugin per visualizzare DjVu

I file in formato DjVu possono essere visualizzati dopo aver installato un apposito plugin per browser web. Questo modulo aggiuntivo è disponibile per tutti i più diffusi sistemi operativi (Gnu/Linux, Mac Os 9/x, Windows) e per i principali browser web (Mozilla Firefox, Netscape, MS Explorer etc.).
Il plugin fornisce alcuni strumenti aggiuntivi indispensabili allo studioso stendhaliano che gli permettono la rotazione dell’immagine, l’ingrandimento di alcune zone o di tutta la pagina, la separazione del livello del testo dallo sfondo, il salvataggio, l’esportazione, la stampa su carta, la visualizzazione a pagina doppia, la ricerca full-text (solo se il testo è stato sottoposto ad OCR).

Progetti in Italia con Djvu

DjVu sta diffondendosi velocemente sul web, ne è la prova l’uso sempre più importante da parte di alcune biblioteche e istituti di informatica umanistica che in Italia hanno scelto questo formato per digitalizzare il proprio patrimonio:

Una sitografia molto ampia sull’uso di DjVu nel mondo, suddivisa per categorie, si può reperire collegandosi a DjVuZone un sito non commerciale a servizio degli utenti che usano djvu.

DjVuLibre

DjVu è un formato aperto. Le specifiche e il codice sorgente (con licenza GPL) del sistema di visualizzazione (decoder) e del sistema di compressione (encoder), sono liberamenti disponibili grazie al progetto DjVuLibre. In effetti la società Lizartech Inc. ha inizialmente proprietario acquisendolo da AT&T, ma ci si è subito accorti che questa politica commerciale avrebbe portato ad un uso e ad una diffusione molto limitata del DjVu. Ecco perché sono state rilasciate le specifiche tecniche del formato con licenza GPL. Attualmente i migliori decodificatori e convertitori disponibili sono quelli sviluppati – in modo proprietario – dalla società Lizartech Inc ma adoperando DjVulibre si possono installare sul Gnu/Linux o Unix) i programmi per la conversione e la visualizzazione dei documenti in DjVu.

Il pacchetto DjVuLibre contiene:

  • un visualizzatore per documenti in DjVu per il sistema a finestre X11 e un plug-in per i maggiori browser web usati in ambiente Gnu/Linux o Unix (p.e. Netscape-4, Netscape-6.x, Mozilla, Galeon, Konqueror, e Opera).
  • Alcuni strumenti a linea di comando e script per creare, manipolare e convertire immagini e documenti in formato DjVu.
  • Una libreria C++ che può essere usata per realizzare nuovi programmi per la visualizzazione, nuovi algoritmi di compressione o codec.

Da segnalare lo sviluppo di una classe Java per la visualizzazione dei documenti DjVu senza l’installazione di alcun plug-in. Si rimanda, per chi volesse approfondire, ai siti djvulibre.djvuzone.org e www.opendoc.it .




BIBLIOTECHE COMUNALI DI MILANO - CENTRO STENDHALIANO realizzato con il contributo del MINISTERO PER I BENI E LE ATTIVITA' CULTURALI