La permanenza dei dati nell’era digitale (parte 1)

Nota: si ricorda che le opinioni espresse in questo blog non sono da ascrivere alla SCI o alla redazione ma al solo autore del testo.

a cura di Stefano Ottani* e Gustavo Filippucci**

In un articolo de “Il Sole 24ORE” dal titolo “Vincent Cerf lancia l’allarme: i dati memorizzati oggi? Rischiamo di perderli”, pubblicato il 18 giugno del 2013, viene sollevato il problema della continuità, intesa come disponibilità nel tempo, dei metodi di lettura e decodifica dei testi e più in generale dei dati prodotti in passato. L’articolo sottolinea che quindici anni possono essere un tempo soggettivamente breve, ma, in termini digitali, corrispondono a cambiamenti di tecnologia (sia hardware che software) talmente importanti da rendere la decodifica di alcuni documenti estremamente difficile. Cerf, il cui nome è Vinton, non Vincent, è vice presidente di Google e uno dei progettisti del protocollo alla base di Internet, il TCP/IP. Egli sottolinea che un oggetto digitale ha significato se esiste un metodo per interpretarlo. In Internet l’informazione è strutturata e quindi occorre un’applicazione, un programma specifico per accedervi. Se l’informazione è su un disco, “noi non perderemo il disco, ma possiamo perdere la capacità di leggere il disco”. La questione sollevata da Cerf più di un anno fa è stata discussa a partire da altri punti di vista. In questo articolo cercheremo di approfondire aspetti più vicini alla ricerca e alla letteratura scientifica, particolarmente in campo chimico e delle scienze della vita. Nella seconda parte tratteremo più in dettaglio l’insieme di iniziative che vanno sotto il nome di Digital Preservation, cercando di fornire un quadro dei riferimenti bibliografici e delle attività, quali le strategie di identificazione e catalogazione delle risorse digitali, che si sono sviluppate in relazione al tema.

Un primo aspetto da considerare è la permanenza dei supporti fisici per l’archiviazione dell’informazione. I supporti del passato (pietra, terracotta, papiro, pergamena, carta …) sono oggi sostituiti da plastica, metalli rari, materiali magnetici e magnetizzabili, nella forma di dischi (dischi rigidi, DVD, CD-ROM, dischi a stato solido), memorie flash e altro, in un insieme che Cerf chiama “digital vellum” (pergamena digitale). Questi supporti sembrano presentare una maggiore stabilità e affidabilità rispetto al passato, anche se ciò dipende dall’evento che si prende a riferimento. Per fare un esempio, un’esplosione nucleare non era un evento possibile nel passato remoto, mentre un tale evento è entrato pesantemente nella progettazione di un protocollo di rete come il TCP/IP. Alcuni anni fa Umberto Eco ha pubblicato sul settimanale “L’Espresso” una “Bustina di Minerva” in cui si poneva l’accento sulla maggiore permanenza dei supporti moderni rispetto agli antichi. Eco sosteneva che la scelta di un supporto molto più stabile di altri può distorcere in modo significativo la permanenza temporale dell’informazione contenuta. I posteri potrebbero formarsi un’idea profondamente distorta della civiltà attuale semplicemente perché certi supporti (CD-ROM, DVD), usati preferenzialmente per determinate categorie di contenuti, potrebbero sopravvivere molto meglio rispetto ad altri quali i dischi magnetici o semplicemente la carta stampata. In generale questo tipo di problemi è stato affrontato, anche nel lontano passato, aumentando la ridondanza nei sistemi di archiviazione dati, ovvero generando più copie dei supporti, e differenziando e delocalizzando i supporti stessi. Di fatto la ridondanza è un tema pervasivo quando si considera la completezza e la correttezza dell’informazione.

Attualmente la questione dell’affidabilità dei processi di archiviazione dei dati si pone in termini diversi. La virtualizzazione dei supporti (virtual storage) e la successiva introduzione dei sistemi cloud hanno portato alla progressiva smaterializzazione dei supporti fisici. In questo ambito smaterializzazione significa che il legame, la corrispondenza fra il dato e il supporto fisico su cui è scritto è diventata evanescente. Il dato viene spostato, frazionato e duplicato su supporti diversi, ricollocato a seconda delle esigenze globali del sistema di archiviazione. Le procedure che regolano questo tipo di gestione acquistano una preminenza assoluta nell’affidabilità del dato. Il fallimento di una di esse può portare alla distruzione dell’archivio nel senso di renderlo anche totalmente irrecuperabile, perfino in assenza di danni fisici ai supporti.

Possiamo ora mettere meglio a fuoco il problema sollevato da Cerf. Per fissare le idee, supponiamo di avere un documento archiviato su un CD-ROM e supponiamo che il programma di lettura/scrittura usato per produrlo diventi improvvisamente introvabile. Tuttavia, se mantenessimo la capacità di leggere il supporto a basso livello, ovvero i singoli bit scritti sul CD-ROM, potremmo ancora essere in grado con metodi logico-statistici di ricostruire in tutto o in parte il significato del testo. Certamente si tratta di procedure lunghe e laboriose, ma con una buona percentuale di successo. Un’analogia in questo senso potrebbe essere trovata nella decifrazione del lineare b, il sistema di scrittura della lingua micenea.

Supponiamo invece di avere un documento archiviato in un sistema cloud e che il programma che gestisce la lettura/scrittura di un documento, nonché la sua collocazione, duplicazione, salvataggio periodico etc. fallisca. In tal caso il recupero del documento sarebbe estremamente difficile, quasi irrealizzabile in tempi utili. E’ molto più efficace proteggersi dalla perdita catastrofica dei dati tramite la duplicazione ripetuta dei documenti su sistemi diversi. Più in generale, è l’aumento significativo della ridondanza, esteso a tutti i livelli dell’archiviazione del dato, che aumenta i livelli di protezione e non solo nei confronti di questo tipo di perdite.

 dati1

Il rapporto fra ridondanza e informazione può essere illustrato da un esempio tratto da un semplice gioco enigmistico. Si ricorderà la tabella composta da sequenze di numeri e spazi. Ad ogni numero è associata una lettera dell’alfabeto e alcune delle lettere sono espresse in chiaro. Dalla conoscenza della lingua in cui il testo è scritto e dalle conseguenti regole grammaticali e sintattiche è possibile, con gli elementi minimi d’informazione forniti, risalire al testo in chiaro. Lo schema è risolto quando tutti i numeri sono stati sostituiti dalla lettera corrispondente e il testo diventa completamente leggibile. In termini di teoria dell’informazione potremmo dire che tutte le lettere non in chiaro, ovvero espresse da numeri nel testo, sono ridondanti rispetto all’informazione contenuta nel testo stesso. Chi risolve questo tipo di schemi sa benissimo che raggiunto un certo livello nella procedura di soluzione non occorre neanche più sostituire materialmente i numeri con le lettere corrispondenti; quelle già inserite sono sufficienti per ricostruire completamente le parole incomplete o mancanti. Ma allora che necessità c’è di utilizzarle? Immaginiamo che una o più delle lettere in chiaro o degli spazi fossero andati perduti o sostituiti da un elemento sbagliato: il messaggio, o parti consistenti di esso sarebbero incomprensibili. La ridondanza rappresenta proprio la risposta a questo problema: grazie alle lettere o alle parole in eccesso possiamo rimediare alla perdita di dati e al deterioramento del messaggio.

Da quanto detto fin qui emerge una caratteristica fondamentale dei sistemi di archiviazione attuali: la predominanza del metodo sia esso di lettura, scrittura, cifratura, gestione del dato, rispetto al dato stesso. Vi è ancora un’altra caratteristica da considerare: la struttura che il dato assume in un archivio è determinata dal livello di conoscenza nel campo cui il dato si riferisce e dai metodi d’indagine utilizzati nel campo stesso. Per proporre un esempio possiamo considerare la relazione che intercorre fra la sequenza dei nucleotidi del mRNA e la struttura primaria di una proteina. Lo stato delle nostre conoscenze ci dice che fra i due dati esiste una corrispondenza biunivoca e quindi in linea di principio possiamo utilizzare un metodo di generazione automatica della sequenza primaria delle proteine basato su archivi che contengono solo le sequenze del mRNA corrispondente. Anche la struttura secondaria può essere generata in automatico dal nostro metodo di lettura. Supponiamo ora, in via del tutto ipotetica, di vivere in un ecosistema in cui la suddetta corrispondenza biunivoca non valga, che una sequenza di mRNA possa generare proteine diverse, magari in funzione degli intervalli di variazione di diversi parametri ambientali. La nostra realtà fisica sarebbe quella di un sistema ad alto tasso di mutazione ed il nostro archivio dovrebbe essere profondamente modificato, associando ad un mRNA diverse proteine ed il set di parametri che ne definiscono il campo di esistenza.

Finora abbiamo trattato la permanenza del dato in termini di eventi o incidenti più o meno casuali che ne comportino l’alterazione o la perdita. Vi è un aspetto altrettanto importante da considerare: l’alterazione, la perdita (o l’anomala sopravvivenza) del dato dovuta a scelte determinate, a selezioni programmate e ripetute. In questo ambito sono i motori di ricerca ad avere un’influenza significativa sull’organizzazione, la replicazione e quindi la persistenza dell’informazione. La raccolta d’informazioni tramite motori di ricerca costituisce infatti lo stadio preliminare per la stesura di articoli d’informazione, di ricerca scientifica, per lo svolgimento di attività didattiche, per la stesura di opere di narrativa e questo per limitarsi solo a campi più legati all’attività culturale. La posizione in cui viene a trovarsi un risultato nella lista ottenuta da un quesito posto al motore di ricerca è determinante per la citazione, per l’utilizzo del dato stesso e quindi per la sua sopravvivenza e propagazione. Non abbiamo qui lo spazio per fare più che un semplice accenno alla questione. Di fatto sono stati sollevati parecchi interrogativi sugli algoritmi alla base dell’ordinamento dei risultati in queste liste (il cosiddetto page ranking), nonché sulla trasparenza di tali risultati e sull’eventuale intervento di operatori umani. Una trattazione più completa la si può trovare in questa voce della Stanford Encyclopedia of Philosophy

Possiamo ricordare altre due questioni anch’esse legate ai motori di ricerca. La prima riguarda la persistenza del dato (peggio ancora se si tratta di un dato errato): basta accennare alle richieste e anche alle cause legali nei confronti di alcuni motori di ricerca e di social network per la cancellazione di profili indesiderati e di dati non più voluti o raccolti in modo illegale. La seconda questione è un po’ il rovescio della medaglia della questione del page ranking e riguarda ciò che non viene mai indicizzato dai motori di ricerca, entità a cui ci si riferisce comunemente con il termine invisible web o deep web.

dati2

E’ convinzione comune che nel deep web si trovino prevalentemente dati illegali, ma la definizione d’illegalità è correlata a situazioni statuali-politiche localizzate, e tale/i definizione/i nell’ambito dell’Internet globale sono molto spesso inadeguate. Che dire infatti di uno o più paesi i cui sistemi informatici bloccano determinati elementi d’informazione (articoli, libri, blog etc.) che in altri paesi sono totalmente legali e che puniscono, anche severamente, coloro che detengono o accedono a tali informazioni? Come potremo preservare una biblioteca clandestina?

Si può anche ammettere che oggigiorno la capacità globale di archiviazione sia tale da consentire di memorizzare praticamente tutto ciò che l’umanità intera produce in un determinato arco temporale. Il Grande Fratello sembra quindi sovrastarci. Tuttavia, per quanto abbiamo detto, questa immensa collezione si distingue dal puro rumore di fondo solo se esistono metodi adeguati per estrarne informazione in tempi utili. Al di là della capacità di calcolo richiesta, la vera sfida sono i metodi d’intelligenza artificiale da applicare, nel cui ambito si stanno registrando enormi progressi. Una logica di tipo tradizionale si rivela normalmente inadeguata ad estrarre significati semantici complessi da grandi moli di dati. In termini più generali potremmo dire che lo spazio logico, ossia l’insieme delle proposizioni distinte che usiamo per connetterci alla nostra realtà e navigare nel mondo, viene manipolato nell’ambito di logiche diverse, non solo quella vero-funzionale a due valori di tipo tradizionale, ma usando una varietà di metodi quali, ad esempio, quelli della logica sfumata (fuzzy).

********************************************************************************************************

*Stefano Ottani è ricercatore presso l’Istituto per la Sintesi Organica e la Fotoreattività (ISOF) di Bologna. Ha svolto ricerche soprattutto nell’ambito dei sistemi macromolecolari di origine sintetica e naturale. Parte della sua attività di ricerca è dedicata allo sviluppo di modelli e metodi computazionali per l’interpretazione dei risultati sperimentali. Attualmente studia il comportamento di amminoacidi e molecole d’interesse farmacologico, utilizzando metodi di chimica computazionale e calcoli quanto-meccanici. Si occupa inoltre della messa a punto di procedure computazionali su sistemi per il calcolo ad alte prestazioni, quali grid e cluster.

**Gustavo Filippucci è responsabile bibliotecario della biblioteca del Dipartimento di Chimica “Giacomo Ciamician” dal 2000. E’ stato membro del comitato di biblioteche della rete nazionale NILDE per due mandati. In tale contesto ha partecipato a diversi comitati organizzativi di convegni dedicati a temi bibliotecari. Partecipa a gruppi di lavoro tematici promossi dal Catalogo collettivo Nazionale di Periodici ACNP, in particolare sui temi connessi alle pubblicazioni periodiche elettroniche.E’ coordinatore del gruppo di lavoro nazionale ALPE (Archivio Licenze Periodici Elettronici), che coinvolge importanti istituzioni nazionali nelle creazione di un database di pubblico accesso alle ‘License Agreement’ stipulate con i principali editori nazionali ed internazionali

One thought on “La permanenza dei dati nell’era digitale (parte 1)

  1. A parte tutto, il problema dell’eletrronica è che, di base, quando brematura e ti perdi l’archivio succede:

    di colpo, senza preavviso, nel momento meno opportuno, quando non avevi altra copia che quella e stavi proprio pensando di fare un backup.

    Finisce che, da un istante all’altro, quel che avevi è come se non lo avessi mai avuto – specie se conservato su supporti tipo Flash o dischi allo stato solido (che già si sa avranno una vita variabile da pochi a una, massimo due decine di anni, ma non si sa esattamente quando smetteranno di funzionare) . Invece le (due, che ai tempi erano cosa preziosissima) foto del matrimonio del nonno sono sì ormai ingiallite, piene di crepe e parecchio anacronistiche, ma sono ancora lì dopo più di 100 anni ed enne traslochi.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...