La permanenza dei dati nell’era digitale (parte 2)

Nota: si ricorda che le opinioni espresse in questo blog non sono da ascrivere alla SCI o alla redazione ma al solo autore del testo.

la prima parte di questo post è stata pubblicata qui

a cura di Stefano Ottani* e Gustavo Filippucci**

Una questione attualmente assai dibattuta riguarda la pubblicazione di articoli scientifici, in particolare la disponibilità dei dati sperimentali ad essi collegati e dei metodi utilizzati per elaborarli. In una prima fase il dibattito ha riguardato soprattutto articoli pubblicati già da alcuni anni, i cui dati originali siano ancora conservati dagli autori. Col passare del tempo il mezzo su cui tali dati sono registrati (tipicamente supporti magnetici) rischiano di diventare illeggibili, sia per il deterioramento dei materiali che per la dismissione e l’eliminazione delle procedure e dei programmi con cui i dati sono stati ottenuti e/o elaborati. Inoltre è diventato assai difficile o anche impossibile rileggere supporti magnetici contenenti i tracciati di curve sperimentali ottenuti con vecchi modelli di strumenti scientifici, qualora lo strumento stesso sia stato smantellato. Dato che uno dei pilastri su cui poggia il sistema della ricerca è la verificabilità del dato pubblicato, è prevedibile che, in mancanza di soluzioni adeguate, questo requisito possa andare perduto in tutto o in parte. Per quanto riguarda la velocità di sparizione dei dati scientifici ci si può riferire a questa URL: http://www.rsc.org/chemistryworld/2014/01/scientific-data-disappearing-alarming-rate.

Per il presente ed il futuro molti editori di riviste scientifiche si stanno attrezzando creando o ampliando gli archivi contenenti i cosiddetti materiali di supporto dell’articolo, in cui gli autori possono includere tutti quegli elementi che, pur sostenendo la validità del contenuto dell’articolo, lo avrebbero appesantito in modo eccessivo se inseriti nel testo stesso. Attualmente tali archivi si stanno arricchendo anche di elementi multimediali, supportando quindi metodi di comunicazione che vanno ben oltre il testo scritto. Un aggiornato approfondimento su questi temi è dato dall’articolo Bibliotime, XVII, 3 – Paolo Manghi, Sfide tecnologiche per l’accesso aperto a tutti i prodotti della ricerca.

Sempre in questo ambito considerazioni più specifiche vanno fatte per gli articoli che presentano un marcato carattere computazionale. Assume qui grande rilevanza quanto detto in precedenza sulla relazione forte fra la struttura di un dato archiviato e il metodo utilizzato per produrre il dato stesso. Infatti, dal punto di vista computazionale, la riproducibilità del dato pubblicato dipende dalla disponibilità dei file di input, di output e dei codici dei programmi utilizzati nel calcolo. Se, con Popper, ammettiamo che un requisito fondante di ogni affermazione scientifica sia la possibilità di confutarla, dobbiamo inevitabilmente fornire assieme al dato il metodo di misurazione. Nel caso di procedure computazionali (quali ad esempio i calcoli ab initio, il molecular modeling e la cheminformatica), la rigorosa aderenza al requisito di Popper non è quasi mai soddisfatta da una descrizione semplificata del metodo e della procedura, che pur includa tutti gli opportuni riferimenti. In molti casi occorrerebbe fornire i codici sorgente dei programmi di calcolo utilizzati ed eventualmente anche i compilatori utilizzati per ottenere il codice eseguibile. La questione non è affatto semplice e ha dato origine a un dibattito esteso.

Supponiamo, per esempio, che il produttore di un codice non aperto e protetto da copyright decida di ritirare completamente tale programma. Si giungerà ad un punto in cui tutti i dati ottenuti con tale codice non saranno più riproducibili. Addirittura la detenzione di copie non più licenziate del programma, anche da parte di istituzioni senza scopo di lucro (biblioteche, banche dati aperte etc.), potrebbe costituire una violazione di copyright. Un articolo sulla rivista Science propone di risolvere la questione obbligando tutti i lavori finanziati da contributi pubblici ad includere il codice sorgente o un metodo equivalente per garantire la semplice e immediata riproducibilità di quanto pubblicato (A. Morin, J. Urban, P. D. Adams, I. Foster, A. Sali, D. Baker, P. Sliz “Shining Light into Black Boxes”, Science, Vol. 336 no. 6078 pp. 159-160, DOI: 10.1126/science.1218263). Una discussione approfondita sul problema della riproducibilità in questo tipo di lavori è riportata in un articolo del 2013 di W. Patrick Walters (W. P. Walters “Modeling, Informatics, and the Quest for ReproducibilityJournal of Chemical Information and Modeling 2013, 53, 1529, DOI: 10.1021/ci400197w)

Nella vastità e complessità delle problematiche connesse alla preservazione accenniamo ora brevemente ad alcune importanti iniziative che si collegano alla conservazione dei dati digitali.

Il concetto di Digital preservation circoscrive un insieme di pratiche e progetti consolidatisi nel tempo; in Italia il tema è oggetto di attività legislativa da almeno 15 anni (decreto legge 445/2000). L’espressione è usata in ambito anglo-sassone per indicare le problematiche di immagazzinamento, mantenimento e accesso nel lungo periodo degli oggetti digitali con l’obiettivo di assicurare il contenuto intellettuale di un documento, rendendolo accessibile per le generazioni future, sia nel caso di informazioni native digitali, sia nel caso di conversioni digitali di materiale analogico.

dati3

Per un primo approccio alla sterminata bibliografia disponibile in rete segnaliamo l’interessante sito web della Library of Congress: http://digitalpreservation.gov/about e la pagina del sito italiano “Rinascimento Digitale” dedicata ai progetti europei: http://www.rinascimento-digitale.it/digitalpreservation.phtml.

Quest’ultima segnala, a sua volta, la preziosa attività del PREMIS workgroup (Preservation Metadata: Implementation Strategies) in cui convergono l’Online Computer Library Center (OCLC) e il RLG (Research Library Group). Da citare anche la versione italiana http://dpworkshop.org/dpm-ita/resources.html del tutorial sviluppato dalla Cornell University Library, ospitato dall’Inter-university Consortium for Political and Social Research (ICPSR) dal 2007-2011, e successivamente dal MIT Libraries.

Fra le organizzazioni internazionali più attive troviamo l’UNESCO che ha raccolto in un insieme di raccomandazioni i processi atti ad assicurare l’accessibilità e la fruibilità nel tempo dei materiali digitali.

Altre istituzioni internazionali si occupano dei temi legati alla conservazione, tra queste è utile ricordare il ruolo svolto da istituzioni bibliotecarie quali l’IFLA (International Federation of Library Associations and Institutions) attraverso il suo Strategic Programme on Preservation and Conservation (PAC) attivo fin dal 1984. L’IFLA, tramite l’attiva partecipazione del suo Presidente e altri di altri suoi membri, aderiscec a Congressi dedicati al tema (segnaliamo l’importante Convegno UNESCO sul tema: The Memory of the World in the Digital age: Digitization and Preservation, 26-28 September 2012, Vancouver, Canada, 2012).

Anche l’American Library Association (ALA), la più importante associazione nazionale di bibliotecari, è da lungo tempo attiva con gruppi di interesse sui temi oggetto della nostra analisi.

Esistono iniziative a livello nazionale quali ad esempio la Digital Preservation Coalition, che si occupa di raccogliere le più importanti istituzioni culturali del Regno Unito intorno al comune sforzo di preservazione dei dati, o come il progetto australiano PANDORA – chiamato anche PANDAS – (Preserving and Accessing Networked Documentary Resources of Australia), sviluppato dalla National Library of Australia a partire dal lontano 1996, che basa il proprio lavoro sull’assegnazione di identificatori persistenti agli oggetti digitali delle proprie collezioni.

Una significativa funzione è assegnata a livello accademico ai cosiddetti Institutional Repositories, questi depositi svolgono il ruolo di biblioteche digitali secondo il modello dell’Open Access. Come le biblioteche, conservano e disseminano i documenti archiviati, li organizzano e ne gestiscono le procedure per l’indicizzazione dei metadati. I metadati sono degli identificativi persistenti che i Repositories utilizzano per conservare permanentemente i documenti archiviati. Presso gli Institutional Repositories troviamo depositati e conservati materiali digitali che altrimenti non troveremmo in altri contesti digitali, si pensi in particolare alla produzione scientifica che non rientra nel circuito della pubblicazione, convenzionalmente definita grey literature (tesi, rapporti tecnici, ecc.).

In Italia, l’assegnazione di identificativi persistenti agli oggetti digitali è considerato uno standard di riferimento almeno per quanto riguarda la produzione di dati/oggetti digitali nel settore pubblico. I requisiti specifici sono dettagliati nella legge denominata “Codice per l’amministrazione digitale”, approvata nel 2005 e aggiornata nel 2010. Alcuni dei principali standard recepiti nelle differenti legislazioni provengono dal lavoro dell’Open Archival Information System (OASIS), il modello si pone l’obiettivo di standardizzare la pratica della preservazione digitale fornendo un insieme di indicazioni (attraverso un reference model) per l’attuazione di un programma di conservazione. La norma ISO 14721:2003 ne è alla base e definisce gli aspetti tecnici che presiedono al ciclo di vita di un oggetto digitale: immissione e stoccaggio, infrastruttura di conservazione, gestione, accessibilità e distribuzione. Riguardo ai metadati, la norma prevede cinque associazioni all’oggetto digitale: il riferimento (identificazione), la provenienza (cronologia), il contesto, la fissità (che deve garantire l’autenticità) e la rappresentazione (formato, struttura del file, ecc.).

I temi connessi alla conservazione/permanenza dei dati nell’era digitale sono, come si è visto, molteplici e coinvolgono aspetti tecnologici, politico-organizzativi, comportamenti sociali e, come nel caso del concetto di fissità, anche elementi di carattere legale: è bene ricordare che un aspetto strettamente connesso alla conservazione e alla fruizione dei dati è quello relativo al mantenimento della loro integrità e autenticità. La conservazione non è quindi solo un problema tecnologico “dal momento che i materiali digitali possono essere documenti aventi valore legale” (G. Marzano, Conservare il digitale, 2011, p. 53). Inoltre, il riconoscimento o l’attribuzione di paternità di un opera digitale può generare ulteriori problematiche a seconda del contesto – architettura software o ambiente/applicativo – nel quale è stato prodotto/depositato.

Di certo, quando si parla di dati digitali, è sempre bene circoscriverne il contesto. Limitandoci a titolo esemplificativo al solo campo della cosiddetta letteratura grigia, una cosa è parlare di dati depositati in un archivio istituzionale o in server di grande tradizione quale ad esempio il NASA Technical Reports Server, altra cosa ai fini della persistenza sono i documenti pubblicati su un blog o disponibili nelle biblioteche clandestine di internet. In questi casi, per i dati digitali è valida la stessa relazione che si stabilisce tra web e deep web: tanto è tendenzialmente infinita la massa (rumore) di dati prodotti direttamente in formato digitale, tanto più potranno divergere le strategie di conservazione nei differenti contesti culturali e scientifici.

Per i dati digitali il tradizionale luogo di conservazione dovrebbe posizionarsi su una scala di livello superiore, sia per il grado di coordinamento e standardizzazione che le procedure richiedono, sia per sostenere finanziariamente nel tempo progetti molto onerosi. Le attività di gestione come la migrazione e la replicazione dei dati – in qualche modo riconducibili alle strategie di refreshing, migration, replication (ridondanza) ed emulation (pietre miliari della digital preservation) – non possono ricadere sulle spalle delle singole istituzioni deputate alla conservazione del patrimonio culturale in modo granulare. Se, a maggior ragione, pensiamo all’archiviazione in un contesto cloud (e alla ridondanza che ad esso si richiede) non si può prescindere dalla collaborazione aperta agli operatori commerciali della rete.

Come annotazione conclusiva possiamo rimarcare che sia la cancellazione (almeno temporanea) di particolari contenuti o pagine web o interi siti sia la permanenza programmata degli stessi per un periodo di tempo molto lungo, se non indefinitamente, costituiscono le due facce della stessa medaglia. Per quanto possa sembrare relativamente più facile ottenere cancellazioni o blocchi, in realtà, in entrambi i casi la vera difficoltà consiste nel raggiungere il livello necessario di organizzazione e integrazione degli sforzi congiunti da parte di entità e istituzioni assai differenti che talvolta non hanno gli stessi obiettivi.

*************************************************************************************************

*Stefano Ottani è ricercatore presso l’Istituto per la Sintesi Organica e la Fotoreattività (ISOF) di Bologna. Ha svolto ricerche soprattutto nell’ambito dei sistemi macromolecolari di origine sintetica e naturale. Parte della sua attività di ricerca è dedicata allo sviluppo di modelli e metodi computazionali per l’interpretazione dei risultati sperimentali. Attualmente studia il comportamento di amminoacidi e molecole d’interesse farmacologico, utilizzando metodi di chimica computazionale e calcoli quanto-meccanici. Si occupa inoltre della messa a punto di procedure computazionali su sistemi per il calcolo ad alte prestazioni, quali grid e cluster.

**Gustavo Filippucci è responsabile bibliotecario della biblioteca del Dipartimento di Chimica “Giacomo Ciamician” dal 2000. E’ stato membro del comitato di biblioteche della rete nazionale NILDE per due mandati. In tale contesto ha partecipato a diversi comitati organizzativi di convegni dedicati a temi bibliotecari. Partecipa a gruppi di lavoro tematici promossi dal Catalogo collettivo Nazionale di Periodici ACNP, in particolare sui temi connessi alle pubblicazioni periodiche elettroniche.E’ coordinatore del gruppo di lavoro nazionale ALPE (Archivio Licenze Periodici Elettronici), che coinvolge importanti istituzioni nazionali nelle creazione di un database di pubblico accesso alle ‘License Agreement’ stipulate con i principali editori nazionali ed internazionali

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...