Conoscenza ed Informazione

Luigi Campanella, già Presidente SCI

La comunicazione fra fede e ragione, soprattutto in un mondo sempre più secolare, non può che apportare benefici alla società, a prescindere da come ognuno di noi la possa pensare sul piano politico e filosofico. Karol Wojtila diceva che l’uomo soffre per mancanza di visione e conoscenza.

Oggi disponiamo di parecchi modi per comunicare : cellulari, internet, skype, facebook; ma stiamo davvero comunicando? A guardare le espressioni di odio, di intolleranza che continuamente ci feriscono si direbbe di no.

Gli esperti dicono che la comunicazione per essere efficace richiede tecniche specifiche capaci di attrarre l’attenzione dell’audience, di impressionare. Ma allora viene il dubbio che comunicare significhi manipolare chi ci ascolta. Una comunicazione deformata diviene propaganda, non trasmissione di conoscenza. E poiché la conoscenza è la base della sostenibilità economica, ambientale, sociale ecco che queste vengono messe in discussione, ecco che cominciano a prevalere l’individualismo, la xenofobia, il massimalismo. Se tu conosci meno di me ecco che io posso crescere più di te e tu dipenderai da me, sempre. Questo assunto, macroscopicamente errato, che potrebbe essere validato soprattutto nella scienza, deifica i mercati finanziari ed il PIL nella convinzione che più questo cresce più si vive bene, mentre è chiaro che poiché l’integrale non è infinito, in corrispondenza di questo assunto se ne instaura un altro di crescita delle discriminazioni.

https://www.researchgate.net/publication/272474475_Flussi_di_conoscenza_e_spazi_ibridi_di_apprendimento/figures?lo=1&utm_source=google&utm_medium=organic

Le nostre economie estraggono risorse, le utilizzano con il lavoro e producono scarti e rifiuti: parte di questo lavoro è utile e sano, ma non tutto: basti pensare a tutte le attività illecite e disoneste che pure producono PIL. Il solo mezzo per rendere sostenibile questo ciclo di energia e materia consiste nel riciclare la maggior parte degli scarti e nel sopprimere la parte illecita del lavoro, pervenendo ad una riduzione del nostro prelievo di risorse non rinnovabili. La sostituzione degli idrocarburi fossili con le energie rinnovabili farà probabilmente abbassare la produttività del lavoro, ma con l’intelligenza del capitale umano è possibile compensare con il lavoro umano il calo di produttività dell’energia che sostituiamo al petrolio e ,di conseguenza, l’occupazione ne sarà favorita. Tutti questi processi in atto insieme hanno innescato un clima di incertezza, di insicurezza, sfiducia, le madri del populismo inteso come avversione ai privilegi della casta e dei poteri forti, delle elite intellettuali, degli organi sovranazionali. Non c’è dubbio che ciò possa rappresentare un problema per la stabilità delle nostre istituzioni democratiche. Forse da scienziati dovremmo cominciare a pensare di trattare il populismo non come una patologia, ma come un’audience speciale e prestare ad essa una maggiore attenzione creando conoscenze più che informazioni, cultura ancor più che conoscenza.

«Vorrei dirlo con le parole di Hannah Arendt, grande filosofa del XX secolo, “viviamo in tempi bui” – prosegue Bauman – Ovviamente non sto dicendo che siamo ciechi: vediamo benissimo ciò che ci sta intorno, ma piuttosto che, come accade al buio, riusciamo a vedere solo ciò che sta immediatamente vicino a noi, ma non oltre. Inoltre, come disse Ludwig Wittgenstein, altro grandissimo filosofo del XX secolo, comprendere significa sapere come andare avanti. E questo è proprio ciò che a noi manca: la capacità di comprendere. Abbiamo a disposizione un’enorme quantità di informazione, in byte, come mai prima nella storia, ma abbiamo una minore capacità di comprendere cosa sta accadendo e cosa sta per accadere rispetto ai nostri antenati che godevano invece di una salutare ignoranza relativa»

Cerimonia per la consegna della laurea honoris causa, Università del Salento

Gli intellettuali devono riprendere a parlare con continuità.

Fino agli anni 70 avevamo assunto un compito di primordine ponendoci come confine fra concretezza e teoresi. Dopo la trasformazione dell’Italia del boom, le contestazioni giovanili, il terrorismo hanno indotto una stagione di non militanza, comunque minimalista. Per dirla con Umberto Eco:”in passato l’intellettuale si spingeva al di là del colore politico; oggi questo avviene sempre di meno anche perché l’industria e la società hanno cambiato strategia, dismettendo mecenatismo culturale, pubblicazioni periodiche, mostre” o con Thomas Eliot:”Dov’è la saggezza che abbiamo perso con la conoscenza? Dov’è la conoscenza che abbiamo perso con l’informazione?”

La permanenza dei dati nell’era digitale (parte 2)

Nota: si ricorda che le opinioni espresse in questo blog non sono da ascrivere alla SCI o alla redazione ma al solo autore del testo.

la prima parte di questo post è stata pubblicata qui

a cura di Stefano Ottani* e Gustavo Filippucci**

Una questione attualmente assai dibattuta riguarda la pubblicazione di articoli scientifici, in particolare la disponibilità dei dati sperimentali ad essi collegati e dei metodi utilizzati per elaborarli. In una prima fase il dibattito ha riguardato soprattutto articoli pubblicati già da alcuni anni, i cui dati originali siano ancora conservati dagli autori. Col passare del tempo il mezzo su cui tali dati sono registrati (tipicamente supporti magnetici) rischiano di diventare illeggibili, sia per il deterioramento dei materiali che per la dismissione e l’eliminazione delle procedure e dei programmi con cui i dati sono stati ottenuti e/o elaborati. Inoltre è diventato assai difficile o anche impossibile rileggere supporti magnetici contenenti i tracciati di curve sperimentali ottenuti con vecchi modelli di strumenti scientifici, qualora lo strumento stesso sia stato smantellato. Dato che uno dei pilastri su cui poggia il sistema della ricerca è la verificabilità del dato pubblicato, è prevedibile che, in mancanza di soluzioni adeguate, questo requisito possa andare perduto in tutto o in parte. Per quanto riguarda la velocità di sparizione dei dati scientifici ci si può riferire a questa URL: http://www.rsc.org/chemistryworld/2014/01/scientific-data-disappearing-alarming-rate.

Per il presente ed il futuro molti editori di riviste scientifiche si stanno attrezzando creando o ampliando gli archivi contenenti i cosiddetti materiali di supporto dell’articolo, in cui gli autori possono includere tutti quegli elementi che, pur sostenendo la validità del contenuto dell’articolo, lo avrebbero appesantito in modo eccessivo se inseriti nel testo stesso. Attualmente tali archivi si stanno arricchendo anche di elementi multimediali, supportando quindi metodi di comunicazione che vanno ben oltre il testo scritto. Un aggiornato approfondimento su questi temi è dato dall’articolo Bibliotime, XVII, 3 – Paolo Manghi, Sfide tecnologiche per l’accesso aperto a tutti i prodotti della ricerca.

Sempre in questo ambito considerazioni più specifiche vanno fatte per gli articoli che presentano un marcato carattere computazionale. Assume qui grande rilevanza quanto detto in precedenza sulla relazione forte fra la struttura di un dato archiviato e il metodo utilizzato per produrre il dato stesso. Infatti, dal punto di vista computazionale, la riproducibilità del dato pubblicato dipende dalla disponibilità dei file di input, di output e dei codici dei programmi utilizzati nel calcolo. Se, con Popper, ammettiamo che un requisito fondante di ogni affermazione scientifica sia la possibilità di confutarla, dobbiamo inevitabilmente fornire assieme al dato il metodo di misurazione. Nel caso di procedure computazionali (quali ad esempio i calcoli ab initio, il molecular modeling e la cheminformatica), la rigorosa aderenza al requisito di Popper non è quasi mai soddisfatta da una descrizione semplificata del metodo e della procedura, che pur includa tutti gli opportuni riferimenti. In molti casi occorrerebbe fornire i codici sorgente dei programmi di calcolo utilizzati ed eventualmente anche i compilatori utilizzati per ottenere il codice eseguibile. La questione non è affatto semplice e ha dato origine a un dibattito esteso.

Supponiamo, per esempio, che il produttore di un codice non aperto e protetto da copyright decida di ritirare completamente tale programma. Si giungerà ad un punto in cui tutti i dati ottenuti con tale codice non saranno più riproducibili. Addirittura la detenzione di copie non più licenziate del programma, anche da parte di istituzioni senza scopo di lucro (biblioteche, banche dati aperte etc.), potrebbe costituire una violazione di copyright. Un articolo sulla rivista Science propone di risolvere la questione obbligando tutti i lavori finanziati da contributi pubblici ad includere il codice sorgente o un metodo equivalente per garantire la semplice e immediata riproducibilità di quanto pubblicato (A. Morin, J. Urban, P. D. Adams, I. Foster, A. Sali, D. Baker, P. Sliz “Shining Light into Black Boxes”, Science, Vol. 336 no. 6078 pp. 159-160, DOI: 10.1126/science.1218263). Una discussione approfondita sul problema della riproducibilità in questo tipo di lavori è riportata in un articolo del 2013 di W. Patrick Walters (W. P. Walters “Modeling, Informatics, and the Quest for ReproducibilityJournal of Chemical Information and Modeling 2013, 53, 1529, DOI: 10.1021/ci400197w)

Nella vastità e complessità delle problematiche connesse alla preservazione accenniamo ora brevemente ad alcune importanti iniziative che si collegano alla conservazione dei dati digitali.

Il concetto di Digital preservation circoscrive un insieme di pratiche e progetti consolidatisi nel tempo; in Italia il tema è oggetto di attività legislativa da almeno 15 anni (decreto legge 445/2000). L’espressione è usata in ambito anglo-sassone per indicare le problematiche di immagazzinamento, mantenimento e accesso nel lungo periodo degli oggetti digitali con l’obiettivo di assicurare il contenuto intellettuale di un documento, rendendolo accessibile per le generazioni future, sia nel caso di informazioni native digitali, sia nel caso di conversioni digitali di materiale analogico.

dati3

Per un primo approccio alla sterminata bibliografia disponibile in rete segnaliamo l’interessante sito web della Library of Congress: http://digitalpreservation.gov/about e la pagina del sito italiano “Rinascimento Digitale” dedicata ai progetti europei: http://www.rinascimento-digitale.it/digitalpreservation.phtml.

Quest’ultima segnala, a sua volta, la preziosa attività del PREMIS workgroup (Preservation Metadata: Implementation Strategies) in cui convergono l’Online Computer Library Center (OCLC) e il RLG (Research Library Group). Da citare anche la versione italiana http://dpworkshop.org/dpm-ita/resources.html del tutorial sviluppato dalla Cornell University Library, ospitato dall’Inter-university Consortium for Political and Social Research (ICPSR) dal 2007-2011, e successivamente dal MIT Libraries.

Fra le organizzazioni internazionali più attive troviamo l’UNESCO che ha raccolto in un insieme di raccomandazioni i processi atti ad assicurare l’accessibilità e la fruibilità nel tempo dei materiali digitali.

Altre istituzioni internazionali si occupano dei temi legati alla conservazione, tra queste è utile ricordare il ruolo svolto da istituzioni bibliotecarie quali l’IFLA (International Federation of Library Associations and Institutions) attraverso il suo Strategic Programme on Preservation and Conservation (PAC) attivo fin dal 1984. L’IFLA, tramite l’attiva partecipazione del suo Presidente e altri di altri suoi membri, aderiscec a Congressi dedicati al tema (segnaliamo l’importante Convegno UNESCO sul tema: The Memory of the World in the Digital age: Digitization and Preservation, 26-28 September 2012, Vancouver, Canada, 2012).

Anche l’American Library Association (ALA), la più importante associazione nazionale di bibliotecari, è da lungo tempo attiva con gruppi di interesse sui temi oggetto della nostra analisi.

Esistono iniziative a livello nazionale quali ad esempio la Digital Preservation Coalition, che si occupa di raccogliere le più importanti istituzioni culturali del Regno Unito intorno al comune sforzo di preservazione dei dati, o come il progetto australiano PANDORA – chiamato anche PANDAS – (Preserving and Accessing Networked Documentary Resources of Australia), sviluppato dalla National Library of Australia a partire dal lontano 1996, che basa il proprio lavoro sull’assegnazione di identificatori persistenti agli oggetti digitali delle proprie collezioni.

Una significativa funzione è assegnata a livello accademico ai cosiddetti Institutional Repositories, questi depositi svolgono il ruolo di biblioteche digitali secondo il modello dell’Open Access. Come le biblioteche, conservano e disseminano i documenti archiviati, li organizzano e ne gestiscono le procedure per l’indicizzazione dei metadati. I metadati sono degli identificativi persistenti che i Repositories utilizzano per conservare permanentemente i documenti archiviati. Presso gli Institutional Repositories troviamo depositati e conservati materiali digitali che altrimenti non troveremmo in altri contesti digitali, si pensi in particolare alla produzione scientifica che non rientra nel circuito della pubblicazione, convenzionalmente definita grey literature (tesi, rapporti tecnici, ecc.).

In Italia, l’assegnazione di identificativi persistenti agli oggetti digitali è considerato uno standard di riferimento almeno per quanto riguarda la produzione di dati/oggetti digitali nel settore pubblico. I requisiti specifici sono dettagliati nella legge denominata “Codice per l’amministrazione digitale”, approvata nel 2005 e aggiornata nel 2010. Alcuni dei principali standard recepiti nelle differenti legislazioni provengono dal lavoro dell’Open Archival Information System (OASIS), il modello si pone l’obiettivo di standardizzare la pratica della preservazione digitale fornendo un insieme di indicazioni (attraverso un reference model) per l’attuazione di un programma di conservazione. La norma ISO 14721:2003 ne è alla base e definisce gli aspetti tecnici che presiedono al ciclo di vita di un oggetto digitale: immissione e stoccaggio, infrastruttura di conservazione, gestione, accessibilità e distribuzione. Riguardo ai metadati, la norma prevede cinque associazioni all’oggetto digitale: il riferimento (identificazione), la provenienza (cronologia), il contesto, la fissità (che deve garantire l’autenticità) e la rappresentazione (formato, struttura del file, ecc.).

I temi connessi alla conservazione/permanenza dei dati nell’era digitale sono, come si è visto, molteplici e coinvolgono aspetti tecnologici, politico-organizzativi, comportamenti sociali e, come nel caso del concetto di fissità, anche elementi di carattere legale: è bene ricordare che un aspetto strettamente connesso alla conservazione e alla fruizione dei dati è quello relativo al mantenimento della loro integrità e autenticità. La conservazione non è quindi solo un problema tecnologico “dal momento che i materiali digitali possono essere documenti aventi valore legale” (G. Marzano, Conservare il digitale, 2011, p. 53). Inoltre, il riconoscimento o l’attribuzione di paternità di un opera digitale può generare ulteriori problematiche a seconda del contesto – architettura software o ambiente/applicativo – nel quale è stato prodotto/depositato.

Di certo, quando si parla di dati digitali, è sempre bene circoscriverne il contesto. Limitandoci a titolo esemplificativo al solo campo della cosiddetta letteratura grigia, una cosa è parlare di dati depositati in un archivio istituzionale o in server di grande tradizione quale ad esempio il NASA Technical Reports Server, altra cosa ai fini della persistenza sono i documenti pubblicati su un blog o disponibili nelle biblioteche clandestine di internet. In questi casi, per i dati digitali è valida la stessa relazione che si stabilisce tra web e deep web: tanto è tendenzialmente infinita la massa (rumore) di dati prodotti direttamente in formato digitale, tanto più potranno divergere le strategie di conservazione nei differenti contesti culturali e scientifici.

Per i dati digitali il tradizionale luogo di conservazione dovrebbe posizionarsi su una scala di livello superiore, sia per il grado di coordinamento e standardizzazione che le procedure richiedono, sia per sostenere finanziariamente nel tempo progetti molto onerosi. Le attività di gestione come la migrazione e la replicazione dei dati – in qualche modo riconducibili alle strategie di refreshing, migration, replication (ridondanza) ed emulation (pietre miliari della digital preservation) – non possono ricadere sulle spalle delle singole istituzioni deputate alla conservazione del patrimonio culturale in modo granulare. Se, a maggior ragione, pensiamo all’archiviazione in un contesto cloud (e alla ridondanza che ad esso si richiede) non si può prescindere dalla collaborazione aperta agli operatori commerciali della rete.

Come annotazione conclusiva possiamo rimarcare che sia la cancellazione (almeno temporanea) di particolari contenuti o pagine web o interi siti sia la permanenza programmata degli stessi per un periodo di tempo molto lungo, se non indefinitamente, costituiscono le due facce della stessa medaglia. Per quanto possa sembrare relativamente più facile ottenere cancellazioni o blocchi, in realtà, in entrambi i casi la vera difficoltà consiste nel raggiungere il livello necessario di organizzazione e integrazione degli sforzi congiunti da parte di entità e istituzioni assai differenti che talvolta non hanno gli stessi obiettivi.

*************************************************************************************************

*Stefano Ottani è ricercatore presso l’Istituto per la Sintesi Organica e la Fotoreattività (ISOF) di Bologna. Ha svolto ricerche soprattutto nell’ambito dei sistemi macromolecolari di origine sintetica e naturale. Parte della sua attività di ricerca è dedicata allo sviluppo di modelli e metodi computazionali per l’interpretazione dei risultati sperimentali. Attualmente studia il comportamento di amminoacidi e molecole d’interesse farmacologico, utilizzando metodi di chimica computazionale e calcoli quanto-meccanici. Si occupa inoltre della messa a punto di procedure computazionali su sistemi per il calcolo ad alte prestazioni, quali grid e cluster.

**Gustavo Filippucci è responsabile bibliotecario della biblioteca del Dipartimento di Chimica “Giacomo Ciamician” dal 2000. E’ stato membro del comitato di biblioteche della rete nazionale NILDE per due mandati. In tale contesto ha partecipato a diversi comitati organizzativi di convegni dedicati a temi bibliotecari. Partecipa a gruppi di lavoro tematici promossi dal Catalogo collettivo Nazionale di Periodici ACNP, in particolare sui temi connessi alle pubblicazioni periodiche elettroniche.E’ coordinatore del gruppo di lavoro nazionale ALPE (Archivio Licenze Periodici Elettronici), che coinvolge importanti istituzioni nazionali nelle creazione di un database di pubblico accesso alle ‘License Agreement’ stipulate con i principali editori nazionali ed internazionali

La permanenza dei dati nell’era digitale (parte 1)

Nota: si ricorda che le opinioni espresse in questo blog non sono da ascrivere alla SCI o alla redazione ma al solo autore del testo.

a cura di Stefano Ottani* e Gustavo Filippucci**

In un articolo de “Il Sole 24ORE” dal titolo “Vincent Cerf lancia l’allarme: i dati memorizzati oggi? Rischiamo di perderli”, pubblicato il 18 giugno del 2013, viene sollevato il problema della continuità, intesa come disponibilità nel tempo, dei metodi di lettura e decodifica dei testi e più in generale dei dati prodotti in passato. L’articolo sottolinea che quindici anni possono essere un tempo soggettivamente breve, ma, in termini digitali, corrispondono a cambiamenti di tecnologia (sia hardware che software) talmente importanti da rendere la decodifica di alcuni documenti estremamente difficile. Cerf, il cui nome è Vinton, non Vincent, è vice presidente di Google e uno dei progettisti del protocollo alla base di Internet, il TCP/IP. Egli sottolinea che un oggetto digitale ha significato se esiste un metodo per interpretarlo. In Internet l’informazione è strutturata e quindi occorre un’applicazione, un programma specifico per accedervi. Se l’informazione è su un disco, “noi non perderemo il disco, ma possiamo perdere la capacità di leggere il disco”. La questione sollevata da Cerf più di un anno fa è stata discussa a partire da altri punti di vista. In questo articolo cercheremo di approfondire aspetti più vicini alla ricerca e alla letteratura scientifica, particolarmente in campo chimico e delle scienze della vita. Nella seconda parte tratteremo più in dettaglio l’insieme di iniziative che vanno sotto il nome di Digital Preservation, cercando di fornire un quadro dei riferimenti bibliografici e delle attività, quali le strategie di identificazione e catalogazione delle risorse digitali, che si sono sviluppate in relazione al tema.

Un primo aspetto da considerare è la permanenza dei supporti fisici per l’archiviazione dell’informazione. I supporti del passato (pietra, terracotta, papiro, pergamena, carta …) sono oggi sostituiti da plastica, metalli rari, materiali magnetici e magnetizzabili, nella forma di dischi (dischi rigidi, DVD, CD-ROM, dischi a stato solido), memorie flash e altro, in un insieme che Cerf chiama “digital vellum” (pergamena digitale). Questi supporti sembrano presentare una maggiore stabilità e affidabilità rispetto al passato, anche se ciò dipende dall’evento che si prende a riferimento. Per fare un esempio, un’esplosione nucleare non era un evento possibile nel passato remoto, mentre un tale evento è entrato pesantemente nella progettazione di un protocollo di rete come il TCP/IP. Alcuni anni fa Umberto Eco ha pubblicato sul settimanale “L’Espresso” una “Bustina di Minerva” in cui si poneva l’accento sulla maggiore permanenza dei supporti moderni rispetto agli antichi. Eco sosteneva che la scelta di un supporto molto più stabile di altri può distorcere in modo significativo la permanenza temporale dell’informazione contenuta. I posteri potrebbero formarsi un’idea profondamente distorta della civiltà attuale semplicemente perché certi supporti (CD-ROM, DVD), usati preferenzialmente per determinate categorie di contenuti, potrebbero sopravvivere molto meglio rispetto ad altri quali i dischi magnetici o semplicemente la carta stampata. In generale questo tipo di problemi è stato affrontato, anche nel lontano passato, aumentando la ridondanza nei sistemi di archiviazione dati, ovvero generando più copie dei supporti, e differenziando e delocalizzando i supporti stessi. Di fatto la ridondanza è un tema pervasivo quando si considera la completezza e la correttezza dell’informazione.

Attualmente la questione dell’affidabilità dei processi di archiviazione dei dati si pone in termini diversi. La virtualizzazione dei supporti (virtual storage) e la successiva introduzione dei sistemi cloud hanno portato alla progressiva smaterializzazione dei supporti fisici. In questo ambito smaterializzazione significa che il legame, la corrispondenza fra il dato e il supporto fisico su cui è scritto è diventata evanescente. Il dato viene spostato, frazionato e duplicato su supporti diversi, ricollocato a seconda delle esigenze globali del sistema di archiviazione. Le procedure che regolano questo tipo di gestione acquistano una preminenza assoluta nell’affidabilità del dato. Il fallimento di una di esse può portare alla distruzione dell’archivio nel senso di renderlo anche totalmente irrecuperabile, perfino in assenza di danni fisici ai supporti.

Possiamo ora mettere meglio a fuoco il problema sollevato da Cerf. Per fissare le idee, supponiamo di avere un documento archiviato su un CD-ROM e supponiamo che il programma di lettura/scrittura usato per produrlo diventi improvvisamente introvabile. Tuttavia, se mantenessimo la capacità di leggere il supporto a basso livello, ovvero i singoli bit scritti sul CD-ROM, potremmo ancora essere in grado con metodi logico-statistici di ricostruire in tutto o in parte il significato del testo. Certamente si tratta di procedure lunghe e laboriose, ma con una buona percentuale di successo. Un’analogia in questo senso potrebbe essere trovata nella decifrazione del lineare b, il sistema di scrittura della lingua micenea.

Supponiamo invece di avere un documento archiviato in un sistema cloud e che il programma che gestisce la lettura/scrittura di un documento, nonché la sua collocazione, duplicazione, salvataggio periodico etc. fallisca. In tal caso il recupero del documento sarebbe estremamente difficile, quasi irrealizzabile in tempi utili. E’ molto più efficace proteggersi dalla perdita catastrofica dei dati tramite la duplicazione ripetuta dei documenti su sistemi diversi. Più in generale, è l’aumento significativo della ridondanza, esteso a tutti i livelli dell’archiviazione del dato, che aumenta i livelli di protezione e non solo nei confronti di questo tipo di perdite.

 dati1

Il rapporto fra ridondanza e informazione può essere illustrato da un esempio tratto da un semplice gioco enigmistico. Si ricorderà la tabella composta da sequenze di numeri e spazi. Ad ogni numero è associata una lettera dell’alfabeto e alcune delle lettere sono espresse in chiaro. Dalla conoscenza della lingua in cui il testo è scritto e dalle conseguenti regole grammaticali e sintattiche è possibile, con gli elementi minimi d’informazione forniti, risalire al testo in chiaro. Lo schema è risolto quando tutti i numeri sono stati sostituiti dalla lettera corrispondente e il testo diventa completamente leggibile. In termini di teoria dell’informazione potremmo dire che tutte le lettere non in chiaro, ovvero espresse da numeri nel testo, sono ridondanti rispetto all’informazione contenuta nel testo stesso. Chi risolve questo tipo di schemi sa benissimo che raggiunto un certo livello nella procedura di soluzione non occorre neanche più sostituire materialmente i numeri con le lettere corrispondenti; quelle già inserite sono sufficienti per ricostruire completamente le parole incomplete o mancanti. Ma allora che necessità c’è di utilizzarle? Immaginiamo che una o più delle lettere in chiaro o degli spazi fossero andati perduti o sostituiti da un elemento sbagliato: il messaggio, o parti consistenti di esso sarebbero incomprensibili. La ridondanza rappresenta proprio la risposta a questo problema: grazie alle lettere o alle parole in eccesso possiamo rimediare alla perdita di dati e al deterioramento del messaggio.

Da quanto detto fin qui emerge una caratteristica fondamentale dei sistemi di archiviazione attuali: la predominanza del metodo sia esso di lettura, scrittura, cifratura, gestione del dato, rispetto al dato stesso. Vi è ancora un’altra caratteristica da considerare: la struttura che il dato assume in un archivio è determinata dal livello di conoscenza nel campo cui il dato si riferisce e dai metodi d’indagine utilizzati nel campo stesso. Per proporre un esempio possiamo considerare la relazione che intercorre fra la sequenza dei nucleotidi del mRNA e la struttura primaria di una proteina. Lo stato delle nostre conoscenze ci dice che fra i due dati esiste una corrispondenza biunivoca e quindi in linea di principio possiamo utilizzare un metodo di generazione automatica della sequenza primaria delle proteine basato su archivi che contengono solo le sequenze del mRNA corrispondente. Anche la struttura secondaria può essere generata in automatico dal nostro metodo di lettura. Supponiamo ora, in via del tutto ipotetica, di vivere in un ecosistema in cui la suddetta corrispondenza biunivoca non valga, che una sequenza di mRNA possa generare proteine diverse, magari in funzione degli intervalli di variazione di diversi parametri ambientali. La nostra realtà fisica sarebbe quella di un sistema ad alto tasso di mutazione ed il nostro archivio dovrebbe essere profondamente modificato, associando ad un mRNA diverse proteine ed il set di parametri che ne definiscono il campo di esistenza.

Finora abbiamo trattato la permanenza del dato in termini di eventi o incidenti più o meno casuali che ne comportino l’alterazione o la perdita. Vi è un aspetto altrettanto importante da considerare: l’alterazione, la perdita (o l’anomala sopravvivenza) del dato dovuta a scelte determinate, a selezioni programmate e ripetute. In questo ambito sono i motori di ricerca ad avere un’influenza significativa sull’organizzazione, la replicazione e quindi la persistenza dell’informazione. La raccolta d’informazioni tramite motori di ricerca costituisce infatti lo stadio preliminare per la stesura di articoli d’informazione, di ricerca scientifica, per lo svolgimento di attività didattiche, per la stesura di opere di narrativa e questo per limitarsi solo a campi più legati all’attività culturale. La posizione in cui viene a trovarsi un risultato nella lista ottenuta da un quesito posto al motore di ricerca è determinante per la citazione, per l’utilizzo del dato stesso e quindi per la sua sopravvivenza e propagazione. Non abbiamo qui lo spazio per fare più che un semplice accenno alla questione. Di fatto sono stati sollevati parecchi interrogativi sugli algoritmi alla base dell’ordinamento dei risultati in queste liste (il cosiddetto page ranking), nonché sulla trasparenza di tali risultati e sull’eventuale intervento di operatori umani. Una trattazione più completa la si può trovare in questa voce della Stanford Encyclopedia of Philosophy

Possiamo ricordare altre due questioni anch’esse legate ai motori di ricerca. La prima riguarda la persistenza del dato (peggio ancora se si tratta di un dato errato): basta accennare alle richieste e anche alle cause legali nei confronti di alcuni motori di ricerca e di social network per la cancellazione di profili indesiderati e di dati non più voluti o raccolti in modo illegale. La seconda questione è un po’ il rovescio della medaglia della questione del page ranking e riguarda ciò che non viene mai indicizzato dai motori di ricerca, entità a cui ci si riferisce comunemente con il termine invisible web o deep web.

dati2

E’ convinzione comune che nel deep web si trovino prevalentemente dati illegali, ma la definizione d’illegalità è correlata a situazioni statuali-politiche localizzate, e tale/i definizione/i nell’ambito dell’Internet globale sono molto spesso inadeguate. Che dire infatti di uno o più paesi i cui sistemi informatici bloccano determinati elementi d’informazione (articoli, libri, blog etc.) che in altri paesi sono totalmente legali e che puniscono, anche severamente, coloro che detengono o accedono a tali informazioni? Come potremo preservare una biblioteca clandestina?

Si può anche ammettere che oggigiorno la capacità globale di archiviazione sia tale da consentire di memorizzare praticamente tutto ciò che l’umanità intera produce in un determinato arco temporale. Il Grande Fratello sembra quindi sovrastarci. Tuttavia, per quanto abbiamo detto, questa immensa collezione si distingue dal puro rumore di fondo solo se esistono metodi adeguati per estrarne informazione in tempi utili. Al di là della capacità di calcolo richiesta, la vera sfida sono i metodi d’intelligenza artificiale da applicare, nel cui ambito si stanno registrando enormi progressi. Una logica di tipo tradizionale si rivela normalmente inadeguata ad estrarre significati semantici complessi da grandi moli di dati. In termini più generali potremmo dire che lo spazio logico, ossia l’insieme delle proposizioni distinte che usiamo per connetterci alla nostra realtà e navigare nel mondo, viene manipolato nell’ambito di logiche diverse, non solo quella vero-funzionale a due valori di tipo tradizionale, ma usando una varietà di metodi quali, ad esempio, quelli della logica sfumata (fuzzy).

********************************************************************************************************

*Stefano Ottani è ricercatore presso l’Istituto per la Sintesi Organica e la Fotoreattività (ISOF) di Bologna. Ha svolto ricerche soprattutto nell’ambito dei sistemi macromolecolari di origine sintetica e naturale. Parte della sua attività di ricerca è dedicata allo sviluppo di modelli e metodi computazionali per l’interpretazione dei risultati sperimentali. Attualmente studia il comportamento di amminoacidi e molecole d’interesse farmacologico, utilizzando metodi di chimica computazionale e calcoli quanto-meccanici. Si occupa inoltre della messa a punto di procedure computazionali su sistemi per il calcolo ad alte prestazioni, quali grid e cluster.

**Gustavo Filippucci è responsabile bibliotecario della biblioteca del Dipartimento di Chimica “Giacomo Ciamician” dal 2000. E’ stato membro del comitato di biblioteche della rete nazionale NILDE per due mandati. In tale contesto ha partecipato a diversi comitati organizzativi di convegni dedicati a temi bibliotecari. Partecipa a gruppi di lavoro tematici promossi dal Catalogo collettivo Nazionale di Periodici ACNP, in particolare sui temi connessi alle pubblicazioni periodiche elettroniche.E’ coordinatore del gruppo di lavoro nazionale ALPE (Archivio Licenze Periodici Elettronici), che coinvolge importanti istituzioni nazionali nelle creazione di un database di pubblico accesso alle ‘License Agreement’ stipulate con i principali editori nazionali ed internazionali