Vuoi imparare la SEO?

Guida a Internet Archive – Come funziona Archive.Org

internet archive

Ben ritrovati a un nuovo approfondimento.

Internet Archive (noto anche come Archive.org per via del nome del dominio, oppure come “Wayback Machine” dal nome dell’interfaccia applicata) è una biblioteca online no profit nata con lo scopo di preservare la conoscenza e l’accesso a molti tipi di risorse come siti web, file audio, immagini, video, libri digitali.

La sua creazione risale al 1996 per merito di Brewster Kahle, e in virtù del proprio impegno a favore della salvaguardia delle opere dell’ingegno fa parte della International Internet Preservation Consortium. L’importanza di questa biblioteca digitale è attestata dai milioni di navigatori al giorno e dal fatto che risulta uno dei 300 siti più visitati al mondo.

Archive.org contiene oltre 396 bilioni di pagine web, 14 miliardi di testi, 35 miliardi di contenuti multimediali di vario genere, e costituisce un’immensa biblioteca digitale concepita per preservare la conoscenza in ogni sua forma. Sostanzialmente, il portale costituisce una “copia di backup” dell’intero Internet dal 1996 a oggi, grazie all’incommensurabile apporto di 28 sedi sparse per il mondo che digitalizzano oltre 1.000 libri al giorno.

Cos’è Internet Archive

Internet Archive è una vera e propria organizzazione (con server e uffici amministrativi a San Francisco) che si occupa di promuovere la libera circolazione della conoscenza su Internet.

All’interno di questo contenitore permanente possiamo trovare una raccolta sconfinata di immagini, video, canzoni, siti web, di pubblico dominio o con licenza Creative Commons, scaricabili liberamente.

Siccome i motori di ricerca come Google, Bing ecc. tendono a “dimenticare” le risorse e i siti che vengono cancellati o non sono più accessibili (nemmeno le copie in cache di Google durano per sempre), serviva un canale gratuito per tenere memoria di tante testimonianze dell’ingegno umano che altrimenti sarebbero andate perdute per sempre.

Nel portale di Archive.org ricercatori, studiosi, ma anche semplici appassionati possono trovare, ad esempio, videogiochi caduti ormai nel dimenticatoio, pellicole d’epoca, opere d’arte, libri antichi, canzoni e altri generi di opere umane.

Internet Archive è consultabile attraverso la Wayback Machine, un’interfaccia che permette di memorizzare e leggere tutte le informazioni sui siti web memorizzati.

Tutti i siti indicizzabili presenti sul web vengono quindi salvati sotto forma di immagini o scansioni (snapshot) consultabili nelle loro condizioni in diversi anni o periodi di tempo.

L’espressione “Wayback Machine” deriva dai nomi “WABAC Machine” (provenienti dalla serie Rocky e Bullwinkle). Il portale si avvale della tecnologia di crawling Alexa per individuare le variazioni dei siti web, che vengono salvati come dei “fermo immagine” all’interno del portale.

Un sito provvisto di robots.txt che scoraggia la la scansione dai motori di ricerca tuttavia non può essere in ogni caso recepito da Wayback Machine. Nel caso dei siti bloccati difatti vengono visualizzati soltanto i corrispondenti file Robots.txt.

Se i siti vengono settati con il noindex, tale inibizione si propaga in maniera retroattiva rendendoli non più disponibili. Si può inoltre rimuovere un sito dall’archivio facendone apposita richiesta.Guida a Int

Come funziona la Wayback Machine

Internet Archive – ancora non conosciutissimo in Italia al pari di Wikipedia, ma comunque molto apprezzato – offre un insostituibile impegno nella difesa del patrimonio culturale e artistico dell’umanità.

Archive.org mette a disposizione nel proprio sito opere multimediali di ogni genere provenienti da tutti i Paesi del mondo, allo scopo di preservare la conoscenza di opere dell’ingegno umano e di aiutarle a superare indenni il trascorrere del tempo. Come puoi immaginare questo proposito di conservazione richiede spazi titanici di immagazzinamento, e l’organizzazione ricorre appunto a 30 petabytes per immagazzinare, addirittura, 2 copie di ogni pagina web!

La Wayback Machine, l’interfaccia in Archive.org, è una vera e propria macchina del tempo che permette di sfogliare i contenuti web sotto forma di istantanee, delle vere e proprie “fotografie” dei siti web scansionati. A oggi sono presenti nel portale oltre 400 miliardi di immagini e di file di altro genere.

Il meccanismo della Time Machine ti permette quindi di visionare lo stato di un sito in un dato periodo di tempo e di confrontare uno stesso portale a distanza di anni per monitorare la sua evoluzione.

La Wayback Machine è una risorsa eccezionale per nostalgici e appassionati che permette di:

  • studiare come cambiano i siti web nel corso degli anni
  • ritrovare pagine web e file ormai decaduti che altrimenti sarebbero da considerarsi persi
  • documentare i contenuti e lo stato di certi siti in un dato momento storico
  • creare immediatamente una copia del sito se questo è ancora online

La Wayback Machine in pratica è composta da funzioni che consentono di memorizzare le scansioni dei siti web e da quelle che le rendono accessibili a chiunque.
Per ogni sito web memorizzato è possibile consultare un “sommario” dei dati salvati e una mappa circolare dei materiali divisi per anno. La piattaforma è integrabile su browser anche grazie ai pratici componenti aggiuntivi.

Questa formidabile applicazione è in grado di memorizzare anche i siti web dinamici: gli snapshot che produce infatti sono versioni statiche dei siti web e, nel momento in cui la scansione viene formata, la versione “immagine” del sito viene memorizzata come se fosse in cache.

Da un lato, ciò permette di replicare la pagina web originale in ogni suo dettaglio; da un altro, questa procedura è in grado di salvare soltanto la versione elaborata in quel dato momento dal server (proprio come una fotografia può recepire soltanto gli aspetti inquadrati di un soggetto). Non è possibile comunque visionare il contenuto delle aree riservate con db inaccessibile.

I siti memorizzati sono perfettamente funzionanti all’interno del portale con tanto di hiperlink, perciò si possono consultare come quando “erano in vita”.

Archive.org ci permette di consultare vecchie versioni di pagine web all’interno del proprio “archivio 3D” e di una gran serie di materiali quali:

  • immagini in movimento (film, cinegiornali, cartoni animati classici, propaganda di guerra, film
  • didattici, filmati amatoriali)
  • audio
  • testi

Per consultare il patrimonio di questo immenso libro di storia digitale ci basta digitare nella barra di ricerca della home page il nome o l’URL del sito che stiamo cercando o della risorsa che ci interessa.

I contenuti sono divisi in maniera pratica in risorse come Immagini, Libri, Video, Audio, e relative sotto-collezioni. Possiamo eseguire inoltre la ricerca focalizzandoci su:

  • metadata
  • contenuti testuali
  • catture di trasmissioni TV
  • web siti archiviati

Archive.org costituisce quindi un’enorme raccolta di film e libri, serie TV e immagini, consultabili e scaricabili in maniera legale e gratuita. Possiamo ad esempio recuperare vecchi film altrimenti irreperibili, dai classici come “La corazzata Potëmkin”, “Nosferatu” e il “Dottor Mabuse”, alle serie TV dei tempi di guerra come “Why We Fight”.

Grazie a Internet Archive possiamo accedere a innumerevoli biblioteche di ogni genere, rese disponibili come di pubblico dominio, oppure volumi antichi i cui diritti sono decaduti (in genere 70 anni dopo la morte dell’autore). Si può scaricare libri precedenti al 1923, prendere il prestito dal sito Open Library libri moderni oppure consultarne altri con funzione di stampa disabilitata.

La sezione dei video è ricchissima, possiamo trovare cartoni animati, film storici e didattici, vlog, programmi televisivi, collezioni video.

La sezione delle immagini contempla diverse collezioni, come quelle del Metropolitan Museum o del Brooklyn Museum, e illustrazioni con licenza creative Commons provenienti ad esempio da Flickr e persino da archivi NASA messi a disposizione del pubblico.

La categoria dei software racchiude programmi storici, videogame, software su CD che altrimenti sarebbe quasi impossibile rinvenire altrove. La sezione dei libri contiene volumi in forma digitale con tutte le informazioni del caso (autore, data di pubblicazione, biblioteca di provenienza, stato del copyright…).

Come fare a memorizzare volontariamente un sito in Archive.org? Se ci teniamo che un sito venga memorizzato, basta sottoporle l’URL della risorsa da scansionare. Una volta salvato, la Wayback Machine di tanto in tanto tornerà a scansionarlo per memorizzare altre “immagini” che andranno a costruire una successione di copie del sito per dati intervalli temporali.

Certo, il portale non offre ancora una esperienza di navigazione attraente ma, in virtù dell’enorme mole di contenuti che ci mette a disposizione gratuitamente, è decisamente una risorsa favolosa per recuperare tutti i siti indicizzabili.

La Wayback Machine costituisce quindi una macchina fenomenale per recuperare siti andati perduti e per preservare documenti e file che altrimenti non sarebbero più reperibili.

E tu che cosa ne pensi? Parliamone qua sotto!

Ti potrebbe interessare: