Vuoi imparare la SEO?

Come trovare le vecchie pagine dei siti con Google

Per trovare le vecchie pagine web archiviate da Google, ovvero quelle nella sua cache (che è la ‘memoria’ in cui Google salva alcuni risultati, per un breve periodo di tempo di solito), si può utilizzare l’operatore cache: seguito dall’indirizzo della pagina che ci interessa recuperare. Se una pagina è stata cancellata, ad esempio, è possibile che ne sia rimasta una copia nella cache di Google: quindi possiamo sfruttare questo operatore a tale scopo. Superato quel periodo (in media qualche settimana), inoltre, di solito la cache viene cancellata. Si può fare la stessa cosa con il browser Google Chrome oppure utilizzando gli archivi web del sito Archive.org.

Introduzione

Ad oggi Google non è semplicemente un motore di ricerca di pagine web: su periodi di tempo limitati, infatti, consente anche di cercare nello storico delle vecchie pagine, e recuperare ad esempio contenuti di vecchi siti cancellati. Mediante il celebre motore avremo la possibilità di trovare vecchie pagine web, ad esempio cancellate o modificate senza preavviso, e questa cosa può essere utile anche per recuperare vecchi contenuti da siti corrotti o cancellati per errore, essere usato come prova di un caso (ad esempio) di diffamazione e così via. Anche se l’impostazione dipende dai singoli siti, del resto, Google è solito tenere una copia cache delle pagine, memorizzando il tutto in un archivio pubblico liberamente consultabile.

Tali cache sono molto utili, ad esempio, per visualizzare i contenuti di un sito attualmente non disponibile, down o ad esempio scaduto o rimosso, ovviamente entro certi limiti di tempo. Quello che può essere anche interessante capire, in questa ricerca, è l’età delle pagine in cache, in quanto le pagine troppo vecchie potrebbero rilevarsi inutili o inadatte a noi.

Guarda il video-tutorial di questo articolo

A che serve la cache di Google

La cache di Google è una traccia ovvero una copia delle vecchie pagine web, che possiamo utilizzare come archivio ricercabile. Google la salva e permette di recuperarla su richiesta. Ricordiamo a riguardo che:

  1. la cache di Google va bene per recuperare i contenuti delle pagine, non le sue funzionalità (almeno in generale è così);
  2. è utile per recuperare pagine statiche, cioè testo ed immagini;
  3. di solito è impossibile far funzionare pagine dinamiche/interattive da cache – ad esempio form, registrazione ai siti, chat e così via;
  4. la cache ha una durata variabile, per cui dopo un po’ potrebbe essere impossibile recuperarne i contenuti.

Le indicazioni che riporto di seguito sono utili sia per Windows che per Mac e Linux, e su qualsiasi browser abbiate: Safari, Chrome, Firefox, e sono utili sia per ‘addetti ai lavori’ che per utenti ordinari che vorrebbero capire, ad esempio, perché un sito non si apre e se dipenda dalla loro connessione o da altro.

Come cercare nella cache di Google

La ricerca nella cache è un tipo particolare di ricerca su Google. Il formato generico usato da Google per reperire pagine della cache è questo:

http://webcache.googleusercontent.com/search?q=cache:INDIRIZZOSITO

dove INDIRIZZOSITO è l’URL di cui volete reperire una copia in cache.

Ad esempio, poniamo di cercare nella cache di Google questo sito web (staging10.seoroma.com), aprendo il browser all’indirizzo:

http://webcache.googleusercontent.com/search?q=cache:staging10.seoroma.com

troveremo tutte le pagine di staging10.seoroma.com messe, ad oggi, nella cache. Questo ovviamente non vale solo per la homepage, ma anche per le pagine interne.

In genere questa procedura si usa spesso per reperire, entro certi limiti di tempo, la versione originale di una pagina che sia stata modificata nel tempo: ad esempio quella che conteneva informazioni che attualmente sono state cambiate, ovviamente ‘fidandosi’ del crawler di Google e delle sue rilevazioni. Tenete conto del fatto che molti siti non hanno la cache abilitata o, se preferite, impediscono a Google di conservare una copia cache delle loro pagine.

Come cercare nella cache con Chrome

Su Chrome è anche disponibile la sintassi abbreviata, che è identica come significato alla precedente:

cache:INDIRIZZOSITO

Come cercare nella cache di Archive.org

In alternativa, uno storico delle pagine di un sito (con relative istantanee) è disponibile anche su archive.org, facendo una ricerca direttamente nello storico dell’indirizzo scomparso o cancellato, oppure mediante URL tipo:

https://web.archive.org/web/*/http://seoroma.com

dove ovviamente staging10.seoroma.com è l’indirizzo che stiamo cercando. In questo caso potremmo ritrovare le varie versioni delle pagine web archiviate per data, quindi in modo ancora più preciso di prima.

Blocco della cache di Google da parte di un sito (robots.txt)

In alcuni casi i siti non permettono, mediante una particolare direttiva robots.txt, l’archiviazione delle proprie pagine web su Archive. Se volete evitare che il vostro sito sia memorizzato nella cache di Google, ci sono almeno due modi per farlo.

Il primo è quello di inserire un meta tag robots su noarchive all’interno delle singole pagine web:

<meta name="robots" content="noarchive">

il secondo è quello di sfruttare il robots.txt specificando il blocco della cache a Google:

User-Agent: Googlebot
Disallow: /

Fate attenzione che questa seconda impostazione in genere non è consigliata, perché è vero che blocca la cache ma rimuove completamente il vostro sito da Google (anche le versioni attuali).

Ti potrebbe interessare: