Se hai bisogno di aiuto per il tuo business online scrivici a:
Top
SEO Roma / SEO: posizionamento sui Motori di Ricerca  / Come trovare le vecchie pagine dei siti con Google

Come trovare le vecchie pagine dei siti con Google

Introduzione

Google non è semplicemente un motore di ricerca delle pagine web: su periodi di tempo limitati, infatti, consente anche di cercare nello storico delle vecchie pagine. Mediante il celebre motore avremo la possibilità di trovare vecchie pagine dei siti, ad esempio cancellate o modificate senza preavviso. Anche se l’impostazione dipende dai singoli siti, infatti, Google è solito tenere una copia cache delle pagine, memorizzando il tutto in un archivio pubblico liberamente consultabile.

Tali cache sono molto utili, ad esempio, per visualizzare i contenuti di un sito attualmente non disponibile, down o ad esempio scaduto o rimosso, ovviamente entro certi limiti di tempo. Quello che può essere anche interessante capire, in questa ricerca, è l’età delle pagine in cache, in quanto le pagine troppo vecchie potrebbero rilevarsi inutili o inadatte a noi.

A che serve la cache di Google

La cache di Google è una traccia delle vecchie pagine web, che possiamo utilizzare come archivio ricercabile. Ricordo a riguardo che:

  1. la cache di Google va bene per recuperare i contenuti delle pagine, non le sue funzionalità (almeno in generale è così);
  2. è utile per recuperare pagine statiche, cioè testo ed immagini;
  3. di solito è impossibile far funzionare pagine dinamiche/interattive da cache – ad esempio form, registrazione ai siti, chat e così via;
  4. la cache ha una durata variabile, per cui dopo un po’ potrebbe essere impossibile recuperarne i contenuti.

Le indicazioni che riporto di seguito sono utili sia per Windows che per Mac e Linux, e su qualsiasi browser abbiate: Safari, Chrome, Firefox, e sono utili sia per “addetti ai lavori” che per utenti ordinari che vorrebbero capire, ad esempio, perché un sito non si apre e se dipenda dalla loro connessione o da altro.

Come cercare nella cache di Google

Il formato generico usato da Google per reperire pagine della cache è questo:

http://webcache.googleusercontent.com/search?q=cache:INDIRIZZOSITO

dove INDIRIZZOSITO è l’URL di cui volete reperire una copia in cache.

Ad esempio, poniamo di cercare nella cache di Google questo sito web (seoroma.com), aprendo il browser all’indirizzo:

http://webcache.googleusercontent.com/search?q=cache:seoroma.com

troveremo tutte le pagine di seoroma.com messe, ad oggi, nella cache. Questo ovviamente non vale solo per la homepage, ma anche per le pagine interne.

Da leggere:   Come (non) fare SEO: gli errori più comuni

In genere questa procedura si usa spesso per reperire, entro certi limiti di tempo, la versione originale di una pagina che sia stata modificata nel tempo: ad esempio quella che conteneva informazioni che attualmente sono state cambiate, ovviamente “fidandosi” del crawler di Google e delle sue rilevazioni. Tenete conto del fatto che molti siti non hanno la cache abilitata o, se preferite, impediscono a Google di conservare una copia cache delle loro pagine.

Come cercare nella cache con Chrome

Su Chrome è anche disponibile la sintassi abbreviata, che è identica come significato alla precedente:

cache:INDIRIZZOSITO

Come cercare nella cache di Archive.org

In alternativa, uno storico delle pagine di un sito (con relative istantanee) è disponibile anche su archive.org, facendo una ricerca direttamente nello storico dell’indirizzo scomparso o cancellato, oppure mediante URL tipo:

https://web.archive.org/web/*/http://seoroma.com

dove ovviamente seoroma.com è l’indirizzo che stiamo cercando. In questo caso potremmo ritrovare le varie versioni delle pagine web archiviate per data, quindi in modo ancora più preciso di prima.

Blocco della cache di Google da parte di un sito (robots.txt)

In alcuni casi i siti non permettono, mediante una particolare direttiva robots.txt, l’archiviazione delle proprie pagine web su Archive. Se volete evitare che il vostro sito sia memorizzato nella cache di Google, ci sono almeno due modi per farlo.

Il primo è quello di inserire un meta tag robots su noarchive all’interno delle singole pagine web:

<meta name="robots" content="noarchive">

il secondo è quello di sfruttare il robots.txt specificando il blocco della cache a Google:

User-Agent: Googlebot
Disallow: /

Fate attenzione che questa seconda impostazione in genere non è consigliata, perché è vero che blocca la cache ma rimuove completamente il vostro sito da Google (anche le versioni attuali).

Hai trovato utile questo articolo?
(votanti: 3 media: 5)

mm

Proveniente da studi umanistici, appassionatosi strada facendo di SEO, web content editing, digital marketing (e altri paroloni inglesi). Tennis, lettura e serie TV nel tempo libero.

Condividi
Nessun commento

Pubblica un commento

Ciao, sono Simone Durante ideatore di SEORoma.com.
Ti chiedo scusa in anticipo per il disturbo, ma questo
POP-UP è l'unico modo che ho per rimanere in contatto con te.
 
Solo se ti fa piacere, vorrei invitarti a iscriverti alla nostra newsletter.
 
Ricevi subito la Guida pratica
SEO NIUBBO

Ti è piaciuto quello che hai letto?

Controlla la tua e-mail entro le prossime 24 ore. Se non trovi l’e-mail controlla nella cartella di posta indesiderata, a volte finisce lì per errore.

LIBRO SPEDITO

alla tua casella di posta elettronica!