Come usare bene il file robots.txt? Basta usarlo poco!

Questa volta il titolo non vuole essere una provocazione, ma un suggerimento. Il file robots.txt è il file più semplice da gestire ma anche il più pericoloso. Il suo scopo principale è “vietare” ai bots di indicizzare files o intere cartelle.

Sono sufficienti un paio di istruzioni:

User-agent: *
Disallow: /cartella/

e il giochino è fatto! Purtroppo basta veramente poco per fare danni…

La prima cosa da sapere su questo file è che per usarlo bene… bisogna usarlo poco!

Limitazione dell’efficacia dei links in entrata

Il file robots blocca la link juiceUno dei danni più grossi che un “non esperto” SEO può fare con il robots.txt è limitare l’efficacia dei link in entrata.

Un esempio? Ho dei links provenienti dall’esterno verso la mia pagina bloccata (erroneamente) nel robots.txt. Dalla mia pagina (bloccata), partono dei links verso pagine interne al sito web.

Cosa è successo? Che le mie pagine interne non giovano dei links ricevuti dall’esterno. In sostanza il blocco della pagina non trasmette la link juice (PageRank + anchor text) ricevuta dall’esterno.

In questo caso la soluzione “regina” da utilizzare per il blocco dell’indicizzazione è sicuramente il metatag robots “noindex, follow”. Permette di non far indicizzare la pagina ma, al tempo stesso, consente di far fluire la link juice ai collegamenti presenti nella pagina.

Molto spesso poi capita di trovare il file robots.txt (specialmente in siti realizzati su piattaforma WordPress) con istruzioni per il blocco delle pagine archivio di un blog (es., categorie e tag). Il motivo è ovviare a pericolose duplicazioni di contenuti… ma trattasi di una soluzione infelice e “pericolosa”. Perché? Anche qui, se dall’esterno riceviamo link alla pagina delle categorie, la link juice non viene trasferita a tutti i posts linkati dalla pagina.

Quindi:

Usiamo il “noindex” (“follow” se non lo indichiamo è implicito) e assicuriamoci che la pagina non sia bloccata nel robots.tx… altrimenti non serve ad una beata fava!

D’altra parte, se il vostro sito è stato realizzato con WordPress, possiamo utilizzare il fantastico YOAST che nella configurazione permette di inserire “noindex, follow” sia per le pagine categorie che per i tags.

Altre soluzioni per risolvere problemi di duplicazioni?

  1. Redirect 301
  2. Rel=canonical per mantenere le versioni duplicate fuori l’indice, nelle quali abbiamo indicato la pagina canonical di riferimento.

e questo su pagine non bloccate nel file robots (mi raccomando)!

Blocco dei files con estensioni?

Altra cosa da sapere è che non bisogna bloccare css e js… ai bots servono! Uno dei principali motivi è capire la corretta visualizzazione di un sito sui vari tipi di dispositivi.

Sapevi che gli spider si limitano a scaricare risorse e l’analisi del testo viene effettuata da altri software? Che Google, effettua il rendering delle pagine web esattamente come farebbe un browser, proprio per rendersi conto di come i contenuti vengono proposti agli utenti?

Altro aspetto: i PDF. Non vogliamo far indicizzare file pdf riservati? E’ possibile utilizzare il tag x-robots nell’intestazione HTTP… quindi anche in questo caso non scomodiamo il robots.txt.

La cartella immagini? Se non abbiamo immagini osé da nascondere… lasciamo pure che Googlebot-image la divori!

… e la sintassi?

Altra nota dolente! Capita spessissimo di trovare file robots.txt con una sbrodolata inutile di istruzioni e sintatticamente errate.

Ne cito una molto frequente: utilizzo errato di Allow e Disallow!

Intanto, essendo il file robots.txt uno strumento per “bloccare”, l’istruzione Allow deve essere utilizzata solo in casi eccezionali. Alcuni, per essere sicuri che gli spiders indicizzino il loro sito, inseriscono come prima istruzione:

Allow: /                (questo è sintomo di sindrome ansiosa acuta!)

Altri, invece hanno necessità di non bloccare un file specifico di una cartella. E qui… ne ho viste di cotte e di crude!

Vi riporto direttamente l’utilizzo corretto secondo lo standard dei bots:

User-agent: *
Allow: /cartella/file
Disallow: /cartella/

quindi 2 regole banali:

  1. Allow e Disallow sempre in coppia
  2. Allow sempre prima del Disallow

Conclusioni

Quindi a cosa serve il robots.txt? A inserire solo 3 specifiche (o quasi):

User-agent: *
Disallow:
Sitemap: http://www.yoursite.com/sitemap.xml

Con esso stiamo dicendo:

cari bots (“tutti”… mi raccomando”) indicizzate tutto… e questa è la mia sitemap xml con tutte le url (CANONICHE)! Vi raccomando… non perdete nulla!

Quindi cosa blocchiamo? Nient’altro? Al massimo le cartelle contenenti files di amministrazione del back-end. Se ad esempio abbiamo un sito con WordPress:

Disallow: /wp-admin/
Disallow: /wp-includes/

e stop!…Non sprechiamo tanta energia…

E poi c’è la sitemap.xml. Inseriamola nel robots.txt e diciamo ai bots:

queste sono le URL “canoniche” del mio sito web: divoratele tutte please!

Alcuni consigli utili…

  • Quando usare veramente il disallow: ?

Solo quando il cliente non paga! Basta l’istruzione disallow: / nel robots.txt

  • Non divertiamoci a inserire commenti pericolosi (…l’ho visto fare!):

### Blocco questa cartella perché contiene l’elenco delle password
disallow: /private/

  • Infine, non dimentichiamoci che il file robots.txt è raggiungibile da url www.miosito.it/robots.txt (se vogliamo dare una sbirciatina!).

Vuoi rimanere aggiornato? Iscriviti alla Newsletters!

Diventa FAN della nostra pagina su Facebook. Ogni giorno pubblichiamo tante novità sul Web Marketing!

Lasci un commento