Qual è la sintassi del file robots.txt?

Utente HTML.it
chiede

Qual è la sintassi del file robots.txt?

Redazione HTML.it
risponde

La sintassi del campo user-agent è la seguente:
User-agent: nome-dello-spider (p.e.: User-agent: googlebot)

La sintassi del campo disallow è:
Disallow: percorso del file o della directory (p.e.: Disallow: /pagina.html)
Prendendo spunto dagli esempi riportati, entriamo nel merito dei contenuti del file robots.txt. “googlebot” è il nome dello spider di Google, al quale viene inviata l’istruzione di non prelevare il file pagina.html presente nella root principale del sito (“/”). Il campo User-agent può contenere anche un’indicazione generica, ovvero rivolta a tutti gli spider. In questo caso la sintassi sarà:
User-agent: * (in questo caso l’asterisco sostituisce il nome dello spider e indica “tutti gli spider”).

Il campo Disallow, a sua volta, può contenere istruzioni generiche, ovvero il diniego al prelievo di tutti i file e le directory presenti nel sito web. La sintassi è la seguente:
Disallow: / (“/” indica la root principale del sito e indica “tutti i file e le directory).

Lasciando invece vuoto il campo Disallow, esso istruirà lo spider al prelievo di tutti i file e le directory del sito. La sintassi è molto semplice:

Disallow:
Un esempio completo di un file robots.txt è visibile dando una lettura a quello presente nella root di html.it (www.html.it/robots.txt)
Riportiamo comunque di seguito un esempio di file robots.txt che mostri i record così come su descritti:

  • User-agent: googlebot
    Disallow: /pagina-privata.html
  • User-agent: Microsoft URL
    Disallow: /pagina-privata.html
    Disallow: /cgi-bin/
  • User-agent: Googlebot-Image
    Disallow: /
  • User-agent: *
    Disallow: