Nessun risultato. Prova con un altro termine.
Guide
Notizie
Software
Tutorial

Google vuole uno standard per robot.txt

Dopo 25 anni, Google propone di rendere il REP uno standard universale per tutti i motori di ricerca: ecco quali sono le proposte della società.
Google vuole uno standard per robot.txt
Dopo 25 anni, Google propone di rendere il REP uno standard universale per tutti i motori di ricerca: ecco quali sono le proposte della società.
Link copiato negli appunti

Google vuole rendere le regole del Robots Exclusione Protocol (REP) uno standard internazionale. È la stessa società statunitense a confermarlo, con una condivisione sulla piattaforma Twitter, a 25 anni dall'introduzione di quel set di regole conosciuto ai più come robots.txt. Al momento, tuttavia, non è noto nel dettaglio quale percorso seguirà il processo di standardizzazione.

Il file robots.txt nasce per permettere ai webmaster di stabilire, in modo abbastanza autonomo, quali pagine e file debbano essere presi in considerazione - o meno - da parte dei motori di ricerca. Google include questa funzionalità ormai da diversi anni, così come altri motori di ricerca alternativi, i quali hanno adottato dei set di regole del tutto analoghe. Perché, tuttavia, la società statunitense mira a raggiungere uno standard?

25 anni di REP

Così come già accennato, il Robots Exclusion Protocol è stato implementato all'incirca 25 anni fa, tramite robots.txt. Sebbene nasca per la gestione dei crawler di Google, lo stesso sistema è stato adottato dalla gran parte dei motori di ricerca alternativi, determinando di fatto una diffusione pressoché universale. Eppure, nonostante l'ampia adozione, il REP non è mai divenuto uno standard di fatto.

A cinque lustri di distanza, Google ha quindi pensato di proporre l'effettivo riconoscimento di questo standard, per i più vari motivi. Il primo per facilitare le attività dei crawler di qualsiasi motore di ricerca, con un set di regole sempre identificabili e riconosciute, sia a vantaggio degli operatori che degli stessi webmaster. Il secondo, perché l'attuale REP non riconosce alcune delle peculiarità tipiche della rete moderna. Così spiega la società nel suo tweet:

Sono passati 25 anni e il Robots Exclusion Protocol non è mai divenuto uno standard ufficiale. Nonostante sia stato adottato da tutti i principali motori di ricerca, non copre tutto: un codice 500 HTTP significa che il crawler può indicizzare tutto o niente?

Inoltre, la presenza di uno standard di riferimento - con tanto di documentazione ufficialmente riconosciuta da tutti - ridurrebbe gli errori da parte dei webmaster in fase di compilazione del robots.txt.

Google ha già pensato alla stesura di una prima bozza per la proposta di standardizzazione, dove tutte le regole attuali rimangono invariate e vengono aggiunte delle proposte per il web moderno. Ad esempio, robots.txt potrebbe essere reso disponibile a tutte le URI e non solo al protocollo HTTP - FTP o CoAP, ad esempio - inoltre si potrebbero imporre delle regole di adattamento ai motori, con un massimo di 24 ore per l'aggiornamento affinché i webmaster possano godere del massimo della flessibilità nella gestione dei loro robots.txt.

Ancora, Google ha pensato anche ai down dei server: quando il crawler non riesce a raggiungere robots.txt, le pagine incluse nella precedente scansione rimarranno non indicizzate, evitando così problematiche e conseguenze negative per il sito temporaneamente non raggiungibile.

Ti consigliamo anche