Come Googlebot interpreta il robots.txt

Link copiato negli appunti

Se si dovesse stilare una classifica delle domande più ricorrenti nel forum di HTML.it, l'argomento robots.txt avrebbe una posizione nella top20 almeno per quanto riguarda la sezione Motori di Ricerca e Web Marketing.

Tralasciando lo step di introduzione al robots.txt ed alle sue funzioni (per approfondimenti rimando all'articolo di Francesco Caccavella), vorrei saltare direttamente a valutare alcuni aspetti di come Googlebot, lo spider di Google, interpreta le direttive presenti nel file.

Recentemente il team di sviluppo di Google Sitemaps, nella figura di Vanessa Fox, ha pubblicato un documento estremamente completo per descrivere cosa sia questo mistico file e quali comportamenti sia in grado di seguire lo spider di Google. Da questo articolo vorrei evidenziare un paio di punti chiarendo una volta per tutte alcuni dubbi amletici, con il supporto di una conferma ufficiale.

Google uses several user-agents. You can block access to any of them by including the bot name on the User-Agent line of an entry.

Googlebot: crawl pages from our web index

Googlebot-Mobile: crawls pages for our mobile index

Googlebot-Image: crawls pages for our image index

Googlebot-MediaPartners: crawls pages to determine AdSense content (used only if you show AdSense ads on your site)

Il bot di Google non è uno solo. Google dispone di almeno 4 crawler differenti, indicati nel testo quotato. In realtà Google dispone di altri crawler aggiuntivi che, tuttavia, non possono essere esclusi con il robots.txt. Un esempio è Google FeedFetcher.

Yes, Googlebot recognizes an extension to the robots.txt standard called Allow. This extension may not be recognized by all other search engine bots, so check with other search engines you're interested in to find out. The Allow line works exactly like the Disallow line. Simply list a directory or page you want to allow.

Questa volta è ufficiale! Googlebot riconosce la direttiva allow, ovvero quella che consente di includere particolari file.

Il file robots.txt è nato con lo scopo di negare agli spider l'indicizzazione di determinate aree. Con la crescita esponenziali delle informazioni in internet e l'evoluzione della complessità dei siti stessi, in alcun casi potrebbe essere utile voler escludere un'intera directory eccetto alcune informazioni.

La direttiva allow consente di specificare singole risorse da indicizzare.

You can use a dollar sign ($) to match the end of a filename. For instance, to block access to all .gif files, you could use the following entry:

User-Agent: Googlebot Disallow: /*.gif$


Confesso che questa è una novità  anche per me! Sarei curioso di sapere quanti altri spider interpretano questa direttiva.
Ancora dubbi su Google e robots.txt? Ecco una risorsa molto interessante.
    

        
        
            Se vuoi aggiornamenti su su questo argomento  inserisci la tua email nel box qui sotto:
 

            
                
                
                
                

                
                    
                        
                        
                    

                
				                    
                        
                            
                                
                                    
                                        
                                        Sì
                                    
                                    
                                        
                                        No
                                    
                                
                                Acconsento alla ricezione di comunicazioni promozionali da parte del Titolare, relative a prodotti e servizi di terzi.
                            
                        
                    

				            

            Compilando il presente form acconsento a ricevere le informazioni
                    relative ai servizi di cui alla presente pagina ai sensi
                    dell'informativa sulla privacy.


                


            
            
    
        Ti consigliamo anche
    

    
        
            
                
                                
                    

    
        
                                            
                    
                        
                    
                
                
                                    
                        SEO
                        Prova gratis Semrush: il tool essenziale per il successo del tuo business online
                    
                
                    
    


                
                                
                    

    
        
                                            
                    
                        
                    
                
                
                                    
                        SEO
                        Prova gratis Semrush: è la piattaforma di riferimento per marketing online e SEO
                    
                
                    
    


                
                                
                    

    
        
                                            
                    
                        
                    
                
                
                                    
                        SEO
                        Plausible: alternativa privacy-friendly a Google Analytics
                    
                
                    
    


                
                                
                    

    
        
                                            
                    
                        
                    
                
                
                                    
                        SEO
                        Yoast SEO 20.0: un'interfaccia tutta nuova