Conoscere Googlebot

Sommario
Googlebot è un robot che ti permette di tracciare la rete di Google, è anche conosciuto come il ragno di Google. In questo modo il sistema scopre le nuove pagine che sono state indicizzate nel suo database dove vengono aggiornate e viene reinserito nell'indice di Google.
Google utilizza una grande quantità di apparecchiature informatiche per eseguire la scansione di miliardi di pagine distribuite sul Web. Si basa su un processo di tracciamento algoritmico, in cui i programmi per computer determinano i siti da tracciare, nonché la frequenza e il numero di pagine da cercare su ciascun sito. Il processo inizia con un elenco di pagine web generate in precedenza, che viene ampliato in base ai dati forniti dalle sitemap che i Webmaster incorporano. Googlebot rileva i link a ogni visita che fai a quei siti web, aggiungendoli all'elenco delle pagine da sottoporre a scansione. Il sistema rileva nuovi siti, modifiche apportate a quelli esistenti e collegamenti non aggiornati, quindi aggiorna l'indice di Google.
Come Googlebot accede al sito
Immagine inviataGooglebot di solito non si accede ai siti più di una volta e per pochi secondi. Generalmente il sistema scarica solo una copia di ogni pagina, nel caso in cui scarichi la stessa pagina più volte, probabilmente è dovuto all'arresto e al riavvio del crawler.
Googlebot è distribuito su diversi computer, inoltre alcuni spider vengono eseguiti da computer che si trovano vicino ai siti che indicizzano. È possibile che i registri della pagina mostrino le visite da più computer come agente utente.
L'obiettivo è quello di eseguire la scansione del maggior numero di pagine su un sito Web ad ogni visita effettuata senza ridurre la larghezza di banda del server.
Il sistema trova i siti tramite i collegamenti nelle loro pagine. In caso di errori di tracciamento, possono essere visualizzati negli Strumenti per i Webmaster forniti da Google. Elenca i problemi riscontrati durante la scansione di un sito. È una buona idea controllare regolarmente eventuali errori di scansione che potrebbero verificarsi per identificarli e risolverli.
Poiché gli indirizzi IP gestiti da Googlebot tendono a variare di volta in volta, l'ideale è utilizzare il robot "user-agent" (Googlebot). Lo spider di Google rispetterà le linee guida presenti nel file robots.txt, tuttavia gli utenti malintenzionati potrebbero non seguirle.
wave wave wave wave wave