Robots.txt o standard di esclusione dei robot e scansione dei motori di ricerca

Sommario
Ciao a tutti, inizio con questo tutorial su robots.txt, spero vi piaccia

Consenti a tutti i robot di visitare tutti i file archiviati nella directory principale del Web:

 Agente utente: * Non consentire: 

Impedisci l'accesso a tutti i robot e a tutti i file archiviati nella directory principale:
 Agente utente: * Non consentire: / 

Consenti l'accesso a un solo robot, in questo esempio solo Google sarà in grado di eseguire la scansione
 Agente utente: googlebot Disallow: Agente utente: * Disallow: / 

I robot più popolari hanno un nome da usare in user-agent
googlebot => per Google
msnbot => Ricerca MSN
yahoo-slurp => Yahoo!
scrubby => Scrub Il Web
robozilla => DMOZ Checker
ia_archiver => Alexa / Wayback
baiduspider => Baidu
Ci sono anche i robot più specifici come quelli nelle immagini
googlebot-image => Google Immagine
googlebot-mobile => Google Mobile
Un altro esempio per cui tutte le sottodirectory che includono il carattere jolly (/) devono essere bloccate, solo queste, ad eccezione di tutti gli altri file e directory che non contengono un carattere jolly, nominalmente sono bloccate le directory di sistema o di back-end:
 Agente utente: * Disallow: / cgi-bin / Disallow: / images / Disallow: / tmp / Disallow: / adminstrador / 

Impedisci il monitoraggio di un file specifico
 Agente utente: * Non consentire: /page.htm 

Questo è molto usato quando vogliamo eliminare una pagina che dà un errore 404 o eliminare una pagina dai risultati della ricerca, impedendo così che venga scansionata.
Gestisci la frequenza dei robot striscianti
A partire dal Statistiche di Google e da strumenti per i webmaster puoi vedere le statistiche puoi anche vedere che a volte alcuni robot impiegano molto tempo per rivedere il nostro sito e inviare richieste al server, i robot consumano larghezza di banda e risorse come se fossero solo un altro visitatore.
C'è un modo in cui i robot non sfuggono al controllo, possiamo dirlo a ciascuno
Agente utente: googlebot Ritardo scansione: 30
Con questo informiamo il robot di Google di attendere 30 secondi tra ogni scansione. Fai attenzione, perché il ritardo di scansione potrebbe non essere supportato da tutti i motori di ricerca, Bing e Google lo fanno.
Il sito ufficiale di robots.txt È http://www.robotstxt.org/ dove troveremo i nomi di tutti i robot, le specifiche sul codice. Qui viene esposto che i robot servono a standardizzare quelli che devono essere tracciati e vengono utilizzati in altre piattaforme per tracciare e convalidare l'html, convalidare i collegamenti, indicizzare le informazioni, aggiornare i contenuti nei motori di ricerca, proteggere i siti Web.Ti è piaciuto e hai aiutato questo Tutorial?Puoi premiare l'autore premendo questo pulsante per dargli un punto positivo

Aiuterete lo sviluppo del sito, condividere la pagina con i tuoi amici

wave wave wave wave wave