Robots.txt si o no?

Es necesario el archivo robots.txt para el posicionamiento de un sitio web?

robots-txt-404Empecemos desde el principio: Los robots rastreadores están programados mediante un algoritmo para explorar y recorrer todas las rutas accesibles de un sitio web, es decir navegar automáticamente todos sus enlaces.

Desde su origen, el archivo robots.txt siempre tuvo carácter restrictivo,  es decir prohíbe el acceso de esos robots a determinados documentos o secciones de un sitio web.

La falta del archivo, no debería ocasionar problemas, asi lo afirma una guia de ayuda de webmasters de Google

Un archivo robots.txt solo es necesario si el sitio incluye contenido que no quieres que Google ni otros motores de búsqueda indexen.

Si chequeamos el Probador de robots.txt de Search console, de un sitio que no lo tenga, aparece este mensaje:

Parece que no tienes ningún archivo robots.txt. En estos casos, entendemos que no hay restricciones y rastreamos todo el contenido de tu sitio. Más información

Hasta ahí estamos de acuerdo, pero si seguimos el enlace encontramos con lo siguiente:

Antes de que Googlebot rastree tu sitio, este accede a tu archivo robots.txt para determinar si el sitio está impidiendo que Google arrastre las páginas o las URL. Si existe un archivo robots.txt, pero no se puede acceder a él (es decir, no muestra un código HTTP 200 o 404), el rastreo se pospone para evitar que se rastreen las URL que no quieras que se rastreen.

¿Por que googlebot deja de rastrear un sitio web si no encuentra el archivo robots.txt? Clic para tuitear

¿Se contradice la ayuda de Google?, parece ser una de sus típicas ambigüedades, pero no es así. Se trata de una falta de claridad en la explicación:

Si tu sitio web nunca ha incluido un archivo robots.txt, Googlebot seguirá rastreando sin problemas todas sus páginas.  Pero si alguna vez lo has incluido, y por alguna razón lo has quitado, entonces puede aparecer la conocida advertencia en Search console, informando:

Durante las últimas 24 horas, el robot de Google ha encontrado x errores al intentar acceder a robots.txt. Para asegurarnos de que no hemos rastreado ninguna página que aparezca en ese archivo, hemos pospuesto el rastreo…

Si el robots.txt faltante entrega un error 404, no hay porque preocuparse. El problema se presenta cuando el archivo es generado virtualmente (WordPress, Prestashop, etc.), y lo desactivas. Este procedimiento suele entregar un 403 o cualquier otro.

Por eso es recomendable mantener o crear un archivo robots.txt aunque no lo utilicemos, con las siguientes lineas

User-Agent: *
Allow: /

Esto nos ahorrará algunos dolores de cabeza y tendremos la seguridad que Google no postergue el rastreo en ningun momento

Compartir

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *