Robots.txt: ¿Qué es y cómo configurarlo?

jorge

Diccionario SEO

robots.txt que es, para que sirve, como crearlo y enviarlo

En este artículo del diccionario SEO, vas a descubrir que es el archivo robots.txt, como configurarlo y enviarlo de la forma correcta. ¿Listo para adentrarnos en el fascinante mundo del SEO? Sigue leyendo.

Historia y evolución del archivo robots.txt

El archivo robots.txt, ese pequeño tesoro oculto en los rincones de la web, tiene una historia fascinante que contar. Permíteme llevarte en un viaje a través del tiempo para descubrir cómo surgió y evolucionó este valioso archivo que juega un papel clave en el mundo del posicionamiento web SEO.

Todo comenzó cuando los buscadores comenzaron a explorar la vasta red en busca de información. Los dueños de sitios web se dieron cuenta de que no todos los rincones de sus dominios debían ser accesibles para los rastreadores de los motores de búsqueda. ¿Por qué? Bueno, algunos contenidos eran privados, confidenciales o simplemente no estaban destinados a ser indexados.

Fue entonces cuando el robots.txt hizo su entrada triunfal. Este archivo de texto simple, pero poderoso, permitía a los propietarios de sitios web comunicarse directamente con los rastreadores y decirles qué partes del sitio debían ser evitadas.

La evolución del robots.txt ha sido asombrosa. Al principio, solo existía una directiva básica: «Disallow» (prohibir). Los propietarios de sitios web simplemente listaban las rutas o directorios que no querían que fueran rastreados. Pero, como en todas las historias de éxito, la demanda de más funcionalidades llevó a mejoras y adiciones.

Las directivas se volvieron más específicas y sofisticadas. Ahora podíamos decirle a los rastreadores qué archivos o tipos de archivos no deberían ser indexados. También podíamos indicarles la frecuencia con la que debían rastrear nuestro sitio. Incluso podíamos proporcionarles un mapa del sitio para facilitar su trabajo.

Pero, como siempre, con grandes poderes vienen grandes responsabilidades. Los propietarios de sitios web también tuvieron que aprender a utilizar correctamente el archivo robots.txt. Bloquear contenido importante por accidente o dejar expuestas partes sensibles de un sitio web podría tener consecuencias desastrosas. Es por eso que es crucial seguir las mejores prácticas y asegurarse de que no se está bloqueando contenido relevante o importante.

¿Cómo crear y enviar un archivo Robots.txt?

Primero, debes tener claro qué contenido quieres que los motores de búsqueda rastreen y qué contenido prefieres mantener oculto y luego es tan fácil como crear un archivo .txt que es la extensión de un archivo de texto normal y corriente que debes subir en el directorio raíz de tu sitio web.

Simplemente colocándolo en el raíz de tu sitio web, los rastreadores de Google, Bing, Yahoo ya sabrán por donde tienen que entrar y por donde no.

De hecho si usas wordpress y un plugin como Yoast SEO o RankMath, ya te lo creará por defecto.

Estándares y directrices para la creación del archivo robots.txt

El archivo robots.txt está compuesto por bloques de «directivas» o reglas. Cada bloque tiene un «user-agent» específico, que identifica al motor de búsqueda en cuestión, y una instrucción «allow» o «disallow».

Por ejemplo, si quieres bloquear el acceso a la página de administración de tu sitio web para el motor de búsqueda de Google, tu bloque de directivas se vería así:

User-agent: Googlebot
Disallow: /wp-admin/

Cómo asegurarse de que el archivo robots.txt no genere errores HTTP 5XX

Cuando el archivo robots.txt genera errores HTTP 5XX, los motores de búsqueda pueden tener dificultades para rastrear tu sitio web. Esto significa que tus páginas pueden aparecer menos en los resultados de búsqueda.

Entonces, ¿cómo te aseguras de que el archivo robots.txt no genere estos errores? Bueno, aquí tienes algunos consejos:

  1. Mantén el archivo robots.txt pequeño y liviano. No lo llenes con toneladas de reglas y comandos complicados. Mantenlo simple y fácil de entender. Los motores de búsqueda apreciarán eso.
  2. Asegúrate de que el archivo robots.txt no devuelva un código de estado HTTP 5XX. ¿Qué significa eso? Significa que cuando los motores de búsqueda intenten acceder a tu archivo robots.txt, no deberían recibir un mensaje de error. Si reciben un mensaje de error, algo anda mal y debes solucionarlo lo antes posible.
  3. Verifica que el archivo robots.txt esté formateado correctamente. No querrás cometer errores tipográficos o de sintaxis que puedan confundir a los motores de búsqueda. Revisa dos veces tu archivo para asegurarte de que todo esté en orden.

Tamaño óptimo del archivo robots.txt y cómo mantenerlo por debajo de los 500 KiB

De acuerdo con las buenas prácticas, debes asegurarte de que el archivo robots.txt no supere los 500 KiB, pero ¿Cómo?, no te preocupes aquí te dejo algunos consejos:

  • Primero, revisa y elimina cualquier información innecesaria. A veces, tu archivo puede contener líneas de código o reglas que ya no son relevantes.
  • Otra forma de mantener el tamaño bajo control es evitar repeticiones innecesarias. Si tienes reglas duplicadas en tu archivo robots.txt, simplemente elimina una de ellas.
  • Utiliza herramientas o plugins que te ayuden a optimizar el tamaño de tu archivo robots.txt. Hay muchas opciones disponibles que pueden escanear y eliminar automáticamente cualquier contenido innecesario.

Alternativas al archivo robots.txt para controlar el rastreo de los robots de búsqueda

  1. Etiqueta meta robots: Esta es una alternativa sencilla y efectiva al archivo robots.txt. Puedes utilizar la etiqueta meta robots en el encabezado de tus páginas HTML para indicar a los robots de búsqueda cómo deben comportarse al rastrear tu sitio. Por ejemplo, puedes utilizar la etiqueta «noindex» para evitar que una página en particular sea indexada por los motores de búsqueda.
  2. Noindex enlaces: Si deseas bloquear el rastreo de un enlace específico en una página, puedes agregar la etiqueta «rel=noindex» al enlace. Esto le indicará a los robots de búsqueda que no sigan ese enlace en particular. Es una excelente manera de controlar qué enlaces quieres que sean rastreados y cuáles no.
  3. Archivo htaccess: Si tienes acceso al archivo htaccess de tu sitio web, puedes utilizarlo para controlar el acceso de los robots de búsqueda. Puedes bloquear o permitir el acceso a ciertas partes de tu sitio utilizando reglas de redirección o denegación de acceso. ¡Es como tener un portero virtual para tu sitio web!
  4. Encabezado X-Robots-Tag: Este es otro método eficiente para controlar el rastreo de los robots de búsqueda. Puedes agregar el encabezado X-Robots-Tag a tus páginas HTTP para indicar a los robots cómo deben comportarse al rastrear tu sitio. Por ejemplo, puedes utilizar el encabezado «X-Robots-Tag: nofollow» para evitar que los robots sigan los enlaces en una página determinada.

Ejemplos prácticos de implementación correcta del archivo robots.txt

Llegados a este punto, donde ya tienes una idea de que es y como funciona el archivo robots.txt, te voy a dar algunos ejemplos prácticos para que amplíes tus conocimientos:

Ejemplo 1

User-agent: Googlebot
Disallow: /secciones-privadas/

En este ejemplo, le estamos diciendo a Googlebot que no debe rastrear ninguna página que se encuentre en la carpeta /secciones-privadas/. Esto es útil si tienes áreas de tu sitio web que son privadas o que no deseas que aparezcan en los resultados de búsqueda.

Ejemplo 2

User-agent: Googlebot
Disallow: /secciones-privadas/

User-agent: Bingbot
Disallow: /imagenes-privadas/

En este caso, estamos diciendo tanto a Googlebot como a Bingbot que no deben rastrear las páginas en las carpetas /secciones-privadas/ y /imagenes-privadas/ respectivamente.

Ejemplo 3

Recuerda que también puedes incluir una línea para especificar la ubicación de tu archivo de mapa del sitio. Esto es útil para ayudar a los motores de búsqueda a encontrar y rastrear todas las páginas de tu sitio web.

User-agent: Googlebot
Disallow: /wp-admin/

Sitemap: https://www.tusitioweb.com/sitemap.xml

Simplemente reemplaza «https://www.tusitioweb.com» con la URL de tu propio sitio web y asegúrate de tener un archivo de mapa del sitio válido en esa ubicación.

Extensiones no estándar del archivo robots.txt y sus usos

Las extensiones no estándar del archivo robots.txt pueden ser como esos trucos ocultos que solo los expertos en SEO conocen, te permiten hacer cosas geniales y personalizar aún más el comportamiento de los rastreadores.

  • Una de las extensiones más populares es «Crawl-delay». Esta extensión te permite controlar la velocidad a la que los rastreadores acceden a tu sitio. ¿Por qué es esto importante? Bueno, si tu sitio tiene un montón de páginas o contenido pesado, es posible que no quieras que los rastreadores lo devoren todo de una sola vez. Con «Crawl-delay», puedes establecer un tiempo de espera entre las solicitudes de rastreo, asegurándote de que tu sitio no se sobrecargue y siga funcionando sin problemas.
  • Otra extensión interesante es «Request-rate». Esta extensión te permite establecer un límite en la cantidad de solicitudes de rastreo que un motor de búsqueda puede hacer en un período de tiempo determinado. Es como poner un límite de velocidad en tu sitio, evitando que los rastreadores se vuelvan locos y te sobrecarguen con solicitudes excesivas.
  • «Noindex». Esta extensión te permite indicar a los motores de búsqueda que no indexen una página específica. ¿Por qué querrías hacer esto? Bueno, tal vez tienes una página de inicio de sesión o una página con contenido duplicado que no quieres que aparezca en los resultados de búsqueda. Con «Noindex», puedes decirle a los motores de búsqueda que ignoren esas páginas y se centren en lo que realmente importa.

Estas son solo algunas de las extensiones no estándar disponibles para el archivo robots.txt. Cada una tiene su propio propósito y puede ayudarte a personalizar aún más el comportamiento de los rastreadores en tu sitio.


Otros conceptos del Diccionario SEO

JORGEHUDSON.COM

SEO Basado en resultados, sin secretos.

Redes