Robots.txt: ¿Qué es? ¿Para qué sirve? ¿Qué debemos revisar como principiantes?


¿Qué es el archivo robots.txt?

El archivo robots.txt es una guía que indica a los motores de búsqueda qué partes de tu sitio pueden explorar.

¿Para qué sirve el archivo robots.txt?

Imagina que tu sitio web es como un hotel gigante, y los robots (es decir, los motores de búsqueda como Google, Bing, etc.) son como los turistas que vienen a hacer un recorrido por las habitaciones (páginas de tu sitio) para ver como son. Algunas habitaciones, por ejemplo la suite de «Información privada», no quieres que los turistas (robots) entren sin permiso.

Entonces, el archivo robots.txt sería como un cartel en la puerta de esas habitaciones que dice «No molestar» o «Prohibido el paso».

Con este archivo, le dices a los motores de búsqueda: «Puedes entrar a estas habitaciones (páginas), pero otras están reservadas solo para los visitantes especiales» (o en términos simples: «No las indexen»).

Los rastreadores se encuentran con señales en las webs que les da informacion como si fuesen un turista en un hotel

Pero eso no es todo: ¿Que más hace este Archivo?

  1. Si tienes habitaciones especiales (por ejemplo, contenido duplicado o una página de inicio de sesión), puedes poner un cartel que diga «Solo acceso para personal autorizado», evitando que los robots las indexen y las muestren en los resultados de búsqueda.
  2. También puedes poner un cartel diciendo «Bienvenidos, pero con límites», permitiendo que los robots solo accedan a ciertas áreas del sitio y evitando que sobrecarguen el servidor, limitando la cantidad de páginas que pueden explorar en un tiempo determinado.
  3. Y si algún turista se dirige a una habitación que ya no existe o ha cambiado de lugar, el archivo robots.txt puede actuar como un mapa que los redirige a otra zona del hotel, indicándoles la nueva dirección para que no se pierdan.

1. Indexar y No Indexar:

El archivo robots.txt permite decirle a los motores de búsqueda qué páginas o secciones de tu sitio web pueden indexar (es decir, incluir en los resultados de búsqueda) y cuáles no.

¿Cómo funciona la indexación?

Cuando un robot visita tu página, busca contenido indexable que luego muestra en los resultados de búsqueda. Para gestionar esto, el archivo robots.txt permite usar dos comandos principales:

  • Allow (Permitir): Le dice a los robots que pueden acceder a esa parte del sitio y indexarla.
  • Disallow (No permitir): Le indica al robot que no puede acceder a una página o área específica, evitando que la indexen.

Ejemplo práctico:

Si tienes una página de «iniciar sesión» o «gracias por registrarte», es probable que no quieras que los motores de búsqueda las indexen, ya que son páginas privadas o irrelevantes para los resultados.

txtCopiar códigoUser-agent: *
Disallow: /login
Disallow: /gracias-por-registrarte

Aquí, User-agent: * se refiere a todos los robots (motores de búsqueda), y Disallow: indica las rutas que no deben ser indexadas.

Cómo permitir la indexación de ciertas páginas:

Si en cambio, tienes una página importante que quieres que sea indexada, podrías asegurarte de que no esté bloqueada, y usar la directiva Allow::

txtCopiar códigoUser-agent: *
Disallow: /privado/
Allow: /privado/publico

Esto le dice a los robots que pueden acceder a /privado/publico, pero no a otras páginas dentro de /privado/.


2. Redirecciones:

Aunque el archivo robots.txt no puede hacer redirecciones directamente (esas se gestionan en el servidor con códigos HTTP), sí puede indicar a los robots qué rutas evitar, lo que indirectamente puede ayudar en la gestión de redirecciones.

¿Qué pasa cuando un robot intenta acceder a una página que no existe o que ha sido movida?

  • Si una página ha sido eliminada o movida, puedes usar el archivo robots.txt para evitar que los motores de búsqueda sigan intentando acceder a esa página. Así no gastan recursos buscando contenido que ya no está disponible.

Por ejemplo:

txtCopiar códigoUser-agent: *
Disallow: /pagina-que-no-existe

Aunque esto no redirige, hace que los motores de búsqueda no intenten indexar contenido que ya no está disponible.

Claro, vamos a explicar cómo un usuario de WordPress puede acceder y modificar el archivo robots.txt de manera sencilla y sin complicaciones. Aquí tienes una explicación paso a paso, que puedes incluir en tu post:

Importancia Vital del Robots.txt en el Crawl Budget

El archivo robots.txt juega un papel crucial en la optimización del crawl budget o presupuesto de rastreo. Al bloquear áreas irrelevantes de tu sitio, como páginas privadas, contenido duplicado o secciones sin valor para el SEO, puedes guiar a los bots de los motores de búsqueda para que enfoquen sus recursos en las páginas más importantes. Esto no solo mejora la eficiencia del rastreo, sino que también asegura que las partes clave de tu sitio sean indexadas con mayor frecuencia, maximizando el impacto del presupuesto de rastreo en tu estrategia SEO.


¿Cómo acceder y modificar el archivo robots.txt ?

El archivo robots.txt es un componente clave para controlar cómo los motores de búsqueda interactúan con tu sitio web. Si estás utilizando WordPress, existen varias formas de acceder y modificar este archivo, dependiendo de cómo esté configurado tu sitio. Aquí te explicamos las opciones más sencillas.

1. Usando un Plugin de SEO (Método más sencillo)

Si tienes un plugin de SEO instalado en tu WordPress, puedes modificar fácilmente el archivo robots.txt desde el panel de administración, sin necesidad de acceder directamente a los archivos del servidor.

Pasos:

  1. Accede a tu panel de administración de WordPress.
  2. En el menú lateral, ve a SEO > Herramientas.
  3. Haz clic en Editor de archivos.
  4. En la sección de «Editor de archivos», podrás ver tu archivo robots.txt si está presente. Si aún no existe, tu Plug In SEO te permitirá crear uno nuevo.
  5. Modifica el archivo como necesites. Puedes agregar las directivas Disallow, Allow, o cualquier otra regla que desees aplicar.
  6. Una vez que hayas hecho los cambios, haz clic en Guardar cambios.

Importante: Si no ves la opción de «Editor de archivos» en el Plug In SEO, asegúrate de que tu sitio tenga un archivo robots.txt creado previamente o verifica si tu servidor lo permite.

2. Accediendo al archivo directamente desde el servidor (Método manual)

Si prefieres una opción más técnica y tu servidor lo permite, puedes acceder y modificar el archivo robots.txt directamente a través de un cliente FTP o desde el Administrador de Archivos en el panel de control de tu hosting (como cPanel).

Pasos:

  1. Accede a tu cuenta de hosting a través del panel de control (por ejemplo, cPanel).
  2. Ve a Administrador de archivos o usa un cliente FTP (como FileZilla) para conectarte a tu servidor.
  3. Navega hasta la raíz de tu instalación de WordPress. Generalmente, esto será en la carpeta public_html o en la carpeta específica de tu dominio.
  4. Busca el archivo robots.txt. Si no lo encuentras, puedes crear uno nuevo.
  5. Haz clic en el archivo para editarlo o crea uno nuevo si no existe.
  6. Modifica el archivo según lo necesites, añadiendo directivas como Disallow, Allow, etc.
  7. Guarda los cambios.

3. Creando el archivo robots.txt manualmente (si no existe)

Si tu sitio de WordPress no tiene un archivo robots.txt, puedes crear uno manualmente. Solo sigue estos pasos:

  1. Crea un archivo de texto en tu computadora (por ejemplo, con el Bloc de notas o cualquier editor de texto).
  2. Escribe las reglas que quieras en el archivo, como por ejemplo:
   User-agent: *
   Disallow: /wp-admin/
   Allow: /wp-content/uploads/
  1. Luego, sube este archivo al directorio raíz de tu instalación de WordPress usando FTP o el Administrador de Archivos del hosting.

Consejo: Asegúrate de subir el archivo robots.txt a la raíz del sitio (donde se encuentra el archivo wp-config.php).


¡Listo! Ahora sabes cómo acceder y modificar el archivo robots.txt en WordPress. Si aún tienes dudas o necesitas más detalles, ¡no dudes en dejar tus comentarios!


¿Y qué pasa cuando un robot llega a una página bloqueada o no encontrada? 🤔

Ahora que sabes cómo gestionar el acceso de los motores de búsqueda a tu sitio con el archivo robots.txt, hay algo más importante que debes considerar: ¿Qué sucede cuando un robot intenta acceder a una página y no puede? 😬

Aunque el archivo robots.txt puede prevenir que los motores de búsqueda rastreen ciertas páginas, no puede decirles por qué esa página no está disponible o ha cambiado de lugar. Aquí es donde entran en juego los códigos de estado HTTP. Estos códigos le dicen al robot si la página fue movida, si ya no existe, o si se está redirigiendo a otro lugar. 🤖💥

Códigos de estado HTTP.

¿Sabías que hay varios tipos de códigos de estado, y cada uno tiene un impacto diferente en cómo los motores de búsqueda manejan tu contenido? Y lo mejor de todo… ¡cómo estos códigos pueden afectar tu posicionamiento en los resultados de búsqueda! 😏

Si estás listo para entender cómo estos códigos trabajan detrás de escena y cómo pueden mejorar (o perjudicar) tu estrategia de SEO, no te pierdas nuestro próximo artículo sobre códigos de estado HTTP.

Sabemos que has llegado hasta aquí en el curso de SEO para principiantes gracias a tu motivación y esfuerzo, ¡y eso dice mucho de ti! Entendemos que los temas pueden sentirse cada vez más técnicos, pero no te preocupes: no es necesario que memorices todo ni que lo comprendas al 100% en este momento. Lo importante es que te familiarices con los conceptos y herramientas que forman parte del mundo del SEO. Si en algún punto te sientes perdido, no dudes en regresar a este contenido al finalizar el curso; verás que entonces todo encajará mejor, dándote la confianza para abordar proyectos con mayor envergadura. ¡Sigue adelante, lo estás haciendo genial! Gracias por confiar en Hasta el Top como consultor de SEO