Generador Robots.txt
Crea y valida archivos robots.txt para tu sitio web.
Agregar retraso entre solicitudes del rastreador (en segundos)
# robots.txt generated by Toolbox # Generated on: 2026-02-23 User-agent: * Disallow:
- Configura las reglas de user-agent usando los preajustes o opciones manuales
- Agrega URLs de sitemap para ayudar a los motores de búsqueda a descubrir tu contenido
- Copia el contenido del robots.txt generado
- Guárdalo como robots.txt en el directorio raíz de tu sitio web
¿Qué es robots.txt?
Robots.txt es un archivo de texto ubicado en el directorio raíz de tu sitio web que indica a los rastreadores web qué páginas o secciones pueden o no pueden acceder. Es parte del Protocolo de Exclusión de Robots (REP), un estándar usado por sitios web para comunicarse con rastreadores y bots. Este archivo es esencial para SEO ya que ayuda a controlar cómo los motores de búsqueda indexan tu sitio.
¿Por qué es Importante robots.txt para SEO?
Un archivo robots.txt correctamente configurado es crucial para la optimización de motores de búsqueda y la gestión del sitio web:
- Dirige a los rastreadores de motores de búsqueda a tus páginas más importantes, mejorando la eficiencia de indexación
- Optimiza tu presupuesto de rastreo evitando que los bots pierdan tiempo en páginas sin importancia
- Protege directorios sensibles como paneles de administración, datos de usuario y herramientas internas de ser indexados
- Reduce la carga del servidor bloqueando bots agresivos y estableciendo retrasos de rastreo
Entendiendo las Directivas de Robots.txt
- User-agent: Especifica a qué bot aplican las reglas. Usa * (asterisco) para dirigirte a todos los bots
- Allow: Permite explícitamente el acceso a rutas específicas, útil cuando se combina con reglas Disallow
- Disallow: Bloquea el acceso a rutas específicas. Un valor vacío significa que nada está bloqueado
- Sitemap: Indica a los rastreadores la ubicación de tu sitemap XML para mejor descubrimiento de contenido
- Crawl-delay: Establece segundos entre solicitudes. Nota: Google ignora esta directiva
Coincidencia de Patrones de Ruta en Robots.txt
- Usa * como comodín para coincidir con cualquier secuencia de caracteres (ej., /*.pdf bloquea todos los archivos PDF)
- Usa $ para coincidir exactamente con el final de una URL (ej., /*.php$ bloquea archivos PHP)
- Barra final /ruta/ coincide con el directorio y todo su contenido recursivamente
- Sin barra final /ruta coincide solo con esa ruta específica, no subdirectorios
Errores Comunes de Robots.txt a Evitar
- Colocar robots.txt en un subdirectorio en lugar del dominio raíz (debe estar en tudominio.com/robots.txt)
- Bloquear accidentalmente CSS, JavaScript o imágenes que los motores de búsqueda necesitan para renderizar tus páginas
- Olvidar incluir URLs de sitemap, que ayudan a los rastreadores a descubrir todas tus páginas
- Usar mayúsculas/minúsculas incorrectas - las rutas distinguen mayúsculas en la mayoría de servidores
- Crear reglas conflictivas que confunden a los rastreadores sobre qué rutas están permitidas
Bloquear Bots de Entrenamiento de IA
Con el auge de la IA, muchos sitios web quieren evitar que su contenido sea usado para entrenar modelos de IA. Estos son los principales rastreadores de IA a considerar bloquear:
- GPTBot y ChatGPT-User: Rastreadores de OpenAI para entrenamiento y navegación. Bloquea ambos para prevenir acceso de OpenAI
- Claude-Web y anthropic-ai: Rastreadores de Anthropic. Bloquea para prevenir que Claude AI entrene con tu contenido
- CCBot: Bot de Common Crawl, cuyos datos son usados por muchas empresas de IA para conjuntos de datos de entrenamiento
Mejores Prácticas de Robots.txt
- Siempre coloca robots.txt en el directorio raíz de tu dominio (ej., https://ejemplo.com/robots.txt)
- Recuerda que las rutas distinguen mayúsculas y minúsculas en la mayoría de servidores web
- Prueba tu robots.txt usando el Probador de robots.txt de Google Search Console antes de implementar
- Siempre incluye la URL de tu sitemap para ayudar a los rastreadores a descubrir todo tu contenido
- Mantén las reglas simples y específicas - reglas demasiado complejas pueden causar comportamiento inesperado
- Monitorea regularmente las estadísticas de rastreo en Google Search Console para asegurar indexación correcta
Preguntas Frecuentes
¿Robots.txt realmente bloquea páginas de aparecer en resultados de búsqueda?
No, robots.txt solo previene el rastreo, no la indexación. Las páginas aún pueden aparecer en resultados si están enlazadas desde otros sitios. Para bloquear realmente la indexación, usa la meta etiqueta noindex o el encabezado HTTP X-Robots-Tag.
¿Qué tan rápido leen los motores de búsqueda archivos robots.txt actualizados?
La mayoría de motores de búsqueda almacenan robots.txt en caché por unas 24 horas. Google típicamente actualiza su caché diariamente, pero puedes solicitar un re-rastreo vía Search Console para actualizaciones más rápidas.
¿Puedo usar robots.txt para ocultar información sensible?
No, robots.txt es públicamente accesible y solo una sugerencia para bots bien comportados. Actores maliciosos pueden ignorarlo. Para datos sensibles, usa autenticación adecuada, firewalls o restricciones a nivel de servidor.
¿Qué pasa si no tengo un archivo robots.txt?
Sin un archivo robots.txt, los motores de búsqueda asumen que pueden rastrear todo tu sitio. Esto está bien para la mayoría de sitios, pero puedes querer control sobre qué secciones se indexan y con qué frecuencia visitan los bots.