Generador Robots.txt

Crea y valida archivos robots.txt para tu sitio web.

Preajustes Rápidos

Reglas de User-Agent

User-Agent

Opciones

URLs de Sitemap

Mostrar Crawl-Delay

Agregar retraso entre solicitudes del rastreador (en segundos)

Tu robots.txt es válido

Robots.txt generado

# robots.txt generated by Toolbox
# Generated on: 2026-02-23

User-agent: *
Disallow:

Cómo Usar

Configura las reglas de user-agent usando los preajustes o opciones manuales
Agrega URLs de sitemap para ayudar a los motores de búsqueda a descubrir tu contenido
Copia el contenido del robots.txt generado
Guárdalo como robots.txt en el directorio raíz de tu sitio web

¿Qué es robots.txt?

Robots.txt es un archivo de texto ubicado en el directorio raíz de tu sitio web que indica a los rastreadores web qué páginas o secciones pueden o no pueden acceder. Es parte del Protocolo de Exclusión de Robots (REP), un estándar usado por sitios web para comunicarse con rastreadores y bots. Este archivo es esencial para SEO ya que ayuda a controlar cómo los motores de búsqueda indexan tu sitio.

¿Por qué es Importante robots.txt para SEO?

Un archivo robots.txt correctamente configurado es crucial para la optimización de motores de búsqueda y la gestión del sitio web:

Dirige a los rastreadores de motores de búsqueda a tus páginas más importantes, mejorando la eficiencia de indexación
Optimiza tu presupuesto de rastreo evitando que los bots pierdan tiempo en páginas sin importancia
Protege directorios sensibles como paneles de administración, datos de usuario y herramientas internas de ser indexados
Reduce la carga del servidor bloqueando bots agresivos y estableciendo retrasos de rastreo

Entendiendo las Directivas de Robots.txt

User-agent: Especifica a qué bot aplican las reglas. Usa * (asterisco) para dirigirte a todos los bots
Allow: Permite explícitamente el acceso a rutas específicas, útil cuando se combina con reglas Disallow
Disallow: Bloquea el acceso a rutas específicas. Un valor vacío significa que nada está bloqueado
Sitemap: Indica a los rastreadores la ubicación de tu sitemap XML para mejor descubrimiento de contenido
Crawl-delay: Establece segundos entre solicitudes. Nota: Google ignora esta directiva

Coincidencia de Patrones de Ruta en Robots.txt

Usa * como comodín para coincidir con cualquier secuencia de caracteres (ej., /*.pdf bloquea todos los archivos PDF)
Usa $ para coincidir exactamente con el final de una URL (ej., /*.php$ bloquea archivos PHP)
Barra final /ruta/ coincide con el directorio y todo su contenido recursivamente
Sin barra final /ruta coincide solo con esa ruta específica, no subdirectorios

Errores Comunes de Robots.txt a Evitar

Colocar robots.txt en un subdirectorio en lugar del dominio raíz (debe estar en tudominio.com/robots.txt)
Bloquear accidentalmente CSS, JavaScript o imágenes que los motores de búsqueda necesitan para renderizar tus páginas
Olvidar incluir URLs de sitemap, que ayudan a los rastreadores a descubrir todas tus páginas
Usar mayúsculas/minúsculas incorrectas - las rutas distinguen mayúsculas en la mayoría de servidores
Crear reglas conflictivas que confunden a los rastreadores sobre qué rutas están permitidas

Bloquear Bots de Entrenamiento de IA

Con el auge de la IA, muchos sitios web quieren evitar que su contenido sea usado para entrenar modelos de IA. Estos son los principales rastreadores de IA a considerar bloquear:

GPTBot y ChatGPT-User: Rastreadores de OpenAI para entrenamiento y navegación. Bloquea ambos para prevenir acceso de OpenAI
Claude-Web y anthropic-ai: Rastreadores de Anthropic. Bloquea para prevenir que Claude AI entrene con tu contenido
CCBot: Bot de Common Crawl, cuyos datos son usados por muchas empresas de IA para conjuntos de datos de entrenamiento

Mejores Prácticas de Robots.txt

Siempre coloca robots.txt en el directorio raíz de tu dominio (ej., https://ejemplo.com/robots.txt)
Recuerda que las rutas distinguen mayúsculas y minúsculas en la mayoría de servidores web
Prueba tu robots.txt usando el Probador de robots.txt de Google Search Console antes de implementar
Siempre incluye la URL de tu sitemap para ayudar a los rastreadores a descubrir todo tu contenido
Mantén las reglas simples y específicas - reglas demasiado complejas pueden causar comportamiento inesperado
Monitorea regularmente las estadísticas de rastreo en Google Search Console para asegurar indexación correcta

Preguntas Frecuentes

¿Robots.txt realmente bloquea páginas de aparecer en resultados de búsqueda?

No, robots.txt solo previene el rastreo, no la indexación. Las páginas aún pueden aparecer en resultados si están enlazadas desde otros sitios. Para bloquear realmente la indexación, usa la meta etiqueta noindex o el encabezado HTTP X-Robots-Tag.

¿Qué tan rápido leen los motores de búsqueda archivos robots.txt actualizados?

La mayoría de motores de búsqueda almacenan robots.txt en caché por unas 24 horas. Google típicamente actualiza su caché diariamente, pero puedes solicitar un re-rastreo vía Search Console para actualizaciones más rápidas.

¿Puedo usar robots.txt para ocultar información sensible?

No, robots.txt es públicamente accesible y solo una sugerencia para bots bien comportados. Actores maliciosos pueden ignorarlo. Para datos sensibles, usa autenticación adecuada, firewalls o restricciones a nivel de servidor.

¿Qué pasa si no tengo un archivo robots.txt?

Sin un archivo robots.txt, los motores de búsqueda asumen que pueden rastrear todo tu sitio. Esto está bien para la mayoría de sitios, pero puedes querer control sobre qué secciones se indexan y con qué frecuencia visitan los bots.

Generador Robots.txt

¿Qué es robots.txt?

¿Por qué es Importante robots.txt para SEO?

Entendiendo las Directivas de Robots.txt

Coincidencia de Patrones de Ruta en Robots.txt

Errores Comunes de Robots.txt a Evitar

Bloquear Bots de Entrenamiento de IA

Mejores Prácticas de Robots.txt

Preguntas Frecuentes

tools.relatedTools

Image to Base64

User Agent Parser

Cron Expression Builder

Markdown Preview