Blog/Guías SEO
Guías SEO· 8 min lectura·

robots.txt para GPTBot, ClaudeBot y PerplexityBot: ¿Bloquear o Permitir?

Guía técnica completa sobre cómo configurar robots.txt para los crawlers de IA. El 41% de los sitios B2B bloquean bots de IA sin saberlo, perdiendo hasta un 34% de sus citas potenciales en ChatGPT y Perplexity.

robots.txt para GPTBot, ClaudeBot y PerplexityBot: ¿Bloquear o Permitir?

Hay un error técnico que el 41% de los sitios web B2B comete sin saberlo: bloquean los crawlers de IA en su robots.txt. El resultado es invisible pero devastador — cada bot bloqueado reduce entre un 18% y un 34% las citas potenciales que ese modelo podría hacer sobre tu marca. Si tienes una estrategia de GEO pero tu robots.txt bloquea a GPTBot, ClaudeBot o PerplexityBot, estás construyendo sobre arena.

Los Crawlers de IA que Necesitas Conocer en 2026

Cada proveedor de IA tiene múltiples crawlers con funciones distintas. Entender la diferencia entre ellos es fundamental para decidir qué permitir y qué bloquear:

  • OpenAI — GPTBot: Crawler de entrenamiento. Extrae contenido para los datasets de entrenamiento de GPT-4 y modelos futuros. Si lo bloqueas, tu contenido no entra en el corpus de entrenamiento de ChatGPT.
  • OpenAI — OAI-SearchBot / ChatGPT-User: Crawlers de búsqueda en tiempo real. Estos son los que ChatGPT usa cuando busca en internet para respuestas actuales. Bloquearlos elimina tu elegibilidad para ser citado en tiempo real.
  • Anthropic — ClaudeBot: Crawler de entrenamiento de Claude. Si lo bloqueas, tu contenido no entra en los modelos de Anthropic.
  • Anthropic — Claude-SearchBot / anthropic-ai: Crawlers de búsqueda en tiempo real para Claude con herramientas web.
  • Perplexity — PerplexityBot: Crawler principal de Perplexity. Lo usa para indexar contenido y citarlo en respuestas en tiempo real. Bloquearlo te elimina completamente de Perplexity.
  • Google — Google-Extended: Crawler específico para Gemini y Bard. Independiente de Googlebot. Bloquearlo impide que tu contenido alimente Google AI Overviews y Gemini.
  • Común Crawl — CCBot: No es de un proveedor de IA directamente, pero sus datasets son usados por muchos LLMs de código abierto. No tiene funcionalidad de búsqueda en tiempo real.

La Postura Óptima: "Permitir Búsqueda, Bloquear Entrenamiento"

En 2026, el consenso entre empresas con estrategias maduras de GEO es la postura "block training, allow search": bloquear los crawlers de entrenamiento puro (que usan tu contenido para entrenar modelos sin darte visibilidad inmediata) y permitir los crawlers de búsqueda en tiempo real (que sí generan citas y visibilidad directa).

Esta postura te da control sobre cómo se usa tu contenido para entrenamiento mientras maximizas tu elegibilidad para ser citado en respuestas en tiempo real de ChatGPT, Perplexity y Claude.

🚀 PR Digital & Linkbuilding

Posiciona #1 en Google y sé mencionado por la IA

+1.200 medios en 8 países. Backlinks que Google y ChatGPT reconocen como fuentes de autoridad.

Ver planes y precios →

Configuración Recomendada de robots.txt

# Permitir crawlers de búsqueda en tiempo real (generan citas)
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: Google-Extended
Allow: /

# Bloquear crawlers de entrenamiento puro (opcional)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

Nota importante: Si prefieres maximizar el impacto en el entrenamiento de futuros modelos (que también genera visibilidad a largo plazo), puedes permitir todos los crawlers. La decisión depende de si priorizas impacto inmediato (búsqueda en tiempo real) o impacto de largo plazo (entrenamiento).

link building estrategia

Cómo Verificar tu Configuración Actual

  1. Visita tudominio.com/robots.txt directamente en tu navegador.
  2. Busca si tienes reglas genéricas como User-agent: * seguidas de Disallow: / — estas bloquean TODOS los bots incluyendo los de IA.
  3. Verifica que no tienes a PerplexityBot, GPTBot o Google-Extended bloqueados sin intención.
  4. Usa la herramienta de prueba de robots.txt de Google Search Console para verificar qué URLs pueden rastrear cada bot.

El Problema de Cloudflare y las CDNs

Un error frecuente es que la configuración de Cloudflare bloquea los bots de IA a nivel de WAF antes de que lleguen a tu robots.txt. Cloudflare tiene una función de "Bot Fight Mode" que bloquea bots no verificados — y algunos crawlers de IA caen en esa categoría. Verifica en tu dashboard de Cloudflare que los bots de IA conocidos no están siendo bloqueados por reglas de firewall antes de llegar a tu contenido.

backlinks calidad

Crawlers que Ignoran robots.txt

Algunos crawlers han sido documentados ignorando las directivas de robots.txt. En estos casos, la única defensa real es a nivel de servidor o WAF. Sin embargo, para los principales proveedores (OpenAI, Anthropic, Google, Perplexity), el cumplimiento de robots.txt es generalmente respetado.

Impacto en tu Estrategia de GEO

Una configuración correcta de robots.txt para bots de IA es el prerequisito técnico más básico de cualquier estrategia de GEO. De nada sirve invertir en link building de alta calidad y PR Digital si los crawlers de Perplexity o ChatGPT no pueden acceder a tu contenido para citarlo. Audita tu robots.txt hoy antes de cualquier otra acción de GEO.

Complementa esta configuración con Schema.org bien implementado y contenido answer-ready para maximizar lo que los crawlers de IA encuentran cuando sí tienen acceso.

Esbuenisimo Links incluye auditoría técnica de GEO — incluyendo configuración de robots.txt para crawlers de IA — en sus servicios de consultoría, asegurando que ningún bloqueo técnico impida que ChatGPT, Perplexity y Google AI Overviews indexen y citen tu contenido.

robots.txt IAGPTBot bloquearClaudeBot robots.txtPerplexityBotcrawlers IA configuración

¿Listo para posicionar #1 y ser mencionado por la IA?

PR Digital & Linkbuilding en 1.200+ medios de 8 países. Google y ChatGPT te reconocen como fuente de autoridad.

Ver planes y precios