Resumen
Si los rastreadores de IA no pueden leer tu sitio, los motores de IA no pueden citarlo. Permite cuatro categorías en robots.txt: rastreadores de entrenamiento (GPTBot, ClaudeBot, CCBot), de búsqueda (OAI-SearchBot, Claude-SearchBot, PerplexityBot), activados por usuario (ChatGPT-User, Perplexity-User, Google-Agent) y tokens de opt-out (Google-Extended, Applebot-Extended). Luego verifica la capa CDN — la protección anti-bot de Cloudflare puede bloquear bots de IA en silencio aunque robots.txt los permita — y confirma visitas reales en tus logs.
Si los rastreadores de IA no pueden leer tu sitio, los motores de IA no pueden citarlo — robots.txt es la puerta, y la mayoría de los negocios nunca ha revisado el suyo contra la lista 2026 de user-agents de IA. Una actualización de plugin de seguridad o un ajuste de CDN puede sacarte en silencio de las citas de ChatGPT, Perplexity y Claude por completo.
Esta guía te da la lista completa 2026 por categoría, el bloque exacto de robots.txt para copiar, y los dos lugares donde los bots de IA quedan bloqueados aunque robots.txt diga lo contrario.
¿Cuáles son las cuatro categorías de user-agents de IA en 2026?
Rastreadores de entrenamiento, de búsqueda, activados por usuario, y tokens de opt-out — cada uno con un trabajo distinto y un costo distinto si lo bloqueas.
- Agentes
- GPTBot, ClaudeBot, anthropic-ai, CCBot
- Qué te cuesta bloquearlo
- Largo plazo: los modelos nunca aprenden que tu marca existe
- Agentes
- OAI-SearchBot, Claude-SearchBot, PerplexityBot
- Qué te cuesta bloquearlo
- Inmediato: cero citas en vivo en ese motor
- Agentes
- ChatGPT-User, Perplexity-User, Google-Agent
- Qué te cuesta bloquearlo
- Usuarios que preguntan a la IA por TU sitio reciben un error
- Agentes
- Google-Extended, Applebot-Extended
- Qué te cuesta bloquearlo
- Solo directiva: controla el uso en entrenamiento, nunca rastrea
| Categoría | Agentes | Qué te cuesta bloquearlo |
|---|---|---|
| Entrenamiento | GPTBot, ClaudeBot, anthropic-ai, CCBot | Largo plazo: los modelos nunca aprenden que tu marca existe |
| Búsqueda | OAI-SearchBot, Claude-SearchBot, PerplexityBot | Inmediato: cero citas en vivo en ese motor |
| Activados por usuario | ChatGPT-User, Perplexity-User, Google-Agent | Usuarios que preguntan a la IA por TU sitio reciben un error |
| Tokens de opt-out | Google-Extended, Applebot-Extended | Solo directiva: controla el uso en entrenamiento, nunca rastrea |
Veredicto: permite las cuatro categorías salvo que tengas una estrategia de licenciamiento específica — el beneficio de las citas supera la preocupación por el reuso para la mayoría de los negocios.
¿Qué debe decir mi robots.txt exactamente?
Copia este bloque — permite explícitamente cada agente de IA relevante de 2026:
User-agent: GPTBot Allow: /
User-agent: ClaudeBot Allow: /
User-agent: anthropic-ai Allow: /
User-agent: CCBot Allow: /
User-agent: OAI-SearchBot Allow: /
User-agent: Claude-SearchBot Allow: /
User-agent: PerplexityBot Allow: /
User-agent: ChatGPT-User Allow: /
User-agent: Perplexity-User Allow: /
User-agent: Google-Agent Allow: /
User-agent: Google-Extended Allow: /
User-agent: Applebot-Extended Allow: /
Una advertencia: revisa que no tengas un bloqueo comodín (User-agent: * con Disallow: /) puesto por accidente.
¿Por qué los bots de IA quedan bloqueados aunque robots.txt los permita?
Dos asesinos silenciosos: la capa CDN y el renderizado solo-JavaScript.
La capa CDN. El Bot Fight Mode de Cloudflare, Sucuri y funciones similares de WAF clasifican a los rastreadores de IA como bots hostiles y los bloquean en la capa de red — antes de que robots.txt siquiera se lea. Si usas Cloudflare, revisa Security → Bots y agrega excepciones para rastreadores de IA verificados.
Contenido solo-JavaScript. Algunos rastreadores de IA no ejecutan JavaScript. Si tu página es un div vacío hasta que corre el JS, el rastreador no ve nada — permitido o no. Prueba con curl: si tu contenido principal no está en la respuesta HTML cruda, tienes un problema de renderizado, no de permisos.
¿Cómo verifico que los bots de IA realmente están visitando?
Revisa tus logs de servidor cada mes buscando cada nombre de agente — permitirlos en robots.txt no prueba que estén visitando. En los raw access logs de cPanel o la analítica de tu hosting, busca GPTBot, ClaudeBot, OAI-SearchBot y PerplexityBot. Un patrón sano muestra a GPTBot y ClaudeBot visitando semanalmente y a PerplexityBot varias veces al día.
Si un bot importante deja de aparecer por dos semanas o más, investiga de inmediato: los sospechosos usuales son una actualización de plugin de seguridad, un cambio en el CDN, o una edición accidental de robots.txt.
¿Y qué pasa con ChatGPT Atlas y los navegadores en modo agente?
No puedes controlarlos con robots.txt — y no deberías intentar bloquearlos por user-agent. Los navegadores agénticos como ChatGPT Atlas (~5M de usuarios mensuales) y Perplexity Comet (~3M) manejan sesiones reales de Chrome en nombre de usuarios, con firmas estándar de Chrome. Bloquear por patrón de user-agent bloquearía visitantes humanos reales. Son clientes potenciales delegando una tarea a una IA — tu trabajo es que el sitio les funcione, no dejarlos fuera.
Permite los rastreadores, verifica en el CDN, confirma en los logs. Quince minutos de trabajo en robots.txt más una revisión mensual de logs es el seguro más barato del GEO: todas las demás técnicas dependen de que los motores puedan leer tu sitio.
Preguntas frecuentes
¿Qué rastreadores de IA debo permitir en mi archivo robots.txt?
Permite GPTBot, ClaudeBot, anthropic-ai, CCBot (entrenamiento); OAI-SearchBot, Claude-SearchBot, PerplexityBot (búsqueda en vivo); ChatGPT-User, Perplexity-User, Google-Agent (consultas activadas por usuario); y Google-Extended más Applebot-Extended (tokens de opt-out de entrenamiento). Bloquear cualquier rastreador de búsqueda hace imposible la cita en ese motor.
¿Bloquear los rastreadores de IA protege mi contenido de ser usado por la IA?
Parcialmente — detiene los rastreadores declarados, pero también elimina por completo tu potencial de citas en IA. Y los navegadores en modo agente (ChatGPT Atlas, Perplexity Comet) usan firmas de Chrome normales que robots.txt no puede controlar. Para la mayoría de los negocios, el beneficio de las citas supera la preocupación por el reuso.
¿Por qué los bots de IA no visitan mi sitio aunque robots.txt los permite?
La causa más común es bloqueo a nivel de CDN: el Bot Fight Mode de Cloudflare, Sucuri y algunos plugins de seguridad de WordPress bloquean bots de IA en la capa de red antes de que robots.txt siquiera se lea. Revisa la configuración anti-bot de tu CDN y verifica visitas reales en los logs del servidor.
¿Cuál es la diferencia entre GPTBot y OAI-SearchBot?
GPTBot recolecta contenido para entrenar los modelos de OpenAI — conocimiento de marca a largo plazo. OAI-SearchBot construye el índice de búsqueda en vivo que ChatGPT cita al responder con resultados web — citas a corto plazo. La mayoría debería permitir ambos; bloquear OAI-SearchBot mata las citas en vivo.
¿El archivo llms.txt reemplaza a robots.txt para los rastreadores de IA?
No. llms.txt es una convención comunitaria que los grandes motores de citación aún no consultan para recuperación — la adopción ronda el 10% de dominios y los estudios no muestran impacto medible en citas. robots.txt sigue siendo el archivo operativo para permisos de rastreo.
Artículos relacionados
Optimización para Motores Generativos (GEO): La Guía Completa 2026
GEO es la práctica de lograr que tu marca sea citada en las respuestas de ChatGPT, Perplexity y Gemini. Las técnicas con evidencia real, cómo medir resultados y cuánto tarda — del equipo que las ejecuta.
Cómo Lograr que ChatGPT Cite tu Contenido: 7 Técnicas que Funcionan en 2026
ChatGPT cita fuentes que empiezan con la respuesta, respaldan afirmaciones con estadísticas nombradas y estructuran cada sección como pasaje independiente. Las 7 técnicas con evidencia, con las metas exactas que usamos.
Implementación de AI para Pequeños Negocios en el Sur de California: La Guía 2026
Un marco práctico 2026 para pequeños negocios del Sur de California (10–50 empleados) que despliega AI en 30 días por menos de $5,000 — con benchmarks de costo, comparaciones de proveedores y los flujos de mayor ROI para Orange County y LA County.