llms.txt: Qué Es, Cómo Crearlo y Si Realmente Consigue Que Te Citen

Resumen

llms.txt es un archivo Markdown plano en la raíz de tu dominio que le dice a los motores de IA qué páginas de tu sitio vale la pena leer y por qué — no es robots.txt (que controla el rastreo) ni sitemap.xml (que lista URLs). Propuesto por Jeremy Howard de Answer.AI en septiembre de 2024, alcanzó cerca del 10% de adopción en la web a mediados de 2026, con soporte confirmado de Perplexity y Anthropic/Claude y efectos observables (aunque no confirmados) en las citas de ChatGPT. Se crea en menos de una hora, no cuesta nada hospedarlo, y se capitaliza con el tiempo a medida que más plataformas lo adoptan.

llms.txt es un archivo Markdown plano que publicas en la raíz de tu dominio para decirle a los motores de IA qué páginas de tu sitio vale la pena leer y por qué. Todavía no es un estándar oficial, no tiene soporte universal, y no va a conseguirte citas en ChatGPT de un día para otro — pero se crea en menos de una hora, no cuesta nada mantenerlo, y ya está confirmado que influye en el comportamiento de citas en Perplexity y en el Claude de Anthropic. Esa relación riesgo/beneficio es difícil de rechazar.

Aquí está todo lo que necesitas saber para crear uno que funcione.

Qué es llms.txt — y qué no es

Jeremy Howard, co-fundador de Answer.AI, publicó la propuesta original en llmstxt.org en septiembre de 2024. La premisa es directa: los motores de respuesta de IA tienen dificultades con sitios web completos. Tienen que parsear HTML, navegar JavaScript, saltarse publicidad y plantillas, y adivinar cuál de tus doscientas páginas realmente responde la pregunta que se está haciendo. llms.txt resuelve eso dándoles un atajo estructurado.

Piénsalo como un índice curado — un documento que tú escribes que dice: esto es lo que hace mi sitio, estas son las páginas que importan, y aquí una explicación de una línea de qué responde cada una.

Tres archivos, tres trabajos completamente distintos:

robots.txt

Trabajo: Control de rastreo
Qué controla: Qué URLs pueden o no obtener los bots

sitemap.xml

Trabajo: Índice de URLs
Qué controla: Todas tus páginas con metadatos (fecha de modificación, prioridad)

llms.txt

Trabajo: Guía de curación
Qué controla: Qué páginas son más relevantes para recuperación de IA, con contexto

Archivo	Trabajo	Qué controla
robots.txt	Control de rastreo	Qué URLs pueden o no obtener los bots
sitemap.xml	Índice de URLs	Todas tus páginas con metadatos (fecha de modificación, prioridad)
llms.txt	Guía de curación	Qué páginas son más relevantes para recuperación de IA, con contexto

robots.txt le dice a los rastreadores adónde tienen permitido ir. sitemap.xml lista cada destino. llms.txt les dice qué paradas realmente vale la pena hacer. Necesitas los tres; no se reemplazan entre sí.

Cómo se ve el formato

La especificación pide Markdown plano con una estructura específica. Aquí un esqueleto funcional:

> # Nombre de Tu Sitio o Marca > > > Resumen de un párrafo sobre lo que hace tu sitio y a quién sirve. Esto es lo que los motores de IA leen para decidir si tu dominio es relevante a una consulta. > > ## Páginas Principales > > - Título de Página: Lo que responde esta página en una oración directa. > - Nombre del Servicio: A quién sirve este servicio y qué problema resuelve. > > ## Recursos > > - Título de Guía: Qué aprende el lector con esta guía.

El H1 es el nombre de tu sitio. El blockquote es el resumen de tu sitio — escríbelo como si respondieras "¿qué hace este sitio web?" en un párrafo. Las secciones H2 agrupan páginas relacionadas. Cada viñeta es un enlace Markdown seguido de dos puntos y una anotación breve y honesta.

Qué hace una buena anotación: declara exactamente qué responde la página, no qué vende. "Lista de pasos para configurar Google Business Profile para un negocio de área de servicio" es útil para un motor de IA decidiendo si recuperar tu página. "Nuestra guía integral para dominar la búsqueda local" no lo es.

Una opción adicional: si una página es larga o compleja, también puedes publicar llms-full.txt con el contenido real de tus páginas clave concatenado. Esto requiere más esfuerzo y solo es útil para sitios con mucha documentación — para la mayoría de las pequeñas empresas, un llms.txt limpio es suficiente.

Dónde hospedarlo

Una sola regla: https://tudominio.com/llms.txt — en la raíz de tu dominio principal, no en una subcarpeta, no en un subdominio.

WordPress: Coloca el archivo en la raíz de tu sitio via FTP o el gestor de archivos de tu hosting (mismo directorio que wp-config.php).
Next.js: Ponlo en /public/llms.txt — Next.js sirve todo en /public como archivos estáticos.
Webflow / Squarespace / Wix: Usa la función de código personalizado o carga de archivos para colocar un archivo estático en la raíz.
Generadores de sitios estáticos: Ponlo en la raíz del output del build (mismo nivel que index.html).

Verifica cargando la URL en un navegador. Deberías ver texto plano — no HTML, no un diálogo de descarga. Si ves un diálogo de descarga, tu servidor está enviando el encabezado Content-Type incorrecto; configúralo como text/plain.

¿Funciona realmente hoy?

Respuesta honesta: parcialmente, y de manera desigual entre plataformas.

Soporte confirmado: - Perplexity ha confirmado públicamente que recupera llms.txt y lo usa para priorizar qué páginas leer al armar respuestas. - Claude de Anthropic (Claude.ai y flujos de recuperación de Claude Desktop) respeta las directivas de llms.txt. - Agentes IDE — Cursor, Continue, Cline, Aider — buscan activamente llms.txt cuando los apuntas a un sitio de documentación. Este es el caso de uso con mayor certeza hoy.

Observable pero no confirmado: - ChatGPT / OpenAI no ha documentado oficialmente el soporte de llms.txt. Los profesionales que publican archivos bien formados reportan mejoras correlacionadas en los patrones de citas de ChatGPT, pero esto no se puede verificar contra los internos de recuperación de OpenAI.

Sin soporte confirmado: - Google no ha confirmado que Gemini o AI Overviews usen llms.txt. El stack de señales preferido de Google sigue siendo robots.txt, sitemap.xml y datos estructurados.

Un análisis de SE Ranking sobre 300.000 dominios encontró aproximadamente 10% de adopción a principios de 2026 — lo que significa que nueve de cada diez sitios aún no han publicado uno. Eso es una ventana real: en categorías donde la mayoría de los competidores no tienen llms.txt, tu archivo curado es la única señal estructurada que tiene un motor de IA al comparar fuentes.

Esta es una convención propuesta que gana tracción real, no un estándar oficial. No esperes que por sí solo corrija contenido débil o un dominio sin autoridad. Pero como señal de bajo costo y aditiva sobre fundamentos sólidos de GEO, justifica la hora de configuración.

El impacto real en las tasas de cita

Trata llms.txt como una señal direccional, no como una garantía de cita. Las marcas que publican archivos bien curados reportan mejoras modestas pero medibles en las tasas de cita en Perplexity y Claude — en particular para consultas de nicho donde la página anotada es la respuesta más clara disponible.

El efecto de capitalización más grande está en contextos de desarrollo y agentes: cuando alguien usa un asistente de codificación con IA o un agente de investigación y lo apunta a tu documentación o páginas de servicio, llms.txt suele ser lo primero que lee el agente para entender tu sitio. Ese es un tipo diferente de cita — no un resultado de búsqueda para el consumidor, sino una herramienta de trabajo que ahora trata tu contenido como autorizado.

La barrera para publicar llms.txt es tan baja que la pregunta correcta no es "¿debería hacerlo?" — es "¿qué me está tomando más de una hora?" Escríbelo para las plataformas que ya lo soportan, publícalo, y revísalo cada trimestre a medida que el estándar madura.

Preguntas frecuentes

¿Es llms.txt un estándar oficial como robots.txt?

No. llms.txt es una propuesta impulsada por la comunidad, no un estándar IETF ni W3C. Jeremy Howard publicó la especificación original en llmstxt.org en septiembre de 2024 y ganó tracción por adopción voluntaria — el mismo camino que tomó robots.txt en los años 90 antes de convertirse en estándar de facto. A mediados de 2026, ningún organismo formal lo ha ratificado.

¿ChatGPT y Perplexity realmente leen llms.txt hoy?

Perplexity ha confirmado públicamente que recupera llms.txt y lo usa para priorizar qué páginas leer. El Claude de Anthropic (en Claude.ai y flujos de recuperación de Claude Desktop) también lo respeta. OpenAI no ha confirmado soporte oficial, pero los profesionales reportan cambios correlacionados en los patrones de citas de ChatGPT tras publicar un llms.txt bien formado. Google no ha confirmado soporte — sus señales preferidas siguen siendo robots.txt, sitemap y datos estructurados.

¿Cuál es la diferencia entre llms.txt, robots.txt y sitemap.xml?

Tres trabajos distintos: robots.txt es un archivo de control de rastreo (le dice a los bots qué URLs pueden o no obtener). sitemap.xml es un índice de URLs con metadatos (última modificación, prioridad). llms.txt es un archivo de curación — le dice a los motores de IA qué páginas de tu sitio son más útiles, les da contexto sobre lo que hace tu sitio y puede incluir anotaciones breves que explican por qué importa cada página. Necesitas los tres; no se solapan.

¿Dónde exactamente pongo llms.txt en mi sitio?

En la raíz de tu dominio: https://tudominio.com/llms.txt — no en una subcarpeta, no en un subdominio. El archivo debe ser públicamente accesible sin autenticación. Sírvelo como texto plano (Content-Type: text/plain). Muchas plataformas de hosting te permiten colocar un archivo estático directamente en la raíz web; para Next.js, colócalo en el directorio /public.

¿Con qué frecuencia debo actualizar llms.txt?

Actualízalo cada vez que publiques una página o recurso importante que los motores de IA deberían conocer. No es un feed en tiempo real — trimestral o cuando el contenido cambia significativamente es suficiente para la mayoría de sitios de pequeñas empresas. Más importante que la frecuencia es la precisión: un llms.txt desactualizado que apunta a páginas obsoletas o de baja calidad es peor que ninguno.