Los modelos de lenguaje grande (LLMs) como ChatGPT, Gemini y Claude han transformado la búsqueda de información en línea. A diferencia de los motores de búsqueda tradicionales que se basan en la coincidencia de palabras clave y listas de enlaces, los LLMs comprenden el contexto, la semántica y la intención del usuario, generando respuestas directas y sintetizando información de múltiples fuentes.Este cambio exige que las empresas adapten sus estrategias de SEO. Ya no basta con clasificar en una lista de enlaces; ahora deben optimizar sus sitios web para que los LLMs los reconozcan como fuentes de información creíbles y autorizadas. Exploraremos cómo los LLMs interpretan la información web de manera diferente, así como una guía para optimizar el SEO para estos sistemas de IA.
Los motores de búsqueda tradicionales, como Google Search, se basan en gran medida en la coincidencia de palabras clave entre la consulta del usuario y el contenido de las páginas web, además de analizar la cantidad y calidad de los enlaces que apuntan a un sitio. Estos sistemas indexan la web y clasifican las páginas según una variedad de factores algorítmicos, presentando al usuario una lista de enlaces relevantes. En contraste, los LLMs procesan el lenguaje de una manera que se asemeja más a la comprensión humana. Son entrenados con grandes cantidades de datos textuales, lo que les permite aprender patrones lingüísticos, estructura y matices del lenguaje.
Una de las características distintivas de la búsqueda impulsada por LLMs es su capacidad para realizar búsquedas "difusas", interpretando la intención y el contexto detrás de una consulta en lugar de requerir coincidencias exactas de palabras clave.
Los LLMs utilizan técnicas como la generación aumentada por recuperación (RAG, por sus siglas en inglés), que les permite complementar su conocimiento pre-entrenado recuperando información relevante de bases de conocimiento externas en tiempo real. Esto les permite ofrecer respuestas más actualizadas y contextualizadas. A diferencia de los motores de búsqueda tradicionales que devuelven una lista de enlaces, los LLMs pueden sintetizar información de múltiples fuentes para generar una respuesta directa a la consulta del usuario. Esta capacidad de interpretación y síntesis marca una diferencia fundamental en cómo los usuarios interactúan con la información en línea.
Para que los LLMs utilicen eficazmente el contenido web como fuente de información, es crucial que este contenido sea semánticamente coherente, tenga profundidad temática y presente relaciones claras entre entidades. Los LLMs son expertos en el reconocimiento de entidades, identificando y comprendiendo personas, lugares, cosas y conceptos, así como sus interconexiones. Por lo tanto, el contenido web debe demostrar un dominio exhaustivo del tema y establecer relaciones claras entre las entidades relevantes para que los LLMs puedan referenciarlo con confianza.
En lugar de centrarse en la optimización tradicional de palabras clave aisladas, las empresas deben organizar su contenido en grupos de temas interconectados. Al vincular artículos relacionados dentro de un sitio web, no solo se mejora la navegación para los usuarios, sino que también se establecen estas relaciones temáticas, lo que ayuda a los LLMs a comprender la amplitud y profundidad de la cobertura de un tema. Además, escribir en un lenguaje claro y natural, evitando la jerga innecesaria y adoptando un tono conversacional, se alinea mejor con la forma en que los usuarios interactúan con los motores de búsqueda impulsados por LLMs y cómo estos modelos procesan y generan texto. Esta aproximación reconoce que los LLMs, al igual que los humanos, se benefician de la información presentada de manera accesible y bien estructurada.
Un aspecto fundamental de la optimización para LLMs es garantizar que el contenido web esté bien estructurado y sea fácilmente legible. Esto implica el uso adecuado de encabezados (H1-H6) para jerarquizar la información, subencabezados para dividir el contenido en secciones lógicas, listas con viñetas y párrafos concisos para facilitar la lectura y el análisis por parte de los LLMs. La utilización de etiquetas HTML semánticas como <article>, <section>, <header> y <footer> en lugar de depender únicamente de elementos <div> proporciona un contexto significativo a los LLMs, ayudándoles a interpretar el propósito y la estructura del contenido de manera más precisa.
Es recomendable presentar la información clave al principio del contenido, utilizando resúmenes y conclusiones para que los LLMs puedan identificar rápidamente los puntos más importantes. El uso de formatos de preguntas y respuestas (Q&A) o secciones de preguntas frecuentes (FAQ) también puede ser muy beneficioso, ya que permite abordar directamente las consultas comunes de los usuarios, un formato que los LLMs pueden procesar y utilizar fácilmente para generar respuestas. En última instancia, el contenido que es fácil de leer y comprender para los humanos también tiende a ser más accesible y utilizable para los LLMs.
La optimización para LLMs requiere un cambio de enfoque desde la densidad tradicional de palabras clave hacia la incorporación natural de palabras clave semánticas y frases relacionadas. En lugar de repetir una palabra clave específica numerosas veces, es más efectivo utilizar un conjunto diverso de términos relacionados, sinónimos y variaciones que reflejen cómo las personas realmente hablan y buscan información. Comprender y alinearse con la intención del usuario (ya sea informativa, comercial o transaccional) es crucial para crear contenido que responda a sus necesidades de manera integral.
Realizar una investigación de entidades para identificar e incorporar las entidades clave (personas, lugares, organizaciones, conceptos) relacionadas con el contenido puede mejorar aún más su comprensión por parte de los LLMs. Si bien la investigación tradicional de palabras clave sigue siendo relevante, un conocimiento profundo del panorama semántico que rodea a un tema es fundamental para la optimización para LLMs. El objetivo principal debe ser siempre crear contenido de alta calidad que proporcione valor a los usuarios y responda a sus preguntas de manera exhaustiva; la incorporación natural de palabras clave relevantes seguirá a este enfoque.
La implementación de marcado de esquema (schema markup) es una práctica esencial para ayudar a los LLMs a comprender el contexto y la estructura del contenido web. Al utilizar tipos de esquema relevantes, como FAQ Page, HowTo, Article y Product, las empresas pueden proporcionar señales claras a los LLMs sobre el tipo de información que se presenta en sus páginas. Este marcado estructurado puede resultar en fragmentos enriquecidos y la inclusión en gráficos de conocimiento, los cuales pueden ser utilizados por los LLMs para generar respuestas más precisas y contextualizadas. Se recomienda utilizar herramientas como el Asistente de marcado de datos estructurados de Google y la Prueba de resultados enriquecidos para garantizar una implementación correcta. Los datos estructurados actúan como una guía para los LLMs, aumentando la probabilidad de que el contenido sea utilizado como una fuente confiable.
Los principios de E-E-A-T (Experiencia, Conocimiento, Autoridad y Confiabilidad en inglés Experience, Expertise, Authoritativeness, and Trust) siguen siendo de suma importancia en la era de los LLMs. Los LLMs, al igual que los motores de búsqueda tradicionales, favorecen el contenido de fuentes acreditadas y respetadas. Esto significa que las empresas deben esforzarse por citar fuentes autorizadas, enlazar a sitios web creíbles e incluir comentarios de expertos, investigaciones originales y datos de referencia de la industria en su contenido. Una sólida estrategia de construcción de enlaces y relaciones públicas digitales también puede señalar autoridad a los LLMs. Incluso tener una página de Wikipedia puede ser beneficioso para establecer credibilidad. En última instancia, demostrar experiencia a través de contenido profundo y bien investigado, proporcionando datos o perspectivas únicas, aumentará la probabilidad de que los LLMs citen ese contenido como una fuente valiosa.
Si bien Google sigue manteniendo una cuota de mercado dominante en las búsquedas y el 89.74% a nivel mundial), el panorama está evolucionando rápidamente con la creciente adopción de LLMs para la búsqueda de información.
Si bien el tráfico directo proveniente de LLMs aún representa una pequeña fracción del total del tráfico web, su crecimiento es significativo y su impacto en el comportamiento de búsqueda y el tráfico orgánico tradicional es innegable. Las empresas deben comenzar a adaptar sus estrategias de SEO ahora para prepararse para un futuro donde la búsqueda impulsada por IA juegue un papel mucho más importante
GPTBot es el rastreador web desarrollado por OpenAI para mejorar la precisión, las capacidades y la seguridad de sus modelos fundacionales de IA generativa mediante el rastreo de contenido web que pueda utilizarse para el entrenamiento. El User-Agent oficial para GPTBot es: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot. Los propietarios de sitios web pueden controlar el acceso de GPTBot a su contenido utilizando el archivo robots.txt. Para bloquear completamente el acceso de GPTBot, se pueden añadir las siguientes líneas al archivo robots.txt:0’’0’’
User-agent: GPTBot
Disallow: /
También es posible permitir el acceso a directorios específicos o prohibir el acceso a otros utilizando directivas Allow y Disallow más específicas. OpenAI ha diseñado GPTBot para que respete las directivas de robots.txt y filtre el contenido detrás de muros de pago o que viole sus políticas, además de ignorar la información de identificación personal. OpenAI también publica los rangos de direcciones IP utilizados por GPTBot, que se pueden encontrar en https://openai.com/gptbot.json.
Google-Extended es un token de producto utilizado por Google para controlar cómo se rastrean los sitios web y se utiliza su contenido para mejorar los modelos generativos de Google, como Gemini y Vertex AI. El User-Agent oficial es simplemente Google-Extended. Para gestionar el acceso de este rastreador, se pueden utilizar las directivas estándar en el archivo robots.txt. Por ejemplo, para bloquear completamente el acceso:
User-agent: Google-Extended
Disallow: /
O para permitir el acceso a una parte específica del sitio:
User-agent: Google-Extended
Allow: /ruta/al/directorio/
Es importante destacar que bloquear el acceso de Google-Extended no afectará la forma en que Google Search rastrea e indexa el sitio web. La optimización para Gemini se centra en las prácticas fundamentales de SEO, como la creación de contenido relevante y atractivo que responda directamente a las consultas de búsqueda, la optimización con palabras clave apropiadas, la incorporación de contenido visual y la mejora de la estructura del sitio. También se espera que Gemini se base en la infraestructura de búsqueda de Google, por lo que el cumplimiento de las Core Web Vitals y las mejores prácticas de SEO de Google seguirán siendo importantes.
Perplexity AI utiliza su propio rastreador web, llamado PerplexityBot, diseñado para descubrir y enlazar sitios web en sus resultados de búsqueda. Es importante señalar que PerplexityBot se utiliza para mostrar sitios web en los resultados de búsqueda y no para entrenar modelos de IA. El User-Agent oficial es: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot). Para asegurarse de que su sitio web aparezca en los resultados de búsqueda de Perplexity, se recomienda permitir el acceso de PerplexityBot en el archivo robots.txt:
User-agent: PerplexityBot
Allow: /
PerplexityBot opera desde un conjunto de direcciones IP publicadas. Perplexity prioriza el contenido que responde directamente a preguntas específicas, por lo que la creación de contenido orientado a respuestas y en formato de preguntas y respuestas es clave para la optimización.
Anthropic utiliza varios rastreadores web, incluyendo ClaudeBot para recopilar datos para el entrenamiento de modelos de IA, Claude-User para acciones iniciadas por el usuario dentro de Claude y Claude-SearchBot para mejorar la calidad de los resultados de búsqueda para los usuarios de Claude. El User-Agent para ClaudeBot es ClaudeBot. Para bloquear el acceso de ClaudeBot a su sitio web, puede añadir las siguientes líneas a su archivo robots.txt:
User-agent: ClaudeBot
Disallow: /
Anthropic también soporta la extensión no estándar Crawl-delay en robots.txt para limitar la actividad de rastreo. Se recomienda asegurarse de que el sitio web tenga contenido claro y accesible, tiempos de carga rápidos y un HTML limpio para todos los rastreadores de Anthropic. Muchos rastreadores de IA, incluyendo ClaudeBot, pueden no procesar JavaScript de manera efectiva.
Grok, desarrollado por xAI, cuenta con capacidades de búsqueda web (Websearch) y búsqueda avanzada (DeepSearch), integrando datos en tiempo real de X (anteriormente Twitter). Grok Websearch utiliza un sistema de indexación híbrido (basado en palabras clave y semántico). DeepSearch activa agentes bajo demanda que realizan búsquedas específicas y evalúan la credibilidad de las fuentes. Para mejorar la comprensión de Grok, se sugiere garantizar el renderizado del lado del servidor (SSR) y optimizar los metadatos y los datos estructurados para la indexación semántica.
Es útil monitorear los registros del servidor en busca de solicitudes con cadenas de User-Agent desconocidas o relacionadas con la IA e investigar su origen. Las comunidades en línea, como foros y discusiones (por ejemplo, Reddit, Stack Overflow), también pueden ser fuentes valiosas de información, ya que los desarrolladores y profesionales de SEO a menudo comparten sus descubrimientos sobre los rastreadores de LLMs. Dado que el panorama de la IA está en constante evolución, mantenerse informado sobre los últimos rastreadores y sus identificadores es un proceso continuo.
La evolución de los modelos de lenguaje está redefiniendo la manera en que se accede y se distribuye la información en la web. Adaptar el contenido a esta nueva realidad no solo mejora la visibilidad, sino que fortalece la relevancia de las marcas en un entorno cada vez más conversacional y contextual.
En nerds.ai, automatizamos la interacción entre empresas y usuarios a través de soluciones conversacionales basadas en inteligencia artificial, manteniéndonos siempre a la vanguardia de las tecnologías que están transformando los negocios.
Síguenos en LinkedIn para mantenerte al día en temas de IA, LLMs, comercio conversacional, AI Agents y WhatsApp.