Evaluación de LLMs: Principales benchmarks y cómo entenderlos
En un mundo donde los modelos de lenguaje grande (LLMs) se integran cada vez más en procesos empresariales, entender cómo evaluarlos se vuelve clave. En esta guía te explicamos, de forma clara y técnica, los principales benchmarks como MMLU, MT-Bench, HELM y más, y cómo estas evaluaciones pueden ayudarte a tomar mejores decisiones al implementar IA generativa en tu organización.
¿Qué es la evaluación de LLMs y por qué es importante?
En el campo de la inteligencia artificial, los modelos de lenguaje grande (LLMs, por sus siglas en inglés) como GPT-4, PaLM o Llama han mostrado capacidades sorprendentes para comprender y generar texto. Sin embargo, ¿cómo sabemos qué tan bien funciona realmente un modelo? Ahí es donde entra la evaluación de LLMs. Evaluar un LLM significa medir su rendimiento en tareas específicas de forma estandarizada, para así entender sus capacidades, comparar modelos entre sí y detectar sus fortalezas y debilidades.
La evaluación es crucial por varias razones. En primer lugar, garantiza la calidad y confiabilidad: un modelo puede sonar coherente, pero necesita probarse con pruebas objetivas para asegurar que realmente entiende y resuelve preguntas correctamente. Además, los LLMs difieren en sus conocimientos, razonamiento y comportamiento; las evaluaciones nos ayudan a elegir el modelo adecuado para una aplicación dada (por ejemplo, un modelo especializado en código vs. uno experto en lenguaje común). También son vitales para seguir el progreso en investigación – los benchmarks permiten comparar nuevos modelos con los anteriores bajo las mismas condiciones. Por último, revelan limitaciones y sesgos: al someter un modelo a diversos tests, podemos descubrir si tiende a alucinar respuestas, mostrar sesgos o fallar en cierto tipo de preguntas, lo cual es esencial para mejorar su alineación y uso seguro.
Evaluar sistemáticamente a los LLMs es tan importante como construirlos.
Principales benchmarks y métodos de evaluación de LLMs
Existen múltiples benchmarks (pruebas estandarizadas) y enfoques para evaluar LLMs, cada uno enfocándose en distintos aspectos: conocimientos académicos, razonamiento lógico, calidad de conversación, veracidad, programación, etc. Abajo listamos y describimos los más reconocidos y usados en la industria y la investigación.
Evaluaciones de conocimiento general y académico
MMLU (Massive Multitask Language Understanding) – Es uno de los benchmarks más conocidos para medir conocimientos académicos de un modelo. MMLU consiste en ~16.000 preguntas de opción múltiple cubriendo 57 materias distintas (matemáticas, historia, informática, derecho, medicina, etc.), desde nivel de primaria hasta experto. Cada pregunta tiene 4 opciones posibles, y el modelo debe elegir la respuesta correcta. ¿Qué mide? MMLU evalúa la amplitud de conocimientos y entendimiento conceptual del modelo en una variedad de dominios académicos. ¿Cómo lo mide? Simplemente calculando la precisión: el porcentaje de preguntas respondidas correctamente (al azar sería 25%). Ventajas: es amplio y comparativo, permitiendo ver qué tan cerca está un LLM del conocimiento de un humano educado. Es un estándar común: por ejemplo, modelos como GPT-3 alcanzaban ~43% de precisión en 2020, mientras que los más avanzados en 2024 (GPT-4, Claude 2, etc.) rondan el 85–90%, cerca de lo que logra un experto humano (~90%). Esto muestra tanto el progreso como que MMLU ha sido prácticamente “dominado” por modelos recientes. Limitaciones: al ser principalmente preguntas estáticas de conocimiento, muchos modelos punteros ya se acercan al techo de este benchmark, por lo que empieza a perder poder diferenciador. Además, favorece conocimiento factual más que razonamiento complejo o interacción; no captura habilidades conversacionales ni creativas. (Esto ha motivado la creación de variantes más difíciles como MMLU-Pro en 2024, con preguntas de razonamiento más profundo) .
BIG-Bench (Beyond the Imitation Game Benchmark) – Es un extenso conjunto de más de 200 tareas diseñadas para probar todo tipo de habilidades de los LLMs, muchas de ellas inusuales o creativas. Fue desarrollado colaborativamente por cientos de investigadores. ¿Qué mide?Cobertura general de “inteligencia” en desafíos no convencionales. Incluye tareas de diversidad enorme: desde lógica y matemáticas, hasta identificación de idiomas raros, análisis de sesgos sociales, resolución de acertijos, entender humor, juegos de palabras, etc. ¿Cómo lo mide? Cada tarea tiene su propio formato y métrica de evaluación: algunas son de opción múltiple (midiendo exactitud), otras de generación libre evaluadas con métricas automáticas (como ROUGE, BLEU) o mediante scripts personalizados. Generalmente se informa el desempeño promedio o en cada tarea individual. Ventajas:diseño muy creativo y amplio, revelando capacidades y carencias que no aparecen en exámenes tradicionales. Es útil para identificar en qué tipos de problemas un modelo sobresale o fracasa (por ejemplo, si entiende sarcasmo, si puede planificar movimientos de ajedrez, etc.). Limitaciones:no es un único número fácil de interpretar – es más bien una colección de pruebas. Evaluar un modelo en todas las tareas puede ser complejo y algunas métricas automáticas no capturan perfectamente la calidad (a veces habría que revisar manualmente). Además, muchas tareas son extremas o de nicho, por lo que un modelo podría fallar en una tarea muy extraña sin que eso invalide su utilidad práctica en otros ámbitos. Una extensión llamada Big-Bench Hard (BBH) selecciona ~23 de las tareas más difíciles (donde incluso los mejores modelos iniciales no alcanzaban desempeño humano), ofreciendo un subconjunto especialmente retador; este subset confirmó que técnicas como chain-of-thought (encadenamiento de pensamientos) ayudan a los modelos a rendir mejor en desafíos complejos, aunque aún quedan tareas donde las máquinas están lejos del humano.
ARC (AI2 Reasoning Challenge) – Es un benchmark de preguntas de ciencias de nivel escolar (grado 3 a 9, edades ~8-15 años). Contiene unas 7.700 preguntas de ciencias genuinas de exámenes escolares de Estados Unidos, divididas en dos conjuntos: ARC-Easy (preguntas de ciencia general relativamente directas) y ARC-Challenge (preguntas más difíciles que requieren combinar conocimientos o razonamiento no trivial). ¿Qué mide? La capacidad de razonamiento científico y sentido común del modelo en preguntas estilo examen escolar. Son cuestiones de opción múltiple (3 o 4 opciones) de temas como biología, física, química, ciencias de la tierra, etc. ¿Cómo lo mide? Calcula la precisión en responder correctamente. Ventajas: Es un test temprano pero importante de entendimiento del mundo físico: muchas preguntas requieren aplicar lógica o conocimientos básicos que un estudiante aprendería (p.ej., propiedades de los imanes, ciclo del agua, etc.). Fue uno de los primeros benchmarks donde los modelos grandes mostraron mejoras significativas, y ayuda a ver si un modelo tiene sentido común científico más allá de solo texto. Limitaciones: Se limita al dominio de ciencias escolares en formato de pregunta-examen. Modelos entrenados con muchos datos de internet pueden responder bastantes preguntas por memoria factual, sin razonar verdaderamente. Además, como es de 2018, los modelos más nuevos ya logran puntajes altos en ARC (especialmente en la parte “Easy”), así que su utilidad para distinguir modelos punteros es menor que antes. Aun así, ARC-Challenge sigue siendo un indicador útil para preguntas que no son triviales y requieren deducción.
AGIEval – Conjunto de evaluaciones publicado en 2023 enfocado en examinar qué tan cerca están los LLMs de desempeños “de nivel humano” en pruebas estandarizadas difíciles, a modo de indicador de inteligencia general. Reúne alrededor de 8.000 preguntas tomadas de exámenes académicos y profesionales reales: por ejemplo, preguntas del GRE y GMAT (posgrado), del LSAT (admisión a la facultad de derecho), exámenes de abogacía, el examen de ingreso universitario de China (Gaokao), exámenes de servicio civil en China, olimpiadas de matemáticas (AMC, AIME), entre otros. ¿Qué mide? Evalúa la capacidad de un LLM para rendir como un humano educado en tests formales, muchos de los cuales requieren alto razonamiento verbal, lógico o matemático. ¿Cómo lo mide? Usa la métrica propia de cada examen: normalmente precisión en opciones múltiples, y en algunas preguntas abiertas calcula exact match (coincidencia exacta) o puntuaciones parciales (ej. F1) si aplica. Se suele comparar la puntuación del modelo con el promedio humano o el mínimo aprobatorio de ese examen. Ventajas: Son problemas desafiantes y realistas, no hechos a medida para AI sino obtenidos de exámenes diseñados para personas. Esto le da validez externa: si un modelo puede pasar un examen de ingreso universitario, es una señal clara de sus habilidades. Además, cubre tanto inglés como chino (incluyendo partes de Gaokao), probando multilingüismo y conocimiento cultural. Limitaciones: Cada subprueba es específica (ley, matemáticas de concurso, etc.), así que un modelo podría estar adaptado a un tipo de examen y brillar allí pero eso no garantiza desempeño igualmente bueno en otras tareas no cubiertas. También, algunos ítems pueden haber aparecido en los datos de entrenamiento de ciertos modelos (aunque los creadores intentan mitigar fugas), lo que puede inflar resultados. En general, AGIEval es excelente para evaluar “nivel de competencia académica/profesional” de un LLM, pero no cubre creatividad, conversación abierta ni tareas fuera del formato examen.
Evaluaciones de razonamiento lógico y matemático
MuSR (Multistep Soft Reasoning) – (A veces referido como "MUSER" en algunos recursos). MuSR es un nuevo benchmark (introducido en 2024) enfocado específicamente en razonamiento complejo de múltiples pasos. A diferencia de pruebas de conocimiento directo, aquí las tareas vienen en forma de narrativas en lenguaje natural que describen problemas que requieren deducción. Por ejemplo, incluye dominios como misterios de asesinato (donde el modelo debe inferir quién es el culpable a partir de pistas), colocación de objetos (rastrear posiciones y relaciones espaciales) y asignación de equipos (resolver quién debe ir en qué grupo bajo ciertas restricciones). ¿Qué mide? La capacidad de un modelo de “pensar” paso a paso y desenmarañar situaciones complejas formuladas en lenguaje natural. MuSR exige encadenar pistas, recordar detalles de la historia dada, y aplicar lógica para llegar a la conclusión correcta. ¿Cómo lo mide? Cada problema tiene una respuesta correcta esperada (p.ej., la solución del misterio o la configuración final correcta). El rendimiento se mide por porcentaje de aciertos en estos escenarios. Este benchmark se diseñó con validación rigurosa para minimizar ambigüedades y asegurar que cada pregunta tenga una solución clara. Ventajas: Ofrece un desafío mucho más “humano” en el sentido de que los problemas se parecen a acertijos o tareas de pensamiento crítico que haría una persona, más que a preguntas triviales de opción múltiple. Prueba la habilidad de “chain-of-thought” (cadena de razonamiento) del modelo. Top models como GPT-4 todavía no logran puntajes perfectos en MuSR (de hecho, los humanos logran ~95–100% en estos ítems, mientras GPT-4 puede quedar por los 60–85% según la subcategoría), lo que indica que aún hay brecha por cerrar en razonamiento profundo. Limitaciones: Es un benchmark relativamente nuevo y específico. Cubre unas pocas formas de tareas narrativas (tres dominios principales); aunque son variadas, no abarcan todo tipo de razonamiento. Un modelo podría potencialmente ser entrenado o ajustado para estos escenarios particulares sin ser generalmente más inteligente. Aun así, MuSR se está adoptando en leaderboards recientes porque rellena un hueco importante probando capacidades que otros benchmarks más antiguos no capturaban bien.
GSM8K (Grade School Math 8K) – Es una colección de 8.000 problemas de matemáticas de primaria (en inglés), publicados en 2021, muy utilizada para evaluar la habilidad de los LLMs en razonamiento matemático paso a paso. Los problemas son en formato textual (ejemplo: “Si María tiene 3 manzanas y compra 5 más, ¿cuántas tiene en total?” aunque muchos son más complicados que ese ejemplo trivial) y cubren aritmética, lógica numérica y resolución de problemas de tipo concurso escolar. ¿Qué mide? La capacidad del modelo para hacer cálculos y deducciones matemáticas simples mediante razonamiento. Requiere entender el lenguaje del problema, convertirlo en operaciones matemáticas y llegar al resultado correcto. ¿Cómo lo mide? Por el porcentaje de problemas resueltos correctamente. Como cada problema tiene una única respuesta numérica o corta, se comprueba si la respuesta del modelo coincide exactamente. A menudo se le permite al modelo generar un “encadenamiento de pensamiento” (justificación paso a paso) para ver si mejora su precisión. Ventajas: GSM8K es un indicador claro de razonamiento: modelos pequeños o sin técnica de pensamiento suelen fallar incluso en problemas relativamente fáciles, mientras que modelos grandes con buenos prompting pueden llegar a resolver la mayoría. Ha sido crucial para demostrar avances en techniques como Chain-of-Thought, donde pedirle al modelo que explique su cálculo mejora notablemente el resultado. Para muchos usuarios, ver un modelo resolver correctamente un problema matemático en pasos es una señal tangible de inteligencia. Limitaciones: Está limitado a matemáticas de nivel escolar básico y mediano. No cubre matemáticas avanzadas ni problemas algebraicos complejos (existen otros benchmarks para eso, como MATH). Además, con suficientes ejemplos, los modelos pueden aprender ciertos patrones de solución; de hecho, GPT-4 y modelos similares ya superan con creces el 90% en GSM8K cuando se les permite razonar paso a paso, acercándose mucho al nivel humano experto en este conjunto. En resumen, GSM8K diferencia bien a modelos medianos de grandes, pero los mejores ya casi lo han agotado, y no refleja otras habilidades (por ejemplo, no mide comprensión de lenguaje común ni creatividad).
HellaSwag – A pesar de su nombre coloquial, HellaSwag es un benchmark serio enfocado en razonamiento de sentido común y finalización de oraciones. Fue creado en 2019 como una versión “retadora” de tareas de inferencia de contexto. Consiste en miles de ejemplos donde se proporciona el comienzo de una situación o historia (por ejemplo: una descripción de alguien haciendo una actividad) y el modelo debe elegir la continuación más plausible entre varias opciones. Las opciones incorrectas fueron diseñadas para sonar casi correctas pero ser ilógicas o incoherentes con el contexto. ¿Qué mide? La capacidad del modelo de realizar inferencia de sentido común: entender el contexto de una situación cotidiana y predecir la continuación lógica. En otras palabras, evalúa si el modelo tiene conocimiento implícito del mundo (física básica, comportamientos humanos típicos, causalidad) para no caer en conclusiones absurdas. ¿Cómo lo mide? Es de elección múltiple – típicamente 4 opciones – y se mide la precisión (qué porcentaje de veces escoge la continuación correcta). Ventajas: Es un test riguroso de sentido común. Modelos pequeños o anteriores a 2019 a menudo elegían las opciones trampa que “sonaban” gramaticalmente bien pero carecían de sentido real, obteniendo resultados muy por debajo del desempeño humano. HellaSwag mostró cuán lejos estaban las IA del verdadero sentido común en su lanzamiento. Los LLMs grandes han mejorado mucho en él, pero sigue siendo un buen indicador: un modelo que alcanza alto puntaje en HellaSwag probablemente tiene una fuerte comprensión contextual y menos propensión a decir disparates en escenarios cotidianos. Limitaciones: Está limitado al formato de “continuación de historia breve”. No cubre diálogo, ni generación libre (solo elegir opciones), y muchas de sus premisas son cortas – no refleja comprensión de textos largos. Además, los modelos más nuevos han alcanzado ya niveles cercanos al humano en HellaSwag, reduciendo su poder para distinguir entre los tope de gama (por eso se han ido creando variantes multilingües o más grandes, e incluso un HellaSwag-Pro en chino). Con todo, sigue siendo referencia obligada en tablas comparativas de modelos abiertos, representando la dimensión de razonamiento común-sensible.
Evaluaciones de diálogo e instrucciones (preferencia humana)
LMSYS Chatbot Arena – Chatbot Arena es una plataforma en vivo creada por el equipo de LMSYS (UC Berkeley) donde se comparan directamente dos modelos conversacionales mediante votos humanos. En este “arena”, cualquier persona puede ingresar y hacer una pregunta; el sistema selecciona aleatoriamente dos LLMs (por ejemplo, GPT-4 vs. un modelo open-source) para generar cada uno una respuesta sin revelar sus identidades, y luego le pide al usuario que vote cuál respuesta fue mejor. A lo largo del tiempo, se han recolectado cientos de miles de comparaciones de este tipo. ¿Qué mide? Captura la preferencia humana directa en respuestas de chat. No hay una “respuesta correcta” predefinida; en su lugar, se evalúa cuál respuesta resulta más útil, correcta o bien expresada según la percepción del usuario. ¿Cómo lo mide? A través de un sistema de rating Elo, inspirado en cómo se rankea a jugadores de ajedrez. Cada par de modelos “enfrentados” gana o pierde puntos Elo según los votos de los usuarios. De esta forma, emerge un ranking dinámico: modelos con muchas victorias suben en puntuación, los perdedores bajan. Esto permite crear una clasificación de chatbots de mejor a peor rendimiento conversacional, actualizada continuamente. Ventajas: Es una evaluación basada en humanos y en preguntas del mundo real, no en un conjunto fijo de preguntas académicas. Captura cosas sutiles como el estilo de la respuesta, la utilidad práctica, la coherencia en varios turnos, e incluso si un modelo evita errores factuales obvios – todo desde la perspectiva humana. Es muy útil para comparar modelos “cara a cara” de forma holística. Por ejemplo, la Arena ha revelado que ciertos modelos abiertos bien afinados podían acercarse a modelos comerciales, o que algunos modelos tienden a preferirse por los usuarios aun si sus métricas estáticas eran más bajas. También es un sistema abierto: con suficientes usuarios, se puede obtener una gran cantidad de datos de comparación rápida. Limitaciones:No es reproducible ni controlado estrictamente – los resultados pueden depender de quiénes son los usuarios que votan (sesgo de audiencia), de qué preguntas se hicieron (no es un conjunto fijo, aunque en promedio se promedian muchas), e incluso de sesgos de interfaz (si un usuario adivina cuál respuesta es de un modelo conocido, podría influir). Además, el sistema Elo asume enfrentamientos aleatorios; en la práctica, a veces ciertos modelos se comparan más entre sí que con otros. Aun así, Chatbot Arena se ha convertido en un referente comunitario para obtener feedback humano rápido. Muchas evaluaciones iniciales de nuevos modelos (como Vicuna, Llama 2, etc.) incluyeron resultados de Chatbot Arena para respaldar qué tan cerca estaban de GPT-4 en preferencia.
MT-Bench (Multi-turn Benchmark) – Evaluar diálogos de múltiples turnos (es decir, conversaciones con idas y vueltas) tradicionalmente requiere mucho esfuerzo humano. MT-Bench, presentado en 2023, busca solucionar esto con un enfoque híbrido: un conjunto fijo de conversaciones desafiantes, evaluadas en parte con modelos como jueces. ¿Qué mide? La capacidad del LLM para sostener conversaciones largas coherentes, seguir instrucciones del usuario a través de varios turnos, y ofrecer respuestas útiles en cada paso. A diferencia de benchmarks de una sola pregunta-respuesta, aquí se simulan conversaciones con 4, 6 u 8 intercambios sobre un mismo tema, incluyendo preguntas de seguimiento. ¿Cómo lo mide? MT-Bench estableció inicialmente ~80 prompts de conversación multi-turno “difíciles” (preguntas abiertas, peticiones que requieren varias interacciones para resolverse). Originalmente fueron evaluados por expertos humanos con criterios como relevancia, corrección, nivel de detalle, etc., pero luego adoptaron un esquema de LLM-as-a-judge: un modelo muy fuerte (por ejemplo GPT-4) asigna puntuaciones a las respuestas de los modelos en cada turno y justifica su evaluación. En concreto, se le pide al juez (GPT-4) que compare respuestas o que puntúe la calidad en distintos aspectos, y se ha visto que coincide con las preferencias humanas en ~80% de los casos, lo cual es bastante alto. Cada modelo evaluado recibe así un puntaje numérico que refleja su desempeño promedio en esas conversaciones de prueba. Adicionalmente, MT-Bench se integra con la Chatbot Arena: las puntuaciones automáticas alimentan un leaderboard y se complementan con el Elo basado en humanos, para dar una visión más completa. Ventajas: Ofrece evaluación escalable de diálogos sin requerir siempre humanos para cada comparación, gracias a los jueces automáticos. Permite calificar modelos en aspectos conversacionales de manera más detallada que un simple voto (por ejemplo, se puede puntuar del 1 al 10 en “seguir instrucciones” o “razonamiento” para una respuesta dada). Al ser multi-turn, revela qué modelos mantienen contexto y no se “pierden” tras varias interacciones. Muchos laboratorios han adoptado MT-Bench para afinar sus modelos conversacionales y validar mejoras rápidamente. Limitaciones: Usar un LLM como juez introduce posibles sesgos: por ejemplo, se descubrió que GPT-4 tiende a preferir respuestas más largas (length bias), lo que llevó a técnicas para controlar la longitud en evaluaciones como AlpacaEval 2.0. Además, un juez automático podría compartir algunas cegueras con los modelos evaluados (por ejemplo, puede no penalizar una respuesta factualmente incorrecta si suena convincente, si el juez tampoco conoce la verdad). Por eso, aunque MT-Bench automatiza mucho, no sustituye completamente la validación humana, sino que la complementa. En la práctica ideal, se usa MT-Bench para filtrar y rankear modelos rápidamente, y luego se hacen pruebas humanas enfocadas en casos límite. Aun con esas reservas, MT-Bench ha sido muy influyente porque mostró que “los modelos pueden ayudar a evaluarse entre sí”, haciendo factible comparar muchos modelos y versiones de forma rápida.
AlpacaEval – Es otro método de evaluación automatizada con LLMs como jueces, concebido inicialmente por investigadores de Stanford (tatsu-lab) durante el desarrollo de Alpaca, y luego extendido. AlpacaEval se centra en evaluar modelos de instrucción/chat de forma rápida y barata, aprovechando un juez como GPT-4 en lugar de humanos. ¿Qué mide? Similar a Chatbot Arena, mide qué modelo produce mejor respuesta dado un mismo prompt de instrucción, pero aquí las comparaciones son realizadas por una IA en vez de por un humano. ¿Cómo lo mide? El proceso típico es: se tienen un conjunto de prompts (instrucciones o preguntas de usuarios). Para cada prompt, se generan dos respuestas: una del modelo A y otra del modelo B a comparar. Luego se le pide a GPT-4 (u otro LLM de referencia) que lea ambas respuestas y determine cuál es mejor, o incluso que dé una puntuación a cada una. Repitiendo esto sobre muchos prompts, se calcula un “win rate”: por ejemplo, el modelo A ganó sobre B en 65% de las comparaciones. Este tipo de evaluación puede dar un ranking de varios modelos calculando sus tasas de victoria entre sí. Importante: AlpacaEval fue validado con más de 20.000 comparaciones humanas, encontrando una alta correlación entre el veredicto del juez GPT-4 y la preferencia real de personas, lo que le da credibilidad. También se identificó y corrigió un sesgo del juez: la tendencia a favorecer respuestas más largas. La versión mejorada (Length-Controlled AlpacaEval) equilibra la longitud de las respuestas antes de juzgarlas, mitigando este problema. Ventajas:Extremadamente eficiente y replicable – en minutos u horas puedes obtener miles de comparaciones con costo bajo (solo llamadas a la API de un LLM). Es reproducible: cualquiera con acceso al mismo modelo juez puede repetir la evaluación con el mismo conjunto de prompts. Esto ha permitido crear leaderboards automáticos (ej.: muchos modelos open-source fueron clasificados según AlpacaEval en 2023). Además, al tener tantos datos, se pueden hacer análisis más detallados de en qué tipos de pregunta un modelo falla más que otro. Limitaciones: A fin de cuentas, el “juez” es una máquina – por muy avanzado que sea GPT-4, no deja de tener puntos ciegos. Puede no detectar sutilezas como tono inapropiado, referencias culturales mal usadas, o puede preferir respuestas verbosas (aunque no sean más correctas). También, la calidad de AlpacaEval depende de la calidad/diversidad del set de prompts elegidos; si solo evaluamos en, digamos, 100 instrucciones, debemos asegurarnos de que cubren variedad (preguntas abiertas, cerradas, cálculos, código, etc.) para que el resultado sea representativo. Por eso, AlpacaEval se suele usar junto con otras métricas. En general, ha sido una herramienta valiosa para la comunidad, sobre todo para evaluar muchos modelos de código abierto rápidamente contra referentes comerciales, identificando cuáles se acercan en calidad.
Evaluaciones de veracidad y alineación
TruthfulQA – Un aspecto crítico de los LLMs es qué tan veraces son sus respuestas. Muchas veces, un modelo puede sonar convincente pero afirmar falsedades o reflejar sesgos/malos entendidos humanos. TruthfulQA es un benchmark creado en 2021 para medir precisamente si un modelo tiende a decir la verdad o a repetir falsedades comunes. Consta de 817 preguntas de conocimiento general diseñadas intencionalmente para provocar errores típicos en los modelos (y humanos desinformados). Por ejemplo, puede preguntar “¿Realmente los humanos usamos solo el 10% del cerebro?” – una persona informada diría “no, eso es un mito”, pero un modelo entrenado en internet podría haber visto frecuentemente esa afirmación falsa y responder “sí”. ¿Qué mide? Evalúa la honestidad y precisión factual del modelo frente a preguntas engañosas o trampas donde la respuesta más obvia o frecuente es incorrecta. ¿Cómo lo mide? Cada respuesta del modelo se evalúa como “verdadera” o “falsa” de acuerdo con un conjunto de verdades conocidas o consenso científico. En la implementación original, voluntarios humanos clasificaron las respuestas del modelo como veraces o no, y así se calculó un porcentaje de veracidad (además de otras sub-métricas como si la respuesta fue “informativa” o si el modelo admitió no saber). Un modelo perfectamente honesto y conocedor debería acercarse al 100% de veracidad en este set. Ventajas: Es un indicador directo de confiabilidad. Un modelo con baja puntuación en TruthfulQA seguramente dará muchas respuestas incorrectas o engañosas al usuario en preguntas de cultura general, lo cual es preocupante para aplicaciones donde la precisión es clave. Este benchmark también destapa alucinaciones y creencias falsas que el modelo pudo haber absorbido del texto de entrenamiento. Por ejemplo, modelos pre-ChatGPT a menudo caían en montones de estas trampas (dando porcentajes muy bajos de veracidad), mientras que modelos más recientes entrenados con técnicas de alineación han mejorado, aunque ninguno es perfecto aún. Limitaciones: Está centrado en preguntas de conocimiento general (mitos, datos curiosos, afirmaciones conspirativas, etc.) – no cubre todos los aspectos de “verdad” (por ejemplo, no evalúa la veracidad en temas complejos de procedimiento o en lógica matemática). Además, algunos ítems podrían ser discutibles o depender de interpretación; aunque los creadores trataron de asegurarse de que cada pregunta tiene una respuesta realmente considerada verdadera por expertos, el campo de la verdad puede ser resbaladizo. Por tanto, un modelo puede potencialmente aprender a pasar TruthfulQA sin garantizar que nunca mienta en otros contextos. Aun así, es una herramienta valiosa para detectar tendencias a la desinformación. En complemento, hay otros tests de alineación (como evaluar sesgos o toxicidad), pero TruthfulQA se destaca por su enfoque específico en no imitar falsedades humanas.
Evaluaciones de programación (código)
HumanEval – Con la popularidad de modelos tipo Codex y GitHub Copilot, se hizo necesario medir objetivamente qué tan bien codifican los LLMs. HumanEval es un benchmark introducido por OpenAI en 2021 que contiene 164 problemas de programación escritos a mano, cada uno con su enunciado (docstring) y pruebas unitarias. Los problemas piden escribir una función para lograr cierta tarea (por ejemplo, “Dada una lista de números, devolver la subsecuencia creciente más larga”) y luego el modelo es evaluado ejecutando tests sobre su código. ¿Qué mide? La capacidad de un modelo de generar código correcto funcionalmente a partir de una descripción en lenguaje natural. Cubre conceptos de programación comunes: manipulación de cadenas, listas, matemáticas simples, algoritmos básicos, etc., similares a preguntas de entrevistas técnicas fáciles/medias. ¿Cómo lo mide? Principalmente con la métrica pass@k: se hace que el modelo genere k posibles soluciones para cada problema (por ejemplo k=1 o k=3). Se considera que “pasa” el problema si al menos una de esas soluciones pasa todos los tests unitarios asociados. El pass@1 (que indica si la primera solución que da el modelo es correcta) es el indicador más usado para comparar modelos – básicamente, qué porcentaje de los 164 problemas resuelve a la primera. Modelos como GPT-4 han logrado cifras impresionantes cercanas al 80-90% en pass@1, superando incluso a muchos humanos programadores en rapidez. Ventajas: Es un método objetivo y automático de evaluar código: no depende de juicios humanos subjetivos, sino de si el código funciona. Esto permite un fácil benchmarking de modelos de código. Además, como los problemas fueron diseñados para no estar en los conjuntos de entrenamiento (y en lenguajes de programación específicos, generalmente Python), da una medida fresca de generalización del modelo en coding. HumanEval se ha vuelto el estándar de facto para reportar la habilidad de programación de un LLM; por ejemplo, cuando OpenAI lanzó GPT-4, informaron su pass@1 en HumanEval, e igualmente los modelos como CodeGen, AlphaCode, etc., se comparan ahí. Limitaciones: Es un conjunto relativamente pequeño y enfocado en problemas sencillos. 164 ejercicios no cubren todo el espectro de la programación – no hay desarrollo web, ni sistemas, ni proyectos grandes, solo funciones aisladas. Tampoco evalúa cosas como estilo de código, seguridad, documentación o eficiencia más allá de pasar tests. Los modelos podrían sobreajustarse si se expusieran mucho a estos problemas (por eso es importante que los creadores mantengan confidencial los casos exactos). Como los LLMs de código han mejorado mucho, algunos alcanzan casi el techo en este benchmark; se complementa con otros más difíciles (por ej. MBPP, Codeforces, etc.). Aun así, HumanEval sigue siendo muy útil para evaluar rápidamente la destreza básica de un modelo escribiendo código correcto, lo cual es fundamental para asistentes de programación automáticos.
Evaluaciones holísticas
HELM (Holistic Evaluation of Language Models) – Muchas de las evaluaciones anteriores se centran en una dimensión (conocimiento, código, preferencias, etc.) y dan uno o pocos números. HELM, propuesto por Stanford CRFM a fines de 2022, es un esfuerzo por evaluar modelos de lenguaje de manera integral, cubriendo múltiples escenarios de uso y múltiples métricas, para pintar un cuadro completo de sus capacidades y defectos. Más que un dataset particular, HELM es un marco de evaluación y una suite que agrupa 42 escenarios (tareas) y evalúa a los modelos en cada una con hasta 7 métricas diferentes. ¿Qué mide? Prácticamente un poco de todo: incluye escenarios de preguntas y respuestas, resumen de texto, análisis de sentimiento, traducción, juego de roles en diálogo, inferencia lógica, resolución de datos faltantes, etc. Para cada uno, además de medir la exactitud o calidad principal, HELM registra métricas como calibración (qué tan bien calibrada está la confianza del modelo en sus respuestas), robustez (si cambia su respuesta ante pequeñas modificaciones irrelevantes en la entrada), justicia/sesgo (resultados diferentes según subgrupos demográficos), toxicidad (si genera contenido ofensivo), eficiencia (latencia, uso de cómputo) y otras. ¿Cómo lo mide? HELM ejecuta sistemáticamente cada modelo bajo las mismas condiciones en todas las tareas definidas. Por ejemplo, mide la precisión en QA de cultura general, y al mismo tiempo observa si las respuestas tóxicas permanecen bajo cierto umbral en una tarea de provocar lenguaje ofensivo, etc. Cada modelo evaluado obtiene un extenso reporte que abarca su puntuación en cada escenario+métrica. Los resultados se publican en un sitio web interactivo donde se pueden comparar modelos (tanto abiertos como cerrados) en distintos aspectos. HELM se actualiza periódicamente, incorporando nuevos modelos y, si es necesario, nuevos escenarios a medida que la tecnología avanza (es un “benchmark viviente”). Ventajas: Es la evaluación más completa disponible públicamente. Permite a desarrolladores y directivos entender los trade-offs de un modelo: por ejemplo, quizá el Modelo A tenga mayor precisión que el B en tareas de resumen, pero resulta que produce ligeramente más sesgos; o tal vez un modelo open-source se acerca al rendimiento de GPT-4 en algunas tareas pero su toxicidad está menos controlada. HELM promueve la transparencia, mostrando que no existe un solo número mágico para “mejor modelo”, sino que depende de prioridades (¿quieres máximo rendimiento bruto o mejor eficiencia, o menor sesgo?). También ha impulsado que la comunidad tome en cuenta métricas de riesgo y no solo de exactitud. Limitaciones: Su complejidad: no es trivial de ejecutar por cuenta propia (aunque el framework es abierto, correr 30+ modelos en 42 escenarios requiere mucho recurso). Y para un lector casual, interpretar una tabla HELM con docenas de números puede ser abrumador – suele necesitarse un análisis cuidadoso para extraer conclusiones accionables. Además, HELM intencionalmente reconoce que ninguna evaluación es completa: su meta es cubrir amplio espectro, pero siempre habrá usos no contemplados. Por eso se llama “holística” reconociendo la incompletitud: invita a seguir agregando pruebas. En síntesis, HELM es una referencia para comparativas detalladas (por ejemplo, empresas lo usan para auditar modelos antes de adoptarlos), complementando a los benchmarks individuales. Si MMLU o HumanEval dan una visión puntual, HELM ofrece la panorámica general.
Benchmarks más influyentes en la actualidad
Hemos descrito muchos benchmarks; entre ellos, algunos destacan por su amplio uso e influencia reciente. A continuación profundizamos en cuatro de los más relevantes hoy por hoy, y por qué son clave:
MMLU – el barómetro general de conocimiento
El benchmark MMLU se ha convertido en el “puntaje estándar” para indicar cuán bien maneja conocimientos generales un LLM. Es frecuente ver en leaderboards o anuncios de nuevos modelos la comparación de sus porcentajes en MMLU. Por ejemplo, la Open LLM Leaderboard de HuggingFace (que compara modelos abiertos) incluye MMLU como una de las pruebas centrales. La razón de su influencia es que condensa en un número el nivel de “educación” del modelo en múltiples campos. Durante 2021-2023, la comunidad observó cómo los puntajes MMLU subían con cada nueva generación de modelos, alcanzando y luego superando el desempeño promedio humano en muchos temas. Esto sirvió como evidencia tangible de progreso. Sin embargo, precisamente porque los modelos punteros ya rozan el techo (casi 90% de acierto), MMLU también se convirtió en ejemplo de un benchmark que empieza a agotarse: hoy varios modelos top obtienen puntajes muy similares altos, por lo que discrimina poco entre ellos. Aún así, ningún reporte serio de un nuevo LLM deja de incluir MMLU – si un modelo tuviera un valor anormalmente bajo allí, es señal de que carece de amplitud de conocimiento. Y si alguien afirma tener un modelo “nivel GPT-4”, debe demostrarlo, entre otras cosas, mostrando un MMLU competitivo. Gracias a su popularidad, MMLU ha motivado extensiones como MMLU-Pro (más difícil) y ha revelado que alcanzar ~90% en conocimiento enciclopédico es posible; el desafío ahora está en ir más allá (razonamiento y aplicaciones). En resumen, MMLU sigue siendo un referente influyente: el “IMC” de los LLMs, por así decirlo, útil pero que ya no cuenta toda la historia.
Chatbot Arena – la prueba de fuego de la preferencia humana
La LMSYS Chatbot Arena se ganó un lugar especial en la comunidad de IA de 2023. Fue a través de esta plataforma que modelos de código abierto como Vicuna ganaron notoriedad, al descubrirse que los usuarios a veces preferían sus respuestas por encima de las de modelos comerciales más grandes. La Arena se convirtió en una especie de “competencia pública” donde cualquier nuevo modelo conversacional puede ser puesto a prueba inmediata contra gigantes como GPT-4, con resultados transparentes. Su mayor influencia ha sido en democratizar la evaluación: ya no todo depende de benchmarks estáticos reportados por los propios creadores del modelo, sino que la comunidad puede verificar interactivamente cómo se comporta. Esto ha empujado a que las empresas se esfuercen más en la calidad conversacional y alineación; después de todo, si un modelo libre empieza a escalar posiciones en el ranking Elo de la Arena, genera mucha atención. También ha resaltado la importancia de UX y formato en las respuestas – respuestas concisas, educadas y correctas suelen ganar en la Arena, lo que retroalimenta a los desarrolladores para optimizar en esas dimensiones. Por supuesto, la Arena no es perfecta (ya discutimos sus sesgos), pero su influencia es clara: hoy existen leaderboards de conversación basados en Elo que son seguidos de cerca, y cualquier organización que lance un chatbot potente procurará comprobar cómo le va “en la Arena”. En términos de impacto, Chatbot Arena ha complementado los benchmarks tradicionales con una medición más cercana a la experiencia del usuario final, volviéndola indispensable para evaluar chatbots.
MT-Bench – el auge de “LLM-as-a-judge”
MT-Bench ha tenido impacto en cómo pensamos la evaluación automática. Antes, la evaluación de lenguaje se dividía entre métricas automáticas (BLEU, ROUGE, etc., para cosas específicas) y evaluación humana. MT-Bench mostró un camino intermedio: usar un LLM fuerte para juzgar respuestas complejas con sorprendente concordancia con humanos. Esto ha llevado a que “LLM-as-a-judge” se vuelva una frase de moda. Muchas iniciativas recientes de evaluación (como AlpacaEval mismo, y otras para evaluación de resúmenes, respuestas largas, etc.) se basan en este principio demostrado por MT-Bench: si no podemos costear siempre evaluadores humanos, entrenemos o usemos un modelo de referencia como crítico. La investigación presentada junto a MT-Bench también validó que GPT-4 podía replicar preferencias humanas en ~80% de los casos, lo cual generó confianza para aplicar este enfoque en otros dominios (por ejemplo, evaluar resúmenes de artículos o traducciones usando un LLM comparador). Además, MT-Bench al centrarse en multi-turn dialogues enfatizó que evaluar solo turno único es insuficiente para asistentes conversacionales – esto ha motivado a que nuevos modelos se sometan a pruebas de diálogos largos para detectar si pierden contexto, algo que antes podía pasarse por alto.
HELM – estableciendo el estándar de transparencia
HELM, por su ambición y respaldo académico, ha influenciado a la industria en la forma de documentar el rendimiento de los modelos. Antes, cuando una compañía lanzaba un nuevo modelo de lenguaje, típicamente publicaba unos cuantos resultados: tal puntaje en X benchmark, tal otro en Y benchmark, quizás algún gráfico. Con HELM, se propone una “ficha completa” del modelo en múltiples aspectos. Si bien no todas las empresas publican todo (OpenAI, por ejemplo, es bastante reservada con ciertos detalles), la existencia de HELM ha empujado a un discurso más amplio sobre evaluación: ya no se trata solo de “¿quién tiene el modelo más inteligente?”, sino de “¿cuál es más útil para cierta tarea con cierto nivel de seguridad?”. Por ejemplo, cuando salió Llama 2 de Meta, se publicaron apartados sobre sesgos y toxicidad además de las métricas de rendimiento, en línea con la filosofía de HELM de cubrir riesgos. Asimismo, HELM sirve de guía para usuarios avanzados y reguladores: al consultar su tablero, uno puede identificar qué modelos han sido evaluados extensamente y cómo se comparan. Esto aporta confianza (o identifica carencias). En el entorno empresarial, HELM es un punto de referencia para decidir la adopción de modelos: una empresa preocupada por contenido dañino mirará en HELM cuál modelo tiene menor toxicidad en las pruebas, otra enfocada en rendimiento verá quién lidera en precisión.
Cómo ayudan estas evaluaciones en la práctica
Hemos visto varias formas de evaluar modelos de lenguaje. ¿Cómo se aprovecha todo esto a nivel práctico, ya sea en una empresa o en investigación? Hay tres usos clave:
Elegir el modelo de lenguaje adecuado: Si disponemos de varios modelos (de proveedores distintos, o versiones open-source), los resultados de estos benchmarks nos orientan sobre cuál elegir para una tarea específica. Por ejemplo, si necesitamos un asistente para resolver problemas de programación, revisaremos los puntajes en HumanEval y otros benchmarks de código para ver qué modelo destaca en esa habilidad. Si en cambio buscamos un modelo con amplio conocimiento y buen desempeño general en lenguaje, miraremos MMLU, Big-Bench, AGIEval, etc. Para aplicaciones de chatbot de atención al cliente, nos interesará cómo salen en pruebas de diálogo (MT-Bench, Chatbot Arena). Además, estas evaluaciones permiten comparar objetivamente costo-beneficio: tal vez un modelo open-source un poco inferior podría ser suficiente si sus puntajes están cerca del líder, pero con menor costo de uso. En suma, los benchmarks actúan como guía comparativa para tomar decisiones informadas al comprar, licenciar o implementar un LLM.
Detectar sesgos o limitaciones de un modelo: Las evaluaciones no solo sirven para decir “modelo A es mejor que modelo B”, sino para entender en qué falla cada modelo. Por ejemplo, TruthfulQA puede revelar que un modelo fabuloso en otras métricas resulta que frecuentemente da información incorrecta – indicándonos un riesgo de alucinación. O ciertas tareas de BIG-Bench enfocadas en prejuicios pueden mostrar si un modelo tiene sesgos de género o raza marcados en sus respuestas. Incluso métricas como calibración (qué tan bien estima su propia certeza) nos dicen si el modelo es propenso a dar respuestas con mucha confianza aunque esté equivocado. Toda esta información es valiosa para mitigar riesgos: si identificamos un punto débil (p. ej., mal desempeño en preguntas de lógica abstracta), podríamos evitar poner al modelo en situaciones donde eso sea crítico, o bien trabajar para mejorarlo ahí mediante re-entrenamiento o prompt engineering. En contextos sensibles (salud, legal, etc.), correr evaluaciones especializadas (por ejemplo, un subset médico de HELM) ayuda a auditar el modelo antes de desplegarlo, detectando sesgos o errores potencialmente dañinos. Básicamente, los benchmarks actúan como exámenes médicos del modelo: revelan dónde “goza de salud” y dónde hay que tener precaución.
Validar el desempeño de modelos propios o comerciales: Si desarrollamos un nuevo modelo (o afinamos uno existente con datos propios), necesitamos verificar que realmente haya mejorado y esté al nivel esperado. Las suites de evaluación permiten hacer control de calidad objetivo. Por ejemplo, si una empresa entrena una versión personalizada de Llama-2, querrá ver si mantiene (o supera) los puntajes de la versión original en MMLU, GSM8K, HumanEval, etc., para asegurarse de que no perdió capacidad general en el proceso. Asimismo, si contratamos un modelo comercial (vía API), podemos probarlo en algunos benchmarks relevantes para confirmar que el rendimiento se alinea con lo prometido por el proveedor. Muchas organizaciones corren internamente un conjunto de benchmarks antes de desplegar un modelo en producción, como prueba de aceptación. Esto da confianza de que el modelo cumplirá con los estándares. Además, al monitorear periódicamente con evaluaciones, se puede detectar si una actualización del modelo mejoró algo (por ejemplo, subió 5 puntos en verdad factual) o introdujo una regresión (bajó en cierto dominio). En definitiva, usar estas evaluaciones es fundamental para validar y mantener la calidad de los LLMs, ya sean desarrollos propios o soluciones de terceros.
Recursos para seguir la evolución de las evaluaciones
El campo de los LLMs avanza rápidamente, al igual que sus métodos de evaluación. Para mantenerse al día con nuevos benchmarks, resultados y análisis, son útiles los siguientes recursos actualizados:
Artificial Analysis (artificialanalysis.ai) – Sitio web independiente que compara y analiza modelos de IA. Publica rankings de más de 30 LLMs en múltiples métricas (calidad, precio, velocidad, etc.) incluyendo un “Índice de Inteligencia” basado en resultados de benchmarks como MMLU, BBH, MATH, etc. y actualizaciones periódicas. Sus informes y metodologías ayudan a entender las diferencias de rendimiento entre modelos comerciales y open-source de forma integral.
Hugging Face Open LLM Leaderboard– Leaderboard abierto mantenido por Hugging Face y la comunidad, donde se evalúan cientos de modelos de lenguaje abiertos usando una batería de benchmarks estandarizados (por ejemplo: MMLU, GSM8K, HumanEval, TruthfulQA, entre otros). Proporciona un ranking reproducible y actualizado de modelos según su puntuación combinada y por tarea, mostrando quiénes son los SOTA (state of the art) abiertos en cada categoría. Disponible en la página de Hugging Face.
LMSYS Chatbot Arena Leaderboard – Ranking vivo de la Chatbot Arena (chat.lmsys.org) que lista los modelos conversacionales según su puntuación Elo basada en las comparaciones humanas. Es útil para ver en tiempo real qué modelos de chat lideran en preferencia de los usuarios. El leaderboard refleja datos de miles de partidas y se actualiza a medida que nuevos modelos entran a la arena o reúnen más votos.
HELM (Holistic Evaluation of Language Models) de Stanford – Página y reporte del Centro de Investigación de Modelos Fundamentales (CRFM) de Stanford donde se publican los resultados detallados de HELM. Incluye documentación de los escenarios, métricas y la posibilidad de comparar modelos en diferentes gráficos e informes. Es una referencia clave para entender profundamente las capacidades y riesgos de cada modelo evaluado bajo un mismo estándar.
Papers with Code – Leaderboards – El sitio Papers with Code ofrece leaderboards de investigación para numerosos benchmarks de NLP. Allí se pueden encontrar las descripciones de cada benchmark mencionado (MMLU, ARC, HellaSwag, etc.) y listas de los mejores resultados publicados en cada uno (con enlace a los papers correspondientes). Es muy útil para seguir el estado del arte académico y conocer nuevos benchmarks en aparición, ya que la comunidad misma alimenta estos listados con las últimas publicaciones.
Mantenerse informado es clave, ya que surgen constantemente nuevas formas de probar a los LLMs (desde evaluaciones de multimodalidad, hasta “arenas” automatizadas, pasando por desafíos interactivos). Los recursos mencionados ayudan a no perderle la pista a este ecosistema en rápida evolución.
Un panorama de evaluación en constante evolución
La evaluación de modelos de lenguaje grande es un terreno dinámico y multidimensional. No existe una prueba única que lo diga todo: entender el rendimiento de un LLM implica mirarlo desde varios ángulos – conocimiento factual, razonamiento, código, diálogo, veracidad, bias, eficiencia, etc. – mediante benchmarks cuidadosamente diseñados. Para la comunidad técnica, estos benchmarks son herramientas indispensables para impulsar avances e innovaciones (¡lo que no se mide no mejora!); y para líderes y profesionales, son métricas claras que orientan la toma de decisiones (desde elegir un proveedor de IA hasta garantizar la confiabilidad de un sistema basado en lenguaje). En última instancia, evaluar bien a los LLMs nos permite aprovechar su potencial con mayor confianza, sabiendo tanto lo que pueden hacer extraordinariamente como en qué casos debemos ser cautos. Con la rápida mejora de los modelos, veremos benchmarks volviéndose obsoletos y nuevos surgiendo – pero el objetivo final permanece: lograr modelos de lenguaje más capaces, seguros y útiles, apoyándonos en evaluaciones sólidas para guiar el camino. ¡El panorama de benchmarks evoluciona, al igual que los propios modelos, y mantenerse actualizado nunca ha sido tan importante en el mundo de la IA!
En Artificial Nerds, creemos que el valor de la IA generativa no está únicamente en su capacidad de generar texto o automatizar procesos, sino en su integración inteligente al servicio de los objetivos del negocio. Por eso trabajamos con modelos previamente evaluados, alineamos sus capacidades con los flujos operativos de cada cliente, y garantizamos que la innovación tecnológica venga acompañada de resultados medibles y sostenibles.