¿Cómo evaluamos los grandes modelos de lenguaje?

No es tan fácil como podrías pensar.

Los grandes modelos de lenguaje (LLM), como ChatGPT de OpenAI y Llama de Meta, llevan tiempo transformando nuestras vidas. Sin embargo, con tantos modelos para elegir, mucha gente se pregunta cuál es "el mejor". Para responder a esta pregunta, tanto investigadores como usuarios suelen recurrir a benchmarks y pruebas para ver qué modelo resolvió los problemas de programación más difíciles o obtuvo la puntuación SAT más alta. En esta publicación, argumentaré tres puntos.

Ni los benchmarks ni las pruebas tradicionales son apropiados para evaluar las capacidades de los LLM modernos.
Los LLMs que exhiben habilidades humanas sin poseer inteligencia y cognición humanas añaden dimensiones completamente nuevas al campo de la psicometría.
Se requerirá una investigación exhaustiva para llegar a evaluaciones de LLM cuyos resultados puedan interpretarse con confianza.

Referencias

Tradicionalmente, los benchmarks se han utilizado para evaluar el rendimiento del software y hardware. Un benchmark evalúa el rendimiento de una herramienta haciendo que complete un conjunto de tareas para las que fue diseñada específicamente. Un clasificador de imágenes se compara haciendo que clasifique una selección de imágenes, y un procesador informático se compara ejecutando una serie de cálculos complejos.

Cuando se trata de LLMs, el benchmarking no es sencillo. Primero, los LLM no están entrenados para ninguna tarea específica: pueden usarse para clasificación de texto, pero no son clasificadores de texto; pueden usarse para puntuar ensayos, pero no son puntuadores automáticos, y así sucesivamente. Por lo tanto, cualquier resultado de benchmark depende no solo de qué LLM se haya utilizado, sino también de cómo se haya utilizado. Esta ambigüedad resta credibilidad a los resultados y a menudo conduce a debates, por ejemplo, sobre si un prompt diferente habría dado lugar a resultados distintos.

Otros dos problemas comunes con los benchmarks son la saturación, que significa que todos los modelos recientes se acercan a puntuaciones perfectas, y la contaminación, que significa que algunos o todos los elementos de un benchmark están incluidos en los datos de entrenamiento del modelo. Ambos problemas son especialmente agudos en el caso de los LLMs porque su progreso es rápido y sus datos de entrenamiento contienen prácticamente todo internet.

Debido a estos y otros problemas, muchos benchmarks LLM ofrecen un valor limitado para evaluar la calidad global de un LLM. Esta carencia ha impulsado iniciativas para comparar los benchmarks según diversos criterios de calidad. Estos esfuerzos buscan establecer un conjunto de benchmarks de alta calidad que incluyan conjuntos de problemas cuidadosamente elaborados, monitorizados para saturación y contaminación, y actualizados o recalibrados si es necesario. En este sentido, los benchmarks se están acercando a las pruebas tradicionales donde estas prácticas han sido comunes desde el principio. Sin embargo, pasar del benchmarking a probar IA conlleva su propio conjunto de desafíos.

Pruebas

Prácticamente todo el mundo ha sido evaluado en algún momento de su vida, ya sea para la admisión universitaria, la licencia profesional o el carné de conducir. Estas pruebas son notablemente diferentes de los referentes. Lo más importante es que la capacidad o conocimiento que evalúa un examen es demasiado complejo para medirse directamente. Por ejemplo, la preparación de un estudiante para la universidad no puede evaluarse permitiéndole asistir a una selección de programas de grado. Por lo tanto, los exámenes deben estar cuidadosamente diseñados para ser válidos.

Consideremos dos tipos comunes de evidencia de validez: predictiva y relacionada con el contenido. La evidencia predictiva de la validez de un examen puede establecerse por el grado en que su puntuación predice resultados observables importantes y resultados. Por ejemplo, las puntuaciones del SAT se correlacionan bien con diversas medidas de éxito académico. La evidencia relacionada con el contenido sugiere que la prueba refleja la capacidad evaluada. Por ejemplo, una pregunta de álgebra planteada en un contexto de tenis no debería requerir conocimiento de las reglas del tenis, ni debería responderse solo con el conocimiento de las reglas del tenis.

Los problemas de validez surgen inevitablemente cuando dejamos que los LLM realicen pruebas diseñadas para humanos. Tomemos la evidencia predictiva: un LLM puede sacar nota en el SAT, pero no se matriculará en la universidad; puede aprobar el examen de acceso a la abogacía con nota, pero no representará a los clientes en los tribunales, al menos en el futuro previsible. Problemas similares surgen con la evidencia relacionada con el contenido. Si un humano obtiene una puntuación alta en un examen de álgebra, se podría inferir que entiende y es capaz de aplicar las leyes del álgebra analizadas por los ítems del test. En cambio, la cuestión de cómo resuelven los LLM problemas de álgebra y si realmente aprenden leyes generalizables sigue sin responderse en gran medida. Normalmente, cuanto más complejo es el constructo que se evalúa, más especulativa se vuelve la interpretación de la puntuación de un examen de LLM: ¿Un LLM que obtiene una puntuación alta en un examen de licencia médica realmente demuestra conocimientos de medicina clínica o habilidades de gestión del paciente?

Sin embargo, con más tareas y responsabilidades delegadas a los LLMs, estamos presenciando la aparición de pruebas tempranas diseñadas específicamente para los LLM. Por ejemplo, una empresa que utiliza un LLM para su servicio al cliente necesita probar un nuevo modelo antes de desplegarlo. Aunque estas pruebas pueden comenzar como una colección de benchmarks y comprobaciones de coidad, con el tiempo tienden a volverse más estructuradas e incluir elementos más sofisticados que capturan aspectos importantes de los desafíos que los modelos anteriores encontraron y quizás gestionaron mal. En consecuencia, la prueba se convertirá en un indicador cada vez más informativo de la capacidad de un modelo para satisfacer las necesidades de atención al cliente de la empresa.

Aunque tales "pruebas proto" son útiles, a menudo son propietarias, limitadas en alcance y están impulsadas por necesidades operativas más que por investigaciones científicas.

Desafíos de investigación

Como se argumentó anteriormente, la inteligencia no humana distintiva de los LLMs invalida muchas de las suposiciones que sustentan la teoría de pruebas y la psicometría. Se requerirán esfuerzos de investigación significativos para establecer qué pruebas son apropiadas para los LLMs y qué interpretaciones de los resultados de las pruebas pueden estar respaldadas por experimentos científicamente sólidos.

Además, es poco probable que las grandes redes entrenadas desde cero con enormes conjuntos de datos sigan siendo los únicos sistemas con capacidades similares a las humanas. Por ejemplo, las Arquitecturas Predictivas de Integración Conjunta (JEPA) aprenden de forma más humana observando e interactuando directamente con sus entornos, mientras que las IAs neurosimbólicas se centran en el razonamiento simbólico y la representación explícita del conocimiento. Por tanto, los investigadores podrían encontrarse pronto ante una multitud de tipos diferentes de inteligencia que dan lugar a las mismas habilidades.

Esto plantea preguntas fundamentales: ¿Podemos definir constructos independientemente del tipo subyacente de inteligencia? ¿Es, por ejemplo, la capacidad de "pensar críticamente" la misma para los humanos y para los distintos tipos de IA? Si es así, ¿cómo deberíamos medirla ? ¿Cada tipo de inteligencia requerirá su propia prueba? Por ejemplo, una prueba de pensamiento crítico podría explicar los distintos grados de alfabetización de los examinados, pero probablemente asumirá que todos pueden contar y conocer las direcciones cardinales. Para los LLMs, ocurre lo contrario: son altamente alfabetizados por diseño, pero pueden carecer de habilidades básicas. Mientras no se tengan en cuenta tales diferencias, los resultados de los tests LLM seguirán siendo propensos a malinterpretaciones.

Finalmente, podría haber una interesante fertilización cruzada entre las pruebas de IA y áreas más establecidas de la psicometría. Por ejemplo, factores como la edad, el género, la cultura y la educación, además de los trastornos neurológicos, han demostrado afectar los procesos cognitivos en los individuos. En este contexto, una IA puede verse como un caso extremo de inteligencia neurodivergente. Una mejor comprensión de este caso extremo podría allanar el camino para evaluaciones más personalizadas, justas y objetivas, permitiendo a estudiantes con rasgos cognitivos únicos demostrar todo el espectro de sus competencias.

En conclusión, aunque la evaluación de los LLMs supone un reto considerable, mis compañeros investigadores de ETS y yo estamos entusiasmados con la oportunidad de romper barreras y mejorar las técnicas de la psicometría moderna.

Michael Fauss es científico investigador en el Instituto de Investigación ETS. Su trabajo se centra en la IA ética.

{"teaserCardGridModuleHeader":"La visión impulsa el progreso","teaserCardGridModuleDescription":"Descubre la investigación, las historias e ideas que impulsan la educación, el trabajo y el potencial humano.","teaserCardGridModuleTheme":"ets-xdark","showSeparator":true,"teaserCards":[{"teaserCardTitle":"Descubre la IA en ETS","teaserCardDescription":"Descubre nuestra visión, principios y soluciones de IA, y cómo estamos empoderando a nuestra plantilla con habilidades reales de IA.","teaserCardImage":"/content/dam/ets-org/brands/insights-and-perspectives/ai.png","teaserCardImageAlt":"Imagen 1","teaserCardLink":"/ai.html","enableGatedContent":false,"ctas":[]},{"teaserCardTitle":"Informe de Progreso Humano","teaserCardDescription":"Descubre cómo la misión de ETS cobra vida a través de las personas y el impacto. Estas son historias de transformación, oportunidad y progreso en acción.","teaserCardImage":"/content/dam/ets-org/Rebrand/Photos/insights-teaser-card-image-1.webp","teaserCardImageAlt":"Imagen 2","teaserCardLink":"/human-progress-report.html","enableGatedContent":false,"ctas":[]}],"ctas":[]}