El rápido avance de la IA generativa ha cambiado la forma en que la gente escribe. La IA está ahora integrada en muchas herramientas de escritura cotidianas, ayudando a los usuarios a generar ideas, redactar contenido, revisar frases y mejorar su escritura. Como resultado, la escritura se está convirtiendo cada vez más en un proceso colaborativo entre humanos e IA. Para estudiantes, educadores y organizaciones de evaluación, esto plantea una pregunta fundamental: cuando la IA se convierte en parte del proceso de escritura, ¿qué habilidades esenciales debemos valorar y cómo debemos medirlas?
Este cambio también desafía los sistemas de puntuación automatizados existentes, que se desarrollaron principalmente bajo la suposición de que los ensayos eran escritos de forma independiente por humanos. Características como la gramática, el uso, la mecánica y la organización se han utilizado durante mucho tiempo como indicadores de la calidad de la escritura y son una parte clave de muchos modelos de puntuación automatizados. Pero cuando la IA puede mejorar estos aspectos de la escritura con un esfuerzo mínimo, su papel en la puntuación automatizada debe ser reconsiderado. Este desafío es especialmente relevante para tareas de escritura no supervisadas, donde el uso de la IA es difícil de controlar, en lugar de para pruebas formales de escritura supervisadas donde el acceso a estas herramientas puede estar restringido.
Un artículo reciente, "Ensayos generados por IA: características e implicaciones para la puntuación automatizada y la integridad académica", publicado en Educational Measurement: Issues and Practice (EM:IP), explora este tema desde la perspectiva de la Evaluación de Escritura Analítica del GRE. El estudio, que evolucionó a partir de un proyecto de prácticas de verano de ETS, comparó ensayos generados por IA con ensayos escritos por humanos y los evaluó utilizando evaluadores humanos capacitados y el e-ratador automático de puntuación de ETS. Los hallazgos revelan diferencias importantes entre los ensayos generados por IA y los escritos por humanos, y ofrecen perspectivas útiles para la próxima generación de sistemas automatizados de puntuación.
La puntuación automatizada se enfrenta a un nuevo desafío
La puntuación automatizada desempeña un papel importante en la evaluación de escritura a gran escala. Estos sistemas suelen depender de características del lenguaje como gramática, uso, mecánica, estilo, organización y elección de palabras porque pueden calcularse eficientemente con técnicas de PLN. Aunque estas características forman parte del concepto en muchas pruebas de idiomas, en tareas más centradas en la argumentación y el razonamiento, a menudo sirven como indicadores indirectos de una calidad de escritura más profunda que como evidencia directa de la calidad de ideas, evidencias o razonamientos.
Por ejemplo, un estudiante que escribe con gramática precisa, organización clara y párrafos bien desarrollados suele demostrar también habilidades de razonamiento y comunicación más sólidas.
La IA generativa cambia esa relación. Los ensayos generados por IA pueden obtener buenas puntuaciones en características relacionadas con el idioma porque la tecnología puede producir una escritura pulida y bien estructurada. Sin embargo, las características de lenguaje sólidas de los ensayos generados por IA no siempre vienen acompañadas de un razonamiento sólido, un análisis significativo o un pensamiento original.
Como resultado, algunas de las características que tradicionalmente han sido buenos indicadores de calidad de escritura se vuelven menos fiables cuando los ensayos se generan o reciben un gran apoyo de IA.
Lo que encontró el estudio
El estudio reveló dos hallazgos importantes.
Primero, los ensayos generados por IA superaron consistentemente a los ensayos escritos por humanos sobre características relacionadas con el lenguaje, incluso cuando las ideas o argumentos subyacentes eran relativamente limitados. En segundo lugar, los evaluadores® electrónicos asignaron puntuaciones más altas a los ensayos generados por IA que los evaluadores humanos.
Esta diferencia refleja cómo se han desarrollado tradicionalmente los sistemas automatizados de puntuación. E-rater® fue formado utilizando ensayos escritos por humanos, donde el uso fuerte del lenguaje suele asociarse con una redacción general más sólida. Como resultado, estas características desempeñan un papel importante en el proceso de puntuación.
Los ensayos generados por IA pueden funcionar muy bien en estas características relacionadas con el lenguaje, aunque aún carecen de un razonamiento analítico sólido, el uso de evidencias y la profundidad del argumento. Cuando el evaluador® electrónico asigna los mismos pesos a estas características al evaluar ensayos generados por IA, inflará las puntuaciones.
Los evaluadores humanos, en cambio, evalúan no solo la calidad del lenguaje, sino también la calidad del razonamiento, el uso de la evidencia y el desarrollo de ideas, según la rúbrica de puntuación. Esto explica por qué los evaluadores humanos no puntuaron los ensayos generados por IA tan alto como el sistema automatizado.
Es importante destacar que estos hallazgos no sugieren que e-rater® tenga fallos. Más bien, destacan cómo la IA generativa ha cambiado algunas de las suposiciones sobre las que se construyeron los sistemas de puntuación automatizados existentes.
Qué necesita la puntuación automatizada a continuación
Los sistemas automáticos de puntuación hacen más que asignar puntuaciones. Antes de comenzar la puntuación, normalmente comprueban si una respuesta es adecuada para la puntuación. Tradicionalmente, este paso se ha centrado en señalar ensayos fuera de tema, inusualmente cortos o largos, repetitivos, memorizados o que no son apropiados para la puntuación.
A medida que la escritura asistida por IA se vuelve más común, este proceso inicial de selección debe ampliarse para identificar respuestas generadas o fuertemente asistidas por IA cuando no se permite su uso. De hecho, los hallazgos del artículo EM:IP muestran que los ensayos generados por una variedad de modelos de IA generativa pueden detectarse con alta precisión. Sin embargo, los métodos de detección deberán actualizarse continuamente a medida que surjan nuevos modelos de IA.
Al mismo tiempo, los sistemas automatizados de puntuación deben reconsiderar cuánto énfasis dan a los distintos aspectos de la escritura. Las características superficiales del lenguaje pueden ser indicadores menos útiles de un razonamiento más profundo en la escritura cuando la IA puede mejorarlas con un esfuerzo mínimo.
Los sistemas futuros deberían poner mayor énfasis en cualidades más profundas de la escritura, como el uso efectivo de la evidencia, la calidad del razonamiento, la profundidad del análisis y la fuerza del argumento.
El futuro de la evaluación escrita
La escritura asistida por IA ha llegado para quedarse. A medida que estas herramientas se convierten en parte de la escritura cotidiana, la cuestión central ya no es cómo detectar o prevenir su uso, sino cómo redefinir lo que esperamos medir a partir de la escritura en este nuevo entorno.
Responder a esa pregunta requerirá acuerdo en varios temas importantes, incluyendo qué nivel de habilidad de escritura independiente se espera, qué tipos de ayuda de IA son adecuadas y qué evidencia debe utilizarse para evaluar la calidad de la escritura. Los sistemas de puntuación automatizados deben evolucionar junto con esta conversación más amplia, para que sigan apoyando juicios válidos y significativos sobre la escritura en la era de la IA.