La teoría detrás del programa TOEIC

¿Cómo se puede determinar si una prueba es adecuada para el propósito para el que fue diseñada? Esta cuestión fundamental de validez es una preocupación para los desarrolladores de pruebas, investigadores y usuarios de puntuaciones. Los estándares profesionales han adoptado la idea de que los desarrolladores de pruebas deben convencer a los interesados (es decir, a cualquier persona afectada por la prueba) de que el uso previsto de una prueba está debidamente respaldado o justificado. Esta visión se formaliza en el enfoque basado en argumentos para justificar el uso de pruebas.

El artículo Articulando y evaluando argumentos de validez para los tests TOEIC ^® ofrece una introducción accesible al enfoque basado en argumentos, su implementación para las pruebas TOEIC y sus beneficios percibidos para las partes interesadas.

El artículo comienza con una breve visión general del argumento del uso de la evaluación, un enfoque destacado basado en argumentos para la validación. A continuación, describe el proceso utilizado para construir argumentos de validación en las pruebas TOEIC.

Este proceso incorporó evidencia de diversas fuentes, incluyendo documentación de pruebas, actividades de seguimiento e investigación. Finalmente, el artículo ofrece una visión general de las dos formas principales en que se utilizan los argumentos de validación del TOEIC: priorizar la investigación y comunicarse con las partes interesadas.

En conjunto, este proceso demuestra cómo la investigación del TOEIC adopta un enfoque amplio, crítico y riguroso para apoyar el uso adecuado de las pruebas TOEIC. Este trabajo también pretende mejorar la alfabetización en la evaluación de los interesados centrándose en las afirmaciones críticas que todos los desarrolladores de pruebas deberían apoyar.

Propósito

El enfoque basado en argumentos para justificar el uso de las pruebas presupone que los desarrolladores deben convencer a las partes interesadas (es decir, a cualquier persona afectada por la prueba) de que el uso previsto de la prueba está justificado. Con este fin, el desarrollador de la prueba hace afirmaciones explícitas sobre cómo deben interpretarse y utilizarse las puntuaciones de las pruebas para tomar decisiones. Estas afirmaciones están respaldadas o socavadas por evidencias que pueden incluir documentación del proceso de desarrollo de la prueba y/o investigaciones en curso. A través del examen de las afirmaciones del desarrollador de la prueba y la evidencia que las respalda, las partes interesadas pueden llegar a una evaluación global de si el uso previsto de la prueba está justificado. Este enfoque se utiliza para:

Desarrollo de pruebas guías
proporcionar dirección para la investigación en curso
servir como herramienta de rendición de cuentas para diferentes grupos de interés

Estructura

Un Argumento de Uso de la Evaluación es "un marco conceptual para guiar el desarrollo y uso de una evaluación lingüística particular, incluyendo las interpretaciones y usos que hacemos a partir de la evaluación" (Bachman y Palmer, 2010, 99). El marco está estructurado como un conjunto jerárquico de afirmaciones hechas por el desarrollador del test sobre cómo deben interpretarse y utilizarse las puntuaciones de los tests para tomar decisiones. Adopta la siguiente forma general:

Graphic showing test performance leading to score, leading to score interpretation, leading to decision, leading to consequences

Cada componente en la figura anterior representa una afirmación. Al nivel más alto, el desarrollador de la prueba puede afirmar que las consecuencias que resultan de las decisiones tomadas basándose en la prueba son beneficiosas para todos los grupos de interés (por ejemplo, se han minimizado los errores de decisión). Esto presupone una afirmación respecto a las decisiones derivadas de las interpretaciones de la puntuación — específicamente, que las decisiones son equitativas y sensibles a los valores de las instituciones relevantes (educativas, sociales, organizativas, legales). Para justificar interpretaciones sobre las capacidades de los examinados basadas en las puntuaciones, el desarrollador de la prueba hace afirmaciones sobre la significabilidad, imparcialidad, generalizabilidad, relevancia y suficiencia de las interpretaciones. Finalmente, todas estas afirmaciones se basan en la afirmación fundamental de que las puntuaciones basadas en el desempeño de los examinados son consistentes entre los formularios de prueba, administraciones y evaluadores. Así, cada afirmación en una AUA consiste en:

un resultado del uso de pruebas (por ejemplo, las decisiones que se derivan de interpretaciones sobre las capacidades de los examinados)
cualidades de ese resultado (por ejemplo, decisiones sensibles a los valores y equitativas)

Tanto los responsables de la toma de decisiones como los desarrolladores de pruebas comparten la responsabilidad de justificar el uso de la evaluación. Se espera que los desarrolladores de pruebas aporten pruebas que respalden la afirmación de que las puntuaciones son consistentes y que las puntuaciones pueden utilizarse para interpretar las capacidades de los examinados. Los responsables deben demostrar que las decisiones son sensibles a los valores y equitativas, y que las consecuencias de las decisiones son beneficiosas. Desafortunadamente, los responsables pueden carecer de la experiencia necesaria para proporcionar un respaldo adecuado a estas afirmaciones (por ejemplo, documentación de la configuración de estándares, estimaciones de errores en las decisiones). En consecuencia, una AUA puede mejorarse mediante la colaboración entre los responsables de la toma de decisiones y los desarrolladores de pruebas. Como mínimo, los desarrolladores de las pruebas deberían buscar retroalimentación de los responsables para determinar si las afirmaciones sobre las decisiones y consecuencias basadas en el uso de las pruebas pueden estar justificadas.

Utilidad

En conjunto, la estructura de un AUA proporciona una base para una justificación integral del uso de pruebas que vincula preocupaciones del mundo real sobre decisiones y sus consecuencias con las preocupaciones tradicionales de los desarrolladores de pruebas: fiabilidad y validez. Como una lista exhaustiva de afirmaciones, garantías, respaldos y refutaciones, puede utilizarse para identificar debilidades en el argumento general a favor del uso de pruebas y priorizar proyectos de investigación o desarrollo de pruebas.

Finalmente, como un conjunto jerárquico simple de afirmaciones (como se muestra en la figura anterior), un AUA puede utilizarse como herramienta de comunicación que ilustra los aspectos clave que determinan cualidades importantes de la utilidad de una prueba, incluyendo la equidad, el impacto, la fiabilidad y la validez. Las preocupaciones de individuos y grupos de interés varían, y uno de los retos para la investigación es abordarlas de manera coherente, al tiempo que se mejora la alfabetización evaluativa de los interesados. Las preocupaciones pueden incluir:

Consistencia de puntuación
"¿Cómo puedes asegurarte de que todos los evaluadores sigan las guías de puntuación?"
La interpretación de las puntuaciones
"Cuando calculamos la validez del criterio, ¿quién o qué es el criterio?"
Las decisiones basadas en estas interpretaciones
"¿Cuáles son los recortes en otras instituciones?"
Consecuencias del uso de pruebas
"¿Cómo han sido útiles los tests TOEIC para los buscadores de empleo?"
Uso de prueba relacionado con varios de estos problemas
"¿Cómo pueden los reclutadores saber que las puntuaciones del TOEIC satisfacen las necesidades del mercado?"

Al ofrecer versiones de una AUA orientadas a grupos de interés específicos, un desarrollador de pruebas con un programa de investigación sólido puede ayudar a los interesados a encontrar respuestas a sus preguntas y convertirse en consumidores más sofisticados de productos de evaluación.

En el artículo "Defendiendo la calidad y el uso de una nueva evaluación de competencia lingüística: argumento de validez para las pruebas TOEIC Bridge rediseñadas, ofrecemos una descripción de cómo se han implementado este enfoque para las ^® pruebas TOEIC Bridge rediseñadas." En este artículo, los investigadores describen la evidencia que respalda afirmaciones específicas sobre la consistencia de las puntuaciones, la interpretación de las puntuaciones de las pruebas, las decisiones basadas en las puntuaciones y las consecuencias del uso de las pruebas. Esta síntesis anima a las partes interesadas a interactuar críticamente con las afirmaciones reales (y la evidencia) sobre qué mide una prueba y cómo se pretende utilizar. Este nivel de implicación puede ayudar a las partes interesadas a comprender mejor si las pruebas están bien adaptadas a sus necesidades, así como su papel en facilitar el uso eficaz de las mismas.

Bachman, L. F., & Palmer, A. (2010). Evaluación del lenguaje en la práctica. Oxford: Oxford University Press.

Schmidgall, J. (2017). Articulación y evaluación de argumentos de validez para las pruebas TOEIC^® (Memorando de Investigación nº RM-13-09). ETS.

Schmidgall, J., Cid, J., Carter Grissom, E., & Li, L. (2021). Argumentando la calidad y el uso de una nueva evaluación de competencia lingüística: Argumento de validez para los rediseñados Tests Puente^® TOEIC (Informe de investigación nº RR-21-20). ETS .

Investigación TOEIC®

Avanzar en la evaluación, enseñanza y aprendizaje del idioma inglés

La teoría detrás del programa TOEIC

Propósito

Estructura

Utilidad

Investigación TOEIC®

Avanzar en la evaluación, enseñanza y aprendizaje del idioma inglés

La teoría detrás del programa TOEIC

The Argument-based Approach

The Purpose, Structure and Utility of an Assessment Use Argument (AUA)

Propósito

Estructura

Utilidad

Implementations of this Approach for TOEIC Tests

Reference